130104
FAD- og korpusmøte 4.1.2013
Til stades: Berit Merete, Marja, Ciprian, Trond
Saker:
- Status
- Euralex
- nobsme
- Arbeid framover med FAD
- Neste møte
Status for FAD
Vi hadde: ap-pipeline med manuell sjekk.
fad_nobsme_candidates_gt-pl.20121213
Viktig poeng: Same input for gt og ap. Resultatet kan danne
Euralex
Vi laga dette formatet til Euralex, parallel, i katalog
- nobsent<tab>smesent
Ciprian har laga ein ny versjon av parallellkorpuset for Euralex.
Alle er fornøgd, og har no ein betre parallellversjon.
nobsme
Marja har arbeidd med eksempelsetningar. Problem:
Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang
Arbeid framover med FAD
(jf. også siste møtereferat):
- gt-parallellisering (enkle punkt til måndag, vanskelege punkt til neste mandag)
- Filtrere bort modalverb frå gt-output (Cip)
- Filtrere bort plusslause parallellar som allereie er på plass via ap-output
- Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)
- Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)
- Filtrere bort modalverb frå gt-output (Cip)
- integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)
I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +.
Vi må ha ei rein liste som er simple-simple.
main/words/dicts/nobsme/terms/admin/src
fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | grep '+' | wc -l 1983 src>grep '<t' fad_nobsme.20121130_merged_simp.xml | wc -l 14058
Neste møte
- I filmfestivalveka.