130104

FAD- og korpusmøte 4.1.2013

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

  • Status
  • Euralex
  • nobsme
  • Arbeid framover med FAD
  • Neste møte

Status for FAD

Vi hadde: ap-pipeline med manuell sjekk. Har vi no: gt-pipeline? Ja.

fad_nobsme_candidates_gt-pl.20121213

Viktig poeng: Same input for gt og ap. Resultatet kan danne grunnlaget for ein vitskapleg artikkel (kva metode er best).

Euralex

Vi laga dette formatet til Euralex, parallel, i katalog big/gt/sme/parallel_nob2sme. Det er på formatet:

  • nobsent<tab>smesent

Ciprian har laga ein ny versjon av parallellkorpuset for Euralex.

Alle er fornøgd, og har no ein betre parallellversjon.

nobsme

Marja har arbeidd med eksempelsetningar. Problem: nob-setninga inneheld ikkje nob-ordet.

Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang

Arbeid framover med FAD

(jf. også siste møtereferat):

  1. gt-parallellisering (enkle punkt til måndag, vanskelege punkt til neste mandag)
    1. Filtrere bort modalverb frå gt-output (Cip)
    2. Filtrere bort plusslause parallellar som allereie er på plass via ap-output fra gt-output. = 14058 - 1983 = 12075. (Cip)
    3. Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)
    4. Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)
  2. integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (BM, M)

I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +.

Vi må ha ei rein liste som er simple-simple. Den lista utgjer dei orda som skal fjernast frå gt-output.

main/words/dicts/nobsme/terms/admin/src

fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml

src>grep '<t' fad_nobsme.20121130_merged_simp.xml | grep '+' | wc -l
    1983
src>grep '<t' fad_nobsme.20121130_merged_simp.xml | wc -l
   14058

Neste møte

  • I filmfestivalveka.