Meeting_2011-12-14

Parallelliseringsmøte 14.12.2011

Berit Merete, Børre, Sjur, Trond

Saksliste

  • status quo for testbed for gullkorpus
  • status quo for gullkorpus
  • arbeid framover

Status quo for testbed for gullkorpus

  • Tabell er oppe og køyrer, fint.
cat fad_gull_diff_test-res.txt |tr '\n' '™'|sed 's/The diff for /€/g;'|sed 's/The tmx diff /€/g;' | tr '€' '\n' |grep 'nob '|tr '™' '\n'|l

Dette gjev output av typen:

@@ -74 +77,2 @@

-Lámispenš. 16–66 jagi – pr.  1000 ássi(1999 )
+Lámispenš .
+16–66 jagi – pr.  1000 ássi(1999 )

Den andre typen av feil er:

Setningspar:

testing prestable/tmx/goldstandard/nob2sme/laws/other_files/finnmarksloven.pdf.tmx ...

The tmx diff is

Alle innbyggerne i den enkelte kommune har rett til utnyttelse av visse naturressurser innenfor kommunens grenser , blant annet egg- og dunsanking og begrenset hogst . Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto mearrái .

-Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto mearrái .
+Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto
+mearrái .

Anker:

ocean / hav*, sjø* / meara*, mearr* / meri*, mere* / meara*, X / saelht* saalht*

Den abstrakte tydinga er vanlegare enn den konkrete, så vi må få begrenset, grad inn på norsk.

TILTAK

  • Diffane som del av testresultat:
    • alle tre versjonar: tmx, sme, nob.
    • sme, nob separat
  • Korpus av forkortingar
    • dra ut par asdf. vs. asdf. frå gull/konvertert-fil-para (Børre)
    • evaluere, og lagre som unit-test-dokument (Berit Merete, Trond)

Status quo for gullkorpus

Vi har no to runder

TILTAK

  • Penare tabell (Sjur)
4/345  341/345
3/345  342/345

25% 75% 0,0x%

Arbeid framover

Spm. er strategi for forbetring:

Forbetring

tca2-parametersetjing

Bruk gullkorpuset som referanse, og sjå om det er mogleg å få betre resultat ved hjelp av andre parameterverdiar i tca2.

Jf. dokumentasjon. Vi bruker i dag standardverdiar, som er laga for norsk-engelsk.

  1. Setningslengde (eit empirisk spm)
  2. Dice
  3. Vekting av dei ulike komponentane

TILTAK

  • Test dei tre parameterverdiane (Børre)

Ankerfil

  1. Lese ankerfila med eit kritisk blikk (Børre, Trond, Berit Merete)
  2. Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen, sjå på mest frekvente missing, (Sjur)
    1. prestable/tmx/.../sme/... og gjennom ein anchor.fst for sme
    2. prestable/tmx/.../nob/... og gjennom ein anchor.fst for nob
    3. Legge til i anchor (Børre, Trond, Berit Merete)
  3. Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert

abbr-jobbing

Det føreset nye gullfiler (eller å berre lese gjennom resultat)

TILTAK Berit Merete og Trond held fram.

Forbetre konverteringa

pdf: Fjerne topp- og bunntekst.

Terskelnivå

Når har vi eit bra nok resultat til å bedrive ordparallellisering?

TILTAK

  • Spørre folk (Trond)

Neste møte

20.12. kl. 10.00.

(nb! Nye resultat til neste møte)