Meeting_2011-12-14
Parallelliseringsmøte 14.12.2011
Berit Merete, Børre, Sjur, Trond
Saksliste
- status quo for testbed for gullkorpus
- status quo for gullkorpus
- arbeid framover
Status quo for testbed for gullkorpus
- Tabell er oppe og køyrer, fint.
cat fad_gull_diff_test-res.txt |tr '\n' '™'|sed 's/The diff for /€/g;'|sed 's/The tmx diff /€/g;' | tr '€' '\n' |grep 'nob '|tr '™' '\n'|l
Dette gjev output av typen:
@@ -74 +77,2 @@ -Lámispenš. 16–66 jagi – pr. 1000 ássi(1999 ) +Lámispenš . +16–66 jagi – pr. 1000 ássi(1999 )
Den andre typen av feil er:
Setningspar:
testing prestable/tmx/goldstandard/nob2sme/laws/other_files/finnmarksloven.pdf.tmx ...
The tmx diff is
Alle innbyggerne i den enkelte kommune har rett til utnyttelse av visse naturressurser innenfor kommunens grenser , blant annet egg- og dunsanking og begrenset hogst .
-Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto mearrái . +Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto +mearrái .
Anker:
ocean / hav*, sjø* / meara*, mearr* / meri*, mere* / meara*, X / saelht* saalht*
Den abstrakte tydinga er vanlegare enn den konkrete, så vi må få begrenset, grad inn på norsk.
TILTAK
- Diffane som del av testresultat:
- alle tre versjonar: tmx, sme, nob.
- sme, nob separat
- alle tre versjonar: tmx, sme, nob.
- Korpus av forkortingar
- dra ut par asdf. vs. asdf. frå gull/konvertert-fil-para (Børre)
- evaluere, og lagre som unit-test-dokument (Berit Merete, Trond)
- dra ut par asdf. vs. asdf. frå gull/konvertert-fil-para (Børre)
Status quo for gullkorpus
Vi har no to runder
TILTAK
- Penare tabell (Sjur)
4/345 341/345 3/345 342/345 25% 75% 0,0x%
Arbeid framover
Spm. er strategi for forbetring:
Forbetring
tca2-parametersetjing
Bruk gullkorpuset som referanse, og sjå om det er mogleg å få betre resultat ved hjelp av andre parameterverdiar i tca2.
Jf. dokumentasjon. Vi bruker i dag standardverdiar, som er laga for norsk-engelsk.
- Setningslengde (eit empirisk spm)
- Dice
- Vekting av dei ulike komponentane
TILTAK
- Test dei tre parameterverdiane (Børre)
Ankerfil
- Lese ankerfila med eit kritisk blikk (Børre, Trond, Berit Merete)
- Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen, sjå på mest frekvente missing, (Sjur)
- prestable/tmx/.../sme/... og gjennom ein anchor.fst for sme
- prestable/tmx/.../nob/... og gjennom ein anchor.fst for nob
- Legge til i anchor (Børre, Trond, Berit Merete)
- prestable/tmx/.../sme/... og gjennom ein anchor.fst for sme
- Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert
abbr-jobbing
Det føreset nye gullfiler (eller å berre lese gjennom resultat)
TILTAK
Forbetre konverteringa
pdf: Fjerne topp- og bunntekst.
Terskelnivå
Når har vi eit bra nok resultat til å bedrive ordparallellisering?
TILTAK
- Spørre folk (Trond)
Neste møte
20.12. kl. 10.00.
(nb! Nye resultat til neste møte)