121018

Contents:

Saker:
Ordparallellisering
Setningsparallellisering
Rutiner
Arbeid framover
Neste møte

FAD-Møte 18.10.2012

Til stades: Børre, Ciprian, Marja, Trond, Berit Merete

Saker:

Ordparallellisering
Setningsparallellisering
Rutiner
- Arbeidsfordeling
Arbeid framover
Neste møte

Issues for the next meeting: 1. documenting the whole working cycle and the responisibilities for each step

2. synching the tmx-toktmx files

work_in_progress>wc -l input_data_t*/* 109345 input_data_tmx/data.nob 109345 input_data_tmx/data.sme 150781 input_data_toktmx/data.nob 150781 input_data_toktmx/data.sme

3. analysis and improvement of the output file of the word alignment step

Ordparallellisering

Vi har eit ordparallellisert output, men det er ikkje brukbart, pga. problem med tredobbel preprosessering. Sjå punkt om rutiner lenger ned.

Setningsparallellisering

Rutiner

Oversikt over heile pipeline

Pipeline var feil: det var tredobbel preprosessering. Cip tok data frå tmx, men nye filer er ikkje "i synch med tmx". Börre genererer tmx og toktmx (Sjur ville ha tmx for CAT-arbeid, og toktmx (ekstra mellomrom).

toktmx er setningsalignment. Det bør gå til ???, tmx bør gå til preprosessering.

tmx:
- <seg>Báiki: Samelandssenter, Kárášjohka</seg>
- <seg>Áigi: guovvamánu 23. - 26. b. 1999</seg>
toktmx:
- <seg>Báiki : Samelandssenter , Kárášjohka</seg>
- <seg>Áigi : guovvamánu 23. - 26. b. 1999</seg>

tca2 må ha tokenisert input. Ergo har vi toktmx. For vidare analyse treng vi utokenisert. Vi får utokenisert ved å endre frå toktmx til tmx med toktmx2tmx.py.

Problemet er at obt har ein preprosesserar inne i taggaren sin. Dei må ha setning som input, og ikkje ord-per-linje.

tmx og toktmx er ikkje i sync fordi vi har konvertert til toktmx men ikkje til tmx. Det er to ulike trinn, til toktmx er trinn n, og til tmx er trinn n+1. Dette er ikkje automatisert.

tmx er originalstreng.

Rutine: Konvertere til xml: convert2xml.pl Finne parallelle filer: pick-parallel-doc.pl Sentence alignment: corpus-parallel.py -> gir toktmx Pynte toktmx: toktmx2tmx.py -> gir tmx

ta toktmx som input
køyr corpusparallel.py

01_readme_FAD-pipeline.txt

Forbetring

plan- og bygningsloven:

"<plan->"
        "plan-" ukjent 
"<og>"
        "og" konj 
"<bygningsloven>"
        "bygningslov" subst appell mask be ent <*lov>

/big/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/20121014_data

Arbeidsfordeling

Konvertering, sentencealignment, wordalignment (Ciprian)
Missinglister (BM, Márjá)

Arbeid framover

Konvertere orig på nytt og overføre data til prestable. (Ciprian)
Sentencealigne på nytt (Ciprian)
Lage nye sme-missinglister (Ciprian)
Gå gjennom sme-missingliste, inkl oaţţut, oñña, ieţas (BM, Márjá, Børre)
Til mandag kl 12: Lage liste over filpar som ikke blir overført til prestable (Ciprian)
Gå igjennom liste over filpar som ikke blir overført til prestable (BM, Márjá)
Legge ut dokumentasjon om hvordan rette opp feil i fil-parallelisering (BM, Børre)
Legge ut dokumentasjon om hvordan rette opp feil i setningsparallelisering (BM, Børre)

Neste møte

Fredag 26. oktober kl 10