121018
FAD-Møte 18.10.2012
Til stades: Børre, Ciprian, Marja, Trond, Berit Merete
Saker:
- Ordparallellisering
- Setningsparallellisering
- Rutiner
- Arbeidsfordeling
- Arbeidsfordeling
- Arbeid framover
- Neste møte
Issues for the next meeting:
2. synching the tmx-toktmx files
work_in_progress>wc -l input_data_t*/*
3. analysis and improvement of the output file of the word alignment step
Ordparallellisering
Vi har eit ordparallellisert output, men det er ikkje brukbart,
Setningsparallellisering
Rutiner
Oversikt over heile pipeline
Pipeline var feil: det var tredobbel preprosessering.
toktmx er setningsalignment. Det bør gå til ???, tmx bør gå
- tmx:
- <seg>Báiki: Samelandssenter, Kárášjohka</seg>
- <seg>Áigi: guovvamánu 23. - 26. b. 1999</seg>
- <seg>Báiki: Samelandssenter, Kárášjohka</seg>
- toktmx:
- <seg>Báiki : Samelandssenter , Kárášjohka</seg>
- <seg>Áigi : guovvamánu 23. - 26. b. 1999</seg>
- <seg>Báiki : Samelandssenter , Kárášjohka</seg>
tca2 må ha tokenisert input. Ergo har vi toktmx.
Problemet er at obt har ein preprosesserar inne i taggaren sin.
tmx og toktmx er ikkje i sync fordi vi har konvertert til
tmx er originalstreng.
Rutine:
- ta toktmx som input
- køyr corpusparallel.py
01_readme_FAD-pipeline.txt
Forbetring
plan- og bygningsloven: "<plan->" "plan-" ukjent "<og>" "og" konj "<bygningsloven>" "bygningslov" subst appell mask be ent <*lov>
/big/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/20121014_data
Arbeidsfordeling
- Konvertering, sentencealignment, wordalignment (Ciprian)
- Missinglister (BM, Márjá)
Arbeid framover
- Konvertere orig på nytt og overføre data til prestable. (Ciprian)
- Sentencealigne på nytt (Ciprian)
- Lage nye sme-missinglister (Ciprian)
- Gå gjennom sme-missingliste, inkl oaţţut, oñña, ieţas (BM, Márjá, Børre)
- Til mandag kl 12: Lage liste over filpar som ikke blir overført til prestable (Ciprian)
- Gå igjennom liste over filpar som ikke blir overført til prestable (BM, Márjá)
- Legge ut dokumentasjon om hvordan rette opp feil i fil-parallelisering (BM, Børre)
- Legge ut dokumentasjon om hvordan rette opp feil i setningsparallelisering (BM, Børre)
Neste møte