120905
Contents:
- Status quo
-
Bugzilla
- 1061 maj P3 Børre Gaup Language identification ignores xml:lang value
- 1390 enh P5 Børre Gaup Recorded typos still in the final format (tmx/toktmx)
- 1391 enh P5 Børre Gaup Parallel files declared in xsl meta file but missing in t...
- 1392 enh P5 Børre Gaup Unspecified translation direction in the meta file in for...@
- 1369 enh P5 Børre Gaup OCR files have been included in our prestable corpus
- Arbeid framover
- Neste møte
FAD-Møte 5.9.2012
Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete
Saker:
- Status quo
- Bugzilla
- Arbeid framover
- Neste møte
Status quo
TODO sidan sist
abbr.txt -bugen i nob er ok, feilen lå i preprocess.
Ny køyring er undervegs (no) med ny abbr. Vi har 2456 filer
Ein grunn er at OCR-filer, bug #1369, har snike seg inn i
Converted data:
parallel_corpus_tmp>find nob2sme/nob -name \*.xml | wc -l 2456 parallel_corpus_tmp>find nob2sme/sme -name \*.xml | wc -l 2456
Prestable data:
prestable>find converted/nob/ -name \*.xml | wc -l 1653 prestable>find converted/sme -name \*.xml | wc -l 1653
Bugzilla
1061 maj P3 Børre Gaup Language identification ignores xml:lang value
xsl-arket kan spesifisere at visse noder har visse språk. Viss du spesifiserer
For liten prosent av mainlang gjeld for 8 filer.
Konklusjon: P4.
1390 enh P5 Børre Gaup Recorded typos still in the final format (tmx/toktmx)
Vi finn ut om den korrekte forma står i ei typos-fil som de facto blir brukt.
Cip snakkar ikkje om den generelle typos.txt, men om den fil-spesifikke (xsl-spesifikke) lista over skrivefeil.
Børre: Vi må sjekke converted, prestable for å sjå om orda
Konklusjon: maj, P2
TODO
-
Børre repeterer Cip sin test grep -r (kommandoen fins i Bugzilla) og oppsummerer.
- Viss feilen er repeterbar må vi sjå på systemet (Børre)
1391 enh P5 Børre Gaup Parallel files declared in xsl meta file but missing in t...
Problem: filnamn.ext og (filnamn.ext.xsl minus .xsl) matchar ikkje.
2 i nob og 3 i sme som er utan innhald. Bugen blir med andre ord mindre og mindre.
Børre: 1391 har to feilkjelder: Nokon har skrive parallellfiler som ikkje har eksistert.
Cip: Eg snakkar om filer i orig, ikkje filer i converted. Jf. nedafor, der same
my_conversion>find orig -type f -name "S*hkavuorru_Gollegiella_-_Keskitalo.doc*" orig/sme/admin/depts/other_files/Sahkavuorru_Gollegiella_-_Keskitalo.doc orig/sme/admin/depts/other_files/Sahkavuorru_Gollegiella_-_Keskitalo.doc.xsl orig/sme/admin/depts/other_files/Sáhkavuorru_Gollegiella_-_Keskitalo.doc.xsl
Konklusjon: maj, P2
1392 enh P5 Børre Gaup Unspecified translation direction in the meta file in for...@
Talet på problematiske filer: 67 ... 8 ... 10 (retninga er i hovudsak god).
Konklusjon: nor, P2, BM
TODO
- Gje liste over filer til BM, M (Cip)
- Gå gjennom filene og finne originalspråk (BM, Marja), og rette i .xsl
1369 enh P5 Børre Gaup OCR files have been included in our prestable corpus
Desse har snike seg med i converted. Børre leiter etter dei. Dette er same
Dette er sametingsprotokollane i perioden ca. 1990-1994.
Konklusjon: Denne buggen er avhengig av 1390. På vent til 1390 er fiksa.
TODO
- Finne ut kor mange ord det er
- Få *.pdf.typos til å fungere (jmf bugzilla nr 1390)
- analysere og evaluere output av fungerande pipeline
- Vurdere om filene skal ut av FAD eller ikkje.
Arbeid framover
Oppdatere korpus
Rutiner for oppdatering av oversettelsesminne - html-filer oppdateres
Samiske tall forteller skal bort fra FAD-korpus.
TODO
- Gå gjennom regjeringen.no på jakt etter .pdf
- Tidsplan:
Prestable
Dagens prestable blir no frose (slik at vi kan diffe data).
Det er 10 filer som har underspesifisert retning (dei peiker på
Sjekke filpar på grensen til å bli godkjent.
Det er visse typos som ikkje blir korrigert, sjølv om ordforma
TODO
- Børre skal generere ny konvertering, til prest2
- Vi sjekkar om differensen framleis er 803.
- Deretter går vi gjennom dei 803 (Marja, BM)
- Sjekke retning på 10 filer (Cip finn dei
Tidsplan
Starte med å sjå på ordparallellisering den 24.9.
Neste møte
Onsdag 19.9. 2012 kl 13.00.