120905

FAD-Møte 5.9.2012

Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete

Saker:

  • Status quo
  • Bugzilla
  • Arbeid framover
  • Neste møte

Status quo

TODO sidan sist

abbr.txt -bugen i nob er ok, feilen lå i preprocess. i, æ, ø, å introduserte punktum foran stor neste bokstav.

Ny køyring er undervegs (no) med ny abbr. Vi har 2456 filer som har peikarar og blir konvertert. 1653 filer blir overført til prestable, dei 2456-1653=803 filpara er (nesten) tom, eller forholdet i tekstmengda mellom dei to filene i paret er for skeivt.

Ein grunn er at OCR-filer, bug #1369, har snike seg inn i resultatet.

Converted data:

parallel_corpus_tmp>find nob2sme/nob -name \*.xml | wc -l
    2456
parallel_corpus_tmp>find nob2sme/sme -name \*.xml | wc -l
    2456

Prestable data:

prestable>find converted/nob/ -name \*.xml | wc -l
    1653
prestable>find converted/sme -name \*.xml | wc -l
    1653

Bugzilla

1061 maj P3 Børre Gaup Language identification ignores xml:lang value

xsl-arket kan spesifisere at visse noder har visse språk. Viss du spesifiserer at dokumentet t.d. er på sme og smj, vil text_cat arbeide med berre dei to språka. Denne spesifiseringa fungerer på dokumentnivå, men ikkje på nodenivå.

For liten prosent av mainlang gjeld for 8 filer.

Konklusjon: P4.

1390 enh P5 Børre Gaup Recorded typos still in the final format (tmx/toktmx)

Vi finn ut om den korrekte forma står i ei typos-fil som de facto blir brukt.

Cip snakkar ikkje om den generelle typos.txt, men om den fil-spesifikke (xsl-spesifikke) lista over skrivefeil.

Børre: Vi må sjekke converted, prestable for å sjå om orda frå filnamn.typos er retta.

Konklusjon: maj, P2

TODO

  • Børre repeterer Cip sin test grep -r (kommandoen fins i Bugzilla) og oppsummerer.
  • Viss feilen er repeterbar må vi sjå på systemet (Børre)

1391 enh P5 Børre Gaup Parallel files declared in xsl meta file but missing in t...

Problem: filnamn.ext og (filnamn.ext.xsl minus .xsl) matchar ikkje.

2 i nob og 3 i sme som er utan innhald. Bugen blir med andre ord mindre og mindre.

Børre: 1391 har to feilkjelder: Nokon har skrive parallellfiler som ikkje har eksistert. Vi ser no på dei konverterte filene og ser om vi manglar parallellfiler. Ofte manglar filene fordi det ikkje har vorte konvertert. Det er mogleg at språkattkjenninga har sagt at det er for mykje norsk der, eller det er for mange språk der.

Cip: Eg snakkar om filer i orig, ikkje filer i converted. Jf. nedafor, der same fil er ført opp to gonger, ein gong med a og ein gong med á.

my_conversion>find orig -type f -name
"S*hkavuorru_Gollegiella_-_Keskitalo.doc*"
orig/sme/admin/depts/other_files/Sahkavuorru_Gollegiella_-_Keskitalo.doc
orig/sme/admin/depts/other_files/Sahkavuorru_Gollegiella_-_Keskitalo.doc.xsl
orig/sme/admin/depts/other_files/Sáhkavuorru_Gollegiella_-_Keskitalo.doc.xsl

Konklusjon: maj, P2

1392 enh P5 Børre Gaup Unspecified translation direction in the meta file in for...@

Talet på problematiske filer: 67 ... 8 ... 10 (retninga er i hovudsak god).

Konklusjon: nor, P2, BM

TODO

  • Gje liste over filer til BM, M (Cip)
  • Gå gjennom filene og finne originalspråk (BM, Marja), og rette i .xsl

1369 enh P5 Børre Gaup OCR files have been included in our prestable corpus

Desse har snike seg med i converted. Børre leiter etter dei. Dette er same fenomen som #1390.

Dette er sametingsprotokollane i perioden ca. 1990-1994.

Konklusjon: Denne buggen er avhengig av 1390. På vent til 1390 er fiksa.

TODO

  • Finne ut kor mange ord det er
  • Få *.pdf.typos til å fungere (jmf bugzilla nr 1390)
  • analysere og evaluere output av fungerande pipeline
  • Vurdere om filene skal ut av FAD eller ikkje.

Arbeid framover

Oppdatere korpus

Rutiner for oppdatering av oversettelsesminne - html-filer oppdateres automatisk. Hvordan skal vi håndtere pdf-tekster? Manuell redigering av store pdf-dokument fordi store dokument ofte er skjeve, dvs at ikke alle kapitler blir oversatt til samisk.

Samiske tall forteller skal bort fra FAD-korpus. Hvor er det rapportert? I forbindelse med Gullkorpus-arbeidet.

TODO

  • Gå gjennom regjeringen.no på jakt etter .pdf
  • Tidsplan:

Prestable

Dagens prestable blir no frose (slik at vi kan diffe data). Det skal lages en ny prestable.

Det er 10 filer som har underspesifisert retning (dei peiker på kvarandre). Det som manglar her er å finne rett retning.

Sjekke filpar på grensen til å bli godkjent.

Det er visse typos som ikkje blir korrigert, sjølv om ordforma finst i typos.txt.

TODO

  • Børre skal generere ny konvertering, til prest2
  • Vi sjekkar om differensen framleis er 803.
  • Deretter går vi gjennom dei 803 (Marja, BM)
  • Sjekke retning på 10 filer (Cip finn dei og Marja, BM sjekkar)

Tidsplan

Starte med å sjå på ordparallellisering den 24.9. med atterhald om resultat at 1390-fiksing.

Neste møte

Onsdag 19.9. 2012 kl 13.00.