120830

Møte, FAD, 30.8.2012

Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete

Saksliste

  • Status quo
    • setningar
    • ord
  • Arbeid framover

Status quo

Setningar

Ciprian kan køyre pipeline. Showstopper er Trond, som ikkje har retta nob/src/abbr.txt.

Børre har flytta tekstar frå språkkatalogane til mixed-katalogane. Vi har dermed ikkje same prestable som før.

Børre har laga ei bra pipeline for python.

Input frå Børre: Informasjon om metafiler til kvar fil: Det kan mangle peikarar i dei tilfella der fila er flytta frå katalog til katalog, og der det er dobbeltfiler.

Originalspråk: Metafiler manglar informasjon om retning, og om språk.

Ciprian køyrer setningsparallellisering på nytt, og genererer ein ny prestable. Den nye blir referanse for arbeidet med abbr.

TODO

  • Børre ser på samsvar mellom fil og metafil.
  • Ciprian sendar setningspar til Trond
  • Trond endrar nob/src/abbr.txt slik at vi får same output som sme.
  • Parallelt (sic: ) Ciprian køyrer ny prestable, input frå Børre.
  • Nye namn til preprestable / gogoX + dokumetasjon (Ciprian)

Ord

Når tiltaka under setningsparallellisering er gjennomført (sjå ovafor) køyrer Ciprian ordparallellisering på nytt.

TODO

  • Køyre ny versjon (etter setningsparallellisering) Ciprian
  • Sjekke ordparallelliseringa Marja, Berit Merete
  • Diskutere grensenivå for konfidens.

Forbetringar i prosessen

  • lagra kvar versjon av konvertert materiale, spar dei siste to-tre versjonane. På det viset er det lett å jamføra resultatet av ulike konverteringar, slik at ein lett kan sjå kva som har endra seg.

Arbeid framover

Bugar

  • 1074 nor P5 Possible infinite template recursion because of input data
  • 1170 nor P3 Soft hyphens should be converted to <hyph/>
  • 1172 nor P5 Recent svn (r47755) breaks encoding conversion when speci...
  • 1369 enh P5 OCR files have been included in our prestable corpus
  • 1387 nor P5 Doubled content in the toktmx files in the nob2sme sente...
  • 1389 cri P3 files in orig directory lacking an xsl meta file
  • 1390 enh P5 Recorded typos still in the final format (tmx/toktmx)
  • 1391 enh P5 Parallel files declared in xsl meta file but missing in t...
  • 1392 enh P5 Unspecified translation direction in the meta file in for...

Moment til ein neste fase

Manuelt arbeid med utgangspunkt i norskspråklege forvaltningsordbøker eller -ordlister.

Dependensanalyse og MWE i parallellisering.

Neste møte

Onsdag 5.9., kl. 1300.