Meeting_2012-02-07

Parallelliseringsmøte 7.2.2012

Berit Merete, Børre, Sjur, Ciprian, Trond

Saksliste

  • status for gullkorpus
  • status for parallellføringa
  • status for ordparallellisering
  • status for fase 1
  • arbeid framover

Status for gullkorpus

BM: korleis blir typos-lista brukt? Korleis skal data som ligg i fila sjå ut? Kan ein bruka regulære uttrykk i oppføringane? Svar: nei + kort historikk for typos-fila.

Status: 528 feil (7 færre feil enn førre bestenotering med same data, 95,82 % rett most tidlegare 95,74 %)

TILTAK

  • Doble eller fleire mellomrom som output av preprosessor må skvisast til eitt, for å sikre konsistens. Gullkorpus må dermed også kontrollerast for evt. doble mellomrom.
  • "sør" + punktum
  • "su" + punktum
  • flytte unnimuspenšonista lenger opp i anchor-lista
  • sjekka matsjealgoritmen for ankerlista - er det fyrste treff som gjeld, eller noko anna? Det bør vera lengste treff som vinn, men fyrste treff er ok - då kan vi sortera på lengde (dvs lengst fyrst)
  • skråstrek / treng betre handtering - dvs punktum + skråstrek
    • men ikkje gjer noko med A/S (eller D/S ol.)
  • "dr.polit.-utdanningen" - feil segmentering
  • Det same gjeld punktum pluss alle desse symbola:
/-"«»‹›“”‘’)(][}{=

Status for parallellføringa

Gullstandardtalet i dag er 95,82.

Status for ordparallellisering

Enno ikkje dokumentert, men vi har fått ei lenke

TILTAK

  • Pipeline klar til 13.2.
  • sjå på Giza (Ciprian)
  • diskuter med Francis (Trond)

Status for fase 1

Fase 1: Setningsparallellisere

  1. forbetre parallelliseringa (Børre) - kontinuerleg
  2. leggje til nye tekstar (Børre) - kontinuerleg (og automatisk)
  3. teste tmx i Autshumato (Sjur) - gjort, ser bra ut, krev rein tmx
  4. setje strek og ordparallellisere - dato: 10.2.

Skal vere ferdig på fredag.

Arbeid framover

  • 10.2. parallellisering
  • 10.2. tidsestimat for ordparallellisering
  • 13.2. setningsparallellisert korpus
  • 13.2. pipeline for ordparallellisering
  • konvertera pseudo-tmx til ekte tmx (dvs utan ekstra mellomrom)
  • testa og dokumentera bruken av Autshumato med TMX
    • særleg bruken av sentrale tmx-lager
  • sjekka tmx-krava til Trados
  • laga ferdige TMX-pakker til nedlasting?
  • frist for TMX: 1.3. (samtidig som rapporten)

Neste møte

Mandag 13.2.2012 kl 10