Meeting_2012-01-12

Parallelliseringsmøte 12.1.2012

Berit Merete, Børre, Sjur

Saksliste

  • status for testbed for gullkorpus
  • status for gullkorpus
  • status for parallellføringa
  • arbeid framover

Status for testbed for gullkorpus

Ferdig.

Status for gullkorpus

Stadige justeringar og rettingar. Finnmarkslova parallellført på nytt, retta opp, og lagt inn som ny versjon av gullstandarden - spara ein god del manuelt arbeid med å forbetra gullstandarden.

Status for parallellføringa

Børre har testa seg fram til vinnarverdiar for tca2. Dette har gjeve ei markant betring for samla parallellføring av gullstandarddokumenta:

  • Vinnartal: 486 / 12572 = 96.13 %
  • Standardtal: 534 / 12572 = 95.75 %

Likevel ein del regresjonar, særleg gjeld det §-teiknet. Eit døme frå Finnmarksloven:

-Meahcceduopmostuollu sáhttá gáibidit , ahte guoskevaš diggeriekti čađaha gažademiid .
-§ 42 Váidalus ja guoddalus Meahcceduopmostuolu mearrádusain sáhttá váidalit Alimusriektái .
+Meahcceduopmostuollu sáhttá gáibidit , ahte guoskevaš diggeriekti čađaha gažademiid . §
+42 Váidalus ja guoddalus Meahcceduopmostuolu mearrádusain sáhttá váidalit Alimusriektái .

Problemet må liggja i tca2, sidan det er den einaste komponenten / prosessen som varierer mellom dei to resultata.

BM & Børre har laga ein ny kategori forkortingar, num-noab, som skal fungera som ein kombinasjon av tr-numab og noab, t.d. su som ikkje er forkorting når han står sist i setninga, men ei forkorting dersom det kjem eit taluttrykk etterpå.

Arbeid framover

Tiltak:

  • forbetra segmenteringa av §-teiknet (Børre)
  • blankteikn - halda fram med å justera gullstandarden slik at han er det vi vil ha (Berit)
  • betra på pdf-til-xml-konverteringa (Børre har starta, men ingen synlege resultat enno)
  • byggja ut preprocess til å handtera num-noab -forkortingar (Børre)