Meeting_2012-02-01

Parallelliseringsmøte 1.2.2012

Berit Merete, Børre, Sjur, Ciprian, Trond

Saksliste

  • status for gullkorpus
  • status for parallellføringa
  • status for fase 1
  • arbeid framover

status for gullkorpus

TILTAK:

  • finna kjelda til eaddjii-feilen, og retta han (Børre)
  • retta andre feil i konverteringa og parallellføringa (Børre)
  • retta opp feil i gullstandardkorpuset (Berit Merete)

Mål: parallellføringa må tilbake til eller bli betre enn ho var før siste regresjon.

status for parallellføringa

førre veka: 976 feil denne veka: 763 feil - halvvegs til målet om å nå ned til der vi var før regresjonen

BM jobbar med å retta feil (manglar) i Abbr, rettar skrivefeil i xsl. Børre jobbar med parallellføringa.

Mykje tid har gått med til å setja opp fyrst gamal og så ny (låne)maskin for BM.

status for fase 1 & 2

  • parallellføring
    • betre, men ikkje bra enno
  • nye tekstar
    • Børre la til nye tekstar sist veke.
  • Sjur har testa autshumato:
    • installert tmx som omsetjingsminne og brukt desse tmx-tekstane som omsetjingsminne
      • Resultat: Treff i ca. 20% av setningarne. Det hendar at Autsh (OmegaT) segmenterer ulikt oss. 2-3 funksjonsord på norsk i same setning er godt nok til å generere ein kandidat.
    • prøveomsett tekst

Dokumentasjon og opplæring er den verkelege utfordringa ved Autsh.

Preprosessoren sett inn linjeskift og andre blankteikn rundt setningsgrense og teiknsetting. Dette blir støy når teksten skal brukast som omsetjingsminne. Dette er tidkrevjande. For å kunne bruke parallelltekstane våre som omsetjingsminne må vi rekonstruere teksten til ein versjon utan ekstra mellomrom.

Konklusjon: vi har noko som er brukbart som det er med tilgjengeleg omsetjingsminne. No er det berre å finjustera tmx-filene (fjerna ekstra blankteikn osb.) og laga dokumentasjon og nedlastingspakker.

OPPGÅVER:

  • prøva Autsh. på Windowsar
  • skriva dokumentasjon (den eksisterande dokumentasjonen er for proffe IT-folk)
  • laga ferdige nedlastingspakker

arbeid framover

  • abbr-arbeid
  • Setningsdeling ut over forkortingar (sitat, parantes, grenseteikn generelt)
  • Ordparallellisering
  • Autshumato-dok og -pakke

Regulære uttrykk for å finna problematiske korkortingar:

ccat -l sme -r converted/sme/ | kwic-snt '[0-9]\. b\. [A-Z]'
ccat -l sme -r converted/sme/ | kwic-snt ' kom\. [A-Z]'

Diskusjon kring segmenting og hermeteikn, både rundt og i setningar:

Han refererte til "Rapport om it.
 2004.
 " og sa videre  =>
<seg>Han refererte til "Rapport om it. 2004." og sa videre</seg>

Skolestyret sa: "øaksdjf aøksfj aø aøskfdj øaks ø. Ølkajskløf. Aøskjf. Øalksjf. Ølaksjf øl aløskfj."!!!!!!! =>
<seg>Skolestyret sa: "øaksdjf aøksfj aø aøskfdj øaks ø.</seg><seg>Ølkajskløf asf a;lks.</seg>
<seg>Aøskjf.</seg><seg> Øalksjf.</seg><seg> Ølaksjf øl aløskfj."</seg>

<seg>Skolestyret sa: "øaksdjf aøksfj aø aøskfdj øaks ø. Ølkajskløf. Aøskjf. Øalksjf. Ølaksjf øl aløskfj."<seg>

«Med disse ord,» sa formannen, «erklærer jeg møtet for hevet.»
Hvis Eva mener at «Adam er en idiot», bør hun søke avskjed av Paradiset. //
Mannen sa: «Så spør de meg hva det er i sekken. ‘Malt,’ svarer jeg.»

Finn-Erik Vinje: Sitat i sitat.
Mannen sa: // «Så spør de meg hva det er i sekken. // ‘Malt,’ svarer jeg.» Trond
Mannen sa: // «Så spør de meg hva det er i sekken. ‘Malt,’ svarer jeg.»    Børre meiner dette.

Trond: FEV er litt kompleks. Ein enkel versjon er denne:
Mannen sa: // «Så spør de meg hva det er i sekken. // Jeg nekter å svare.» Trond
Mannen sa: // «Så spør de meg hva det er i sekken. // Jeg nekter å svare.»    Børre meiner dette.

Mannen sa: // «Så spør de meg hva det er i sekken. // Jeg nekter å svare.» og satte seg tungt på stolen.     Trond 
Mannen sa:    «Så spør de meg hva det er i sekken. Jeg nekter å svare.» og satte seg tungt på stolen. //  Børre

Resultatet av diskusjonen var denne regelen:

Ignorer hermeteikn

Neste møte

7.2.2012 kl. 10.00 (norsk tid).