Meeting_2011-11-25

Møte om parallellisering, 25.11.

Børre, Sjur, Trond.

Lage gullkorpus

Teste

Mål:

  1. Kor bra er parallelliseringa av gullkorpuset
  2. Deretter parameterjustering

Metode:

  1. Ta filer
  2. Ta problematiske avsnitt "parallellisere manglande avsnitt"

Måle med diff?

Lage gullstandard ved hjelp av det grafiske grensesnittet. Dokumenta skal vera:

  • Tilfeldige dokument
    • Alle sjangrar: admin, facta, law
    • Alle filtyper: doc, html, pdf
  • Evt. også problemdokument
    • Dokument som vi ser inneheld feil i dag
    • Dels regjeringen.no (manglande avsnitt), dels sametingsprotokollar (forkortingar)

Gullstandardfilene blir lagra i $GTFREE/prestable/tmx/goldstandard/

  • tmx/sme2nob/ (for visse facta)
  • tmx/nob2sme/katalogstruktur_som_i_orig.tmx (for alle admin, law, og visse facta)

TODO

  • Plukke ut filer (Trond)
  • Lage gullstandarden (Børre, Trond)
  • setja opp testinfrastruktur, slik at vi får ja-nei-svar ut (Børre)

Dokumentasjon

Nok til å sparke i gang den grafiske klienten

Dokumentasjon ligg i README.txt

java -jar dist/lib/alignment-<date-when-built>.jar

Dette vart fiksa under møtet.

Forbetring av parallelliseringa

Ankerfilene

Med effektiviseringa rett bak oss er storleiken på ankerfilene ikkje noko problem.

Derimot kan feiltreff vere det.

  1. Gjev ankerpar misvisande par?
  2. Er fila så lang at prossesseringstid blir eit problem
  3. Er det ordpar som ikkje finst i ankerlista?

Dette ser vi på etter at gullkorpuset er på plass.

Parameter for setningslengde

  1. Take the corpus,
  2. divide it in sentences,
  3. count the number of sentences,
  4. count the number of characters,
  5. calculate number of char / sent.

TODO

  • Finn parametret (Børre)

Andre parameter

  • Proper names
  • Forkortingar
  • Dice

Dette kjem etter kvart som vi ser.