Meeting_2012-02-13

Parallelliseringsmøte 13.2.2012

Berit Merete, Børre, Sjur, Ciprian, Trond

Saksliste

  • status for gullkorpus
  • status for parallellføringa
  • status for fase 1
  • status for ordparallellisering
  • arbeid framover

Status for gullkorpus

Status: Siste test fredag 10.2, 424 feil (96,65 %).

Problemområde som står att:

  • doc-til-xml er for dårleg
  • ei html-filer
  • pdf-konvertering er for dårleg
  • i nokre dokument er ikkje heile teksten parallell; metadata (i xsl-fila) som identifiserer dokumentfragment som skal ignorererast ved parallellføring vil vera ei hjelp i å forbetra parallellføringa i framtida

Status for parallellføringa

  • 1528 tmx-filer i nob2sme
  • 139 tmx-filer i sme2nob (i det minste 92 av dem må flyttes til nob2sme)
    • >1620 nob2sme
    • <47 sme2nob

Ord:

  • 1,89 mill ord
  • 2,32 mill ord

Kommandoar:

ccat -a -l sme -r $GTFREE/prestable/converted/sme/ | wc -w
ccat -a -l nob -r $GTFREE/prestable/converted/nob/ | wc -w

TILTAK

  • Grovtest: tail -40 på alle tmx-filer. Dersom det dukkar opp problem:
  • problemfiler blir fjerna

tail -50 depts/other_files/*x|see

Status for fase 1

Fase 1: Setningsparallellisere

  1. forbetre parallelliseringa (Børre)
  2. leggje til nye tekstar (Børre)
  3. teste tmx i Autshumato (Sjur)
  4. setje strek og ordparallellisere - dato: 10.2.

Alt er gjort.

Status for ordparallellisering - fase 2

Dokumentert, bortsett frå ein kommando.

TILTAK

  • setja opp infra som krevst (Ciprian)
  • køyra ordparallelliseringa (Ciprian)
  • resultata skal vera ferdige 30.03.2012

Fase 2b:

  • laga ekte TMX
    • utan ekstra mellomrom osb.
    • med autokorrektur?
  • dokumentera bruken av dei, for to system:
    • Autshumato/OmegaT
    • Trados
  • laga distribusjonspakker

Kva blir brukt ute i verda? UD:

  • eu-relaterte dokument: Trados
  • Dei andre: MultiTrans - Multicorpora Kanadisk selskap

http: //www.multicorpora.com/en/products/

Siri Broch Johansen:

  • bruker ikkje omsetjarprogram
  • Samiske omsetjingar blir handtert av Semantix AS, som kontaktar frilansarar. Sjå http://semantix.no/

TILTAK

  • endra katalognamn og filending: ( Børre)
    • filending:
      • .tmx = ekte tmx (for bruk til omsetjarprogram som Trados og Autshumato)
      • kva med gamal: .tmx => .toktmx
    • katalognamn:
      • $GTFREE/prestable/tmx = EKTE tmx
      • $GTFREE/prestable/toktmx = gamal tmx, tokenisert tmx, berre brukbart til ordparallellisering
  • kjøpa 1 Trados Freelance-lisens? Nei, vi ventar
  • køyra autokorrektur med typos-lista på sme-tekstane (Børre)
  • køyra vanleg stavekontroll (Børre, Sjur)
  • sjå på resultata (BeritM)
  • legge inn nye feil i typos.txt ( BeritM)
  • køyra manuell etterkorrektur?
  • dokumentera Autshumato m TMX (Børre, Sjur)
    • installasjon av Autshumato
    • oppsett
    • installera TMX
    • bruka programmet med TMX
    • helst sjå på:
      • stavekontroll
      • ordbøker
      • terminologi

Arbeid framover

  • tmx, sjå fase 2b over
  • ordparallellisering, sjå over
  • rapport

Neste møte

Fredag 17.2. kl 8: 30

Vinterferier:

  • sjur - 20.-24.2
  • børre - 2,5 dagar 5.-9.3