Meeting_2012-03-12

Korpusmøte 12.3. 20012

Til stades: Berit Merete, Børre, Ciprian, Sjur, Trond

Saksliste

  • Status
  • Ordparallellisering
  • L1-korpus (aviskorpuset)

Status

Børre har laga typos-filer, og arbeidd med dei. Rettingane går inn i toktmx (og dermed tmx). Vi har 1687 filer i i toktmx.

3300 rettingar er lagt inn, dei rettar brorparten av skrivefeila i parallellkorpuset, dvs alle ukjente ord med minst 3 førekomstar i dei største filene i korpuset.

Det finst ein del sma, smj og nob i missing-lista.

  • incoming - Hunspell - usmeNorm - restkategorien er 31391.
  • Totalt inneheld korpuset $ccat -l sme -r $GTFREE/prestable/converted/sme/admin/
wc -w = 1 495 849

Spørsmål: Målt i prosent: Kor stor del av tekstmassen utgjer dei 31391 orda?

Tentativt svar: 31391 unike linjer i typos-filene, dvs ≈ 80000 ord,

Missing 5,3% av totalen. For ein automat er dette eit dårleg resultat, men mykje av grunnen er ocr-feil og blanda språkleg input.

  • For omsetjingsminnet vil vi ha usmeNorm + retting
  • For ordparallelliseringa vil vi ha usme og lemma
    • usme analyserer 3131 av de 31391 ord
    • 3304 kjende skrivefeil, dvs feil med retting
      • usme kjenner ikke igjen 25496 av de linjene som ikke har rettelse

Her er alle missing-ordformer med frekvens 10 eller over i sme-delen av parallellkorpuset:

251 2007–, 122 jïh, 92 og, 55 for, 49 saemien, 44 av, 36 , 36 galga, 35 oarjilsámegillii, 35 le, 33 oarjilsámi, 33 oarjilsámegiela, 28 nnu, 28 galka, 28 Ođđajagimá, 26 Árv, 25 of, 23 guktie, 22 ovdanahttit, 21 aaj, 20 oarjilsámegielas, 20 galggá, 20 det, 20 **, 19 til, 19 the, 19 Reerenasse, 18 samiske, 18 leah, 16 , 16 bajemus, 16 Ráddidus, 16 Ođđajagimán, 15 om, 15 nubbigiellan, 15 mij, 15 li, 15 gïehtjedidh, 15 bïjre, 14 vihkeles, 13 rádjerastildeaddji, 13 mah, 13 aj, 13 Side, 12 šadda, 12 reindrift, 11 skuvlareleván,11 samisk, 11 nugomat, 11 and, 10 oarjilsámegielalaš, 10 ekonomiijja, 10 Samiske, 10 Anar, 10 2001–

Prioriterngar framover med ukjende ord:

  • ekte missing - vi gjer ingen ting aktivt (som del av dette prosjektet, men i prinsippet skal alle samiske ord stå i analysatoren)
  • feil språk - ok i toktmx, blir fjerna med språkattkjenning i tmx
  • OCR-feil - vi gjer ikkje meir no
  • tradisjonelle skrivefeil - vi gjer ikkje meir no

TILTAK:

  • legg til ID frå TCA2 i toktmx-fila (som id-attributt) (Børre)
  • ikkje fjern tome setningspar i toktmx, men fjern dei i tmx (Børre)
  • sjekk at innhaldet ser ut til å vera rett språk i konverteringa frå toktmx til tmx (Børre)

Ordparallellisering

Ciprian har hatt Mac-havari, og kjem ikkje vidare før han har ei ny fungerande maskin.

Analyse:

  • sme: apertium vs. giellatekno. Giellatekno var 4x betre.
    • gt
  • nob: apertium nob i sme-nob er OBT-Ordbanken som er trimma til nb-nn
    • obt

giza: Kommandoane som i Lene sin artikkel evt. som i Apertium sin katalog

Ordparallelisering - start: - gikk gjennom Francis sin lista med bare en fil:

Problempar i toktmx:

  <header segtype="sentence" o-tmf="OmegaT TMX" adminlang="en-US" srclang="nob" datatype="plaintext"/>
  <body>
    <tu>
      <tuv xml:lang="nob">
        <seg></seg>
      </tuv>
      <tuv xml:lang="sme">
        <seg>Nordsamisk</seg>
      </tuv>
    </tu>

    <tu>
      <tuv xml:lang="nob">
        <seg></seg>
      </tuv>
      <tuv xml:lang="sme">
        <seg>1</seg>
      </tuv>
    </tu>

    <tu>
      <tuv xml:lang="nob">
        <seg>Dette heftet er en kort veiledning til innholdet i utviklingssamtalen .</seg>
      </tuv>
      <tuv xml:lang="sme">
        <seg></seg>
      </tuv>
    </tu>

L1-korpus (aviskorpuset)

Deepdict- og CLARINO-prosjekta (forbetra CG og korpus) skal analysera einspråkleg tekst, dvs original sme-tekst (ikkje omsett tekst).

Vi må sjå over konverteringa av aviskorpuset. Observerte feil er:

  • overskriftar og etterfylgjande tekst i same avsnitt (dvs som same setning)
  • bokstavproblem: t.d. bug #1291 om á som macroman 0087.

Neste møte

fredag 16. mars 2012 kl. 11.