Meeting_2012-03-22

Korpusmøte 22.3. 20012

Til stades: Berit Merete, Børre, Ciprian, Sjur, Trond

Saksliste

  • Ordparallellisering
  • L1-korpus (aviskorpuset)
  • Autsh/TMX-dokumentasjon
  • TMX - status
  • korpus som nedlastingsblopp

Ordparallellisering

Cip har klart å installera Moses. VislCG-installeringsproblemet løyst. Begge bruker boost, og det vart konflikt mellom Moses- og VislCG-bruken av boost.

Ciprian har no byrja med Giza og ordparallellisering. Det finst eit setningslengdeparameter. For å trena språkmodellen er det med parameterverdi 50 i utgangspunktet.

Støy:

"setningar" som berre inneheld lister med tal

clean data, especially long sentences with

 ///<E2><89><A5>//|||\\\ @ ..., 

etc

har sett på setningar lengre enn 100 ord - setnignar med støy, reelt innhald er truleg innafor grensene til Giza, støyen gjer setninga lengre pga støy-"ord"

Vi ser bort i frå støyen no, og konsentrerar oss på å få ferdig prosesseringslinja. Deretter kan vi gå attende og justera parameter og fjerna støy manuelt (i konverteringa).

L1-korpus (aviskorpuset)

Børre har retta Bugzilla-lus #1291 - 220 macroman <U+0087> for á in Assu newscorpus.

Ingen ting elles gjort når det gjeld konverteringane. Børre har senddt inn kontraktar til Sametinget for ca 3 veker. Har sendt purring pr e-post. Kontraktane skal underskrivast av Sametinget, og kopi skal gå til dei ulike partane. Dei må nesten få sin eigen gjenpart for at vi kan kontakta dei for å be om elektroniske kopiar. 5-6 forfattarar omfatta av desse kontrakane.

En del av Skániid girji-kontraktane er underskrivne av Sametinget. Vi veit ikkje om dei underskrivne kontraktane er sendt ut til alle partar. Resten er sendt direkte frå forlag til forfattarar, som skulle senda dei til Sametinget. Mange er sendt inn til Sametinget.

TILTAK:

  • kontakt Bitte (Sjur)

Autsh/TMX-dokumentasjon

Må venta til etter 1. april pga Hunspell og TeX-hyph for InDesign/Ávvir.

TMX - status

Ein del rettinar i preprocess, ikkje alt har vorte konvertert i ein periode, men den feilen er retta opp. Dei siste endringane er ikkje sjekka inn i toktmx.

TILTAK:

  • sjekka inn nyaste versjon av toktmx-filene (og tmx) (Børre)

korpus som nedlastingsblopp

Vi bør tilby ferdig nedlastbare korpuspakker av det materialet vi har bearbeidd.

  • vi må bestemma kva slags pakker vi skal tilby, og i kva format

Ymse

  • BM: grammatikken i risten.no er feil for kondisjonalis - det skal vera diftongforenkling. Sjur og BM ser på det seinare.