151021

Onsdagsmøte 21. oktober 2015

Tilstede: Trond, Ciprian, Marja-Liisa, Lene

Saksliste:

  • MT-phd-stillinga
  • Programmerarstillinga
  • Bidix
  • MT-veka
  • Korpus
  • Korp og korpusdataene

MT-phd-stillinga

Vi har ikke aktuell søker, så det blir ny utlysing så snart som mulig. Trond vil ta kontakt med aktuelle folk så snart utlysinga er på nett.

Siden det tar tid for å få en person i denne stillinga, så får Lene hovudansvar for implementering av transferreglar.

Programmerarstillinga

Vi rangerer lista denne veka. Vi får ekstern hjelp om et par dager (når?) til å organisere intervjuene.

Bidix

Ulike måtar å få ned homonymien:

Ta sme-smn og:

  1. tilpass data (erstatt initial nordsamisk bdg med ptk, osb)
  2. Ta Levenshtein (redigeringsavstand) og gå for det beste resultatet

Er det mange falske vener (som fi. piimä est. piim)?

smn puddo sme "buddu" fin "rippa"
- boddu    puddâ
  sárnuđ - sárdnut - denne er ok, samme betydning smn og sme
  sárdnut - báhppa sárdnu (goit Suoma bealde ná)
  särniđiđ - sárdnidit
  sárnuđ - hupmat
 
  ohjelm - prográmma
  täsni - násti
  puško - havga

dette er eit problem viss

  1. prográmma - progámm <== Levenshtein-kandidat
  2. prográmma - ohjelm <== korrekt?

Men dette moteksemplet gjeld ikkje.

Realiteten: prográmma N ohjelm N

sárdnut	V	sárnuđ	V   <==== 
sárdnut	V	šumpârdiđ	V
sárdnut	V	mullârdiđ	V
sárdnut	V	päksiđ	V
sárdnut	V	njunevuálástiđ	V
sárdnut	V	palijdiđ	V
sárdnut	V	šuáláđ	V
sárdnut	V	pompestiđ	V
sárdnut	V	ucástittiđ	V
sárdnut	V	mođárdittiđ	V
sárdnut	V	suomâstiđ	V
sárdnut	V	sámástiđ	V
sárdnut	V	šlobârdiđ	V
sárdnut	V	teŋkkiđ	V
sárdnut	V	huáttáđ	V
sárdnut	V	huávristiđ	V  OBS oa:uá
sárdnut	V	šlarvâdiđ	V
sárdnut	V	mevristiđ	V
sárdnut	V	snuollâđ	V  - snoallat sme?  OBS oa:uo (snoallat ikkje i bidix, men i smefin)
sárdnut	V	ronedâttâđ	V
sárdnut	V	semmuđ	V

sárdnidit	V	särnidiđ	V  <===== 

suomagiella	N	suomâstiđ	N
hupmat	V	suomâstiđ	V
hállat	V	suomâstiđ	V
sárdnut	V	suomâstiđ	V
hoallat	V	suomâstiđ	V

Sjekke verb mot verb med Levenshtein. Vi lagar ein enaresamisk "stavekontroll" som består av berre infinitivar, vi enaresamifiserer nordsamisk, og vi plukkar ut kognatar.

Enaresamifisering:

  • bdg til ptk
  • oa til uá

TILTAK:

  1. plukke ut kandidater fra synonymlista med Levenstein
  2. check MWE fra smn-parantes i fin2sme-dataene
  3. sme-fin verb som ikke blir med i bidix: bruke stavekontroll med kun verb i infinitiv, for kandidater
    1. kandidater skal sjekkes manuelt
  4. andre ord som ikke blir med i bidix: bruke stavekontroll for å lage kandidater
    1. kandidater skal sjekkes manuelt

MT-veka

En ny bidix er klar til MT-uka

Reise

  • søndag Tromsø-Oulu: 16: 30 Tromso 19: 50 Uleåborg
  • fredag Oulu-Tromsø: 11: 40 Uleåborg 13: 00 Tromso

Kevin til lunsj onsdag evt. fredagsprogram ML, Kevin, Erika

a  Bil Uleåborg: Ciprian, Lene, Trond, ML
   Bil Rovaniemi: Kevin

b  Bil Uleåborg: Ciprian, Lene, Trond
   Bil Rovaniemi: Kevin, ML
   Buss Rovaniemi-Salla ML

c  Bil Uleåborg: Ciprian, Lene, Trond
   Bil Rovaniemi: Kevin
   Bil Rovaniemi: ML

Tidspunkt:2-6. november

Sted:Salla

Innhald:

  • Kva er MT, om prosjektet
  • Teknisk: Maskiner skal fungere
  • Metodisk: Arbeidsrutiner
  • Lingvistisk:
    • Arbeide med MT-transfer (syntaks)
    • Arbeide med bidix (andre aspekt)
    • Arbeide med bidix (ordbøkene)

(jf. lista på tavla)

Forarbeid

  • Installere Apertium og finne parallelltekstar
  • Setje opp pending tests - på Apertium-wiki
  • Gå gjennom tagproblem og løyse dei
  • Lære/diskutere om transferregler
  • Sikre oss at vi har eit fungerande system
  • Arbeide med sme-smn kontrastiv grammatikk (Google-dokumentet) (*)

Forslag til innhold i MT workshop:

  • Dag 1
    • Lære om Apertiums moduler - 2 t
    • Teste med parallelle finsme og finsmn tekster - begynne å se på problemer - 2 t
    • Hva er arbeidet som skal gjøres og hvordan - 2 t
  • Dag 2
    • Bli enig om hvem som skal gjøre hva, og sette igang med arbeidet
    • Pending tests og regresjonstester - wiki
  • Dag 3
    • Sammenlikne sme og smn lingvistisk, morfologiske tagger og derivasjoner - dag 3
  • Dag 4
    • Arbeid

Suggestion for who will do what in MT work (but details we'll discuss at the workshop)

  • Collect parallel texts, finsme - finsmn (Neetä)
  • Collect missing word pairs in parallel texts, finsme - finsmn (Erika)
  • Check word pairs in bidix, perhaps 6.000 ? (Miina, ML, Neetä)
  • Look at closed parts of speech in bidix (ML)
  • Come up with more word pairs, perhaps 14.000 ? (Miina, Neetä)
  • Make sure that all new words are in the smn lexicon (Erika, ML)
  • Fix FST errors (ML, Lene, Trond)
  • Make sure that the tags are parallel in sme and smn (ML, Lene, Trond)
  • Examine parallel tests and formalise rules (ML, Erika)
  • Implement lexicon selection rules (ML, Lene, Trond)
  • Implement transfer rules (Lene, Trond)

Korpus

Denne rakk vi ikke å diskutere.

Korp og korpusdataene

Diskusjon.

Prinsipp for taggdokumentasjon for brukere: På de sidene hvor det er relevant for brukeren. Lene ser på innholdet..