151021
Onsdagsmøte 21. oktober 2015
Tilstede: Trond, Ciprian, Marja-Liisa, Lene
Saksliste:
- MT-phd-stillinga
- Programmerarstillinga
- Bidix
- MT-veka
- Korpus
- Korp og korpusdataene
MT-phd-stillinga
Vi har ikke aktuell søker, så det blir ny utlysing så snart som mulig.
Siden det tar tid for å få en person i denne stillinga, så får Lene hovudansvar for implementering av transferreglar.
Programmerarstillinga
Vi rangerer lista denne veka. Vi får ekstern hjelp om et par dager (når?)
Bidix
Ulike måtar å få ned homonymien:
Ta sme-smn og:
- tilpass data (erstatt initial nordsamisk bdg med ptk, osb)
- Ta Levenshtein (redigeringsavstand) og gå for det beste resultatet
Er det mange falske vener (som fi. piimä est. piim)?
smn puddo sme "buddu" fin "rippa" - boddu puddâ sárnuđ - sárdnut - denne er ok, samme betydning smn og sme sárdnut - báhppa sárdnu (goit Suoma bealde ná) särniđiđ - sárdnidit sárnuđ - hupmat ohjelm - prográmma täsni - násti puško - havga
dette er eit problem viss
- prográmma - progámm <== Levenshtein-kandidat
- prográmma - ohjelm <== korrekt?
Men dette moteksemplet gjeld ikkje.
Realiteten:
sárdnut V sárnuđ V <==== sárdnut V šumpârdiđ V sárdnut V mullârdiđ V sárdnut V päksiđ V sárdnut V njunevuálástiđ V sárdnut V palijdiđ V sárdnut V šuáláđ V sárdnut V pompestiđ V sárdnut V ucástittiđ V sárdnut V mođárdittiđ V sárdnut V suomâstiđ V sárdnut V sámástiđ V sárdnut V šlobârdiđ V sárdnut V teŋkkiđ V sárdnut V huáttáđ V sárdnut V huávristiđ V OBS oa:uá sárdnut V šlarvâdiđ V sárdnut V mevristiđ V sárdnut V snuollâđ V - snoallat sme? OBS oa:uo (snoallat ikkje i bidix, men i smefin) sárdnut V ronedâttâđ V sárdnut V semmuđ V sárdnidit V särnidiđ V <===== suomagiella N suomâstiđ N hupmat V suomâstiđ V hállat V suomâstiđ V sárdnut V suomâstiđ V hoallat V suomâstiđ V
Sjekke verb mot verb med Levenshtein. Vi lagar ein enaresamisk
Enaresamifisering:
- bdg til ptk
- oa til uá
TILTAK:
- plukke ut kandidater fra synonymlista med Levenstein
- check MWE fra smn-parantes i fin2sme-dataene
- sme-fin verb som ikke blir med i bidix: bruke stavekontroll med
- kandidater skal sjekkes manuelt
- kandidater skal sjekkes manuelt
- andre ord som ikke blir med i bidix: bruke stavekontroll for å lage kandidater
- kandidater skal sjekkes manuelt
MT-veka
En ny bidix er klar til MT-uka
Reise
- søndag Tromsø-Oulu: 16: 30 Tromso 19: 50 Uleåborg
- fredag Oulu-Tromsø: 11: 40 Uleåborg 13: 00 Tromso
Kevin til lunsj onsdag
a Bil Uleåborg: Ciprian, Lene, Trond, ML Bil Rovaniemi: Kevin b Bil Uleåborg: Ciprian, Lene, Trond Bil Rovaniemi: Kevin, ML Buss Rovaniemi-Salla ML c Bil Uleåborg: Ciprian, Lene, Trond Bil Rovaniemi: Kevin Bil Rovaniemi: ML
Tidspunkt:2-6. november
Sted:Salla
Innhald:
- Kva er MT, om prosjektet
- Teknisk: Maskiner skal fungere
- Metodisk: Arbeidsrutiner
- Lingvistisk:
- Arbeide med MT-transfer (syntaks)
- Arbeide med bidix (andre aspekt)
- Arbeide med bidix (ordbøkene)
- Arbeide med MT-transfer (syntaks)
(jf. lista på tavla)
Forarbeid
- Installere Apertium og finne parallelltekstar
- Setje opp pending tests - på Apertium-wiki
- Gå gjennom tagproblem og løyse dei
- Lære/diskutere om transferregler
- Sikre oss at vi har eit fungerande system
- Arbeide med sme-smn kontrastiv grammatikk (Google-dokumentet) (*)
Forslag til innhold i MT workshop:
- Dag 1
- Lære om Apertiums moduler - 2 t
- Teste med parallelle finsme og finsmn tekster - begynne å se på problemer - 2 t
- Hva er arbeidet som skal gjøres og hvordan - 2 t
- Lære om Apertiums moduler - 2 t
- Dag 2
- Bli enig om hvem som skal gjøre hva, og sette igang med arbeidet
- Pending tests og regresjonstester - wiki
- Bli enig om hvem som skal gjøre hva, og sette igang med arbeidet
- Dag 3
- Sammenlikne sme og smn lingvistisk, morfologiske tagger og derivasjoner - dag 3
- Sammenlikne sme og smn lingvistisk, morfologiske tagger og derivasjoner - dag 3
- Dag 4
- Arbeid
Suggestion for who will do what in MT work (but details we'll discuss at the workshop)
- Collect parallel texts, finsme - finsmn (Neetä)
- Collect missing word pairs in parallel texts, finsme - finsmn (Erika)
- Check word pairs in bidix, perhaps 6.000 ? (Miina, ML, Neetä)
- Look at closed parts of speech in bidix (ML)
- Come up with more word pairs, perhaps 14.000 ? (Miina, Neetä)
- Make sure that all new words are in the smn lexicon (Erika, ML)
- Fix FST errors (ML, Lene, Trond)
- Make sure that the tags are parallel in sme and smn (ML, Lene, Trond)
- Examine parallel tests and formalise rules (ML, Erika)
- Implement lexicon selection rules (ML, Lene, Trond)
- Implement transfer rules (Lene, Trond)
Korpus
Korp og korpusdataene
Diskusjon.
Prinsipp for taggdokumentasjon for brukere: På de sidene hvor det er relevant for brukeren. Lene ser på innholdet..