Omega T170428
Møte om omsetjing 28.4.2017
Til stades: Børre, Sjur, Tomi, Trond, Lene (på bidix-saka)
Sakser:
- termwiki som input til Apertium-bidix
- status
- neste steg
TermWiki som input til Apertium-bidix
Utgangspunkt: arbeidet som Tomi har gjort i det siste.
Nye bidix-filer:
- kor mykje overlapp med eksisterande bidix?
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="acc"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e> <e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="nom"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e> <e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="gen"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
apertium-sme-fin.sme-fin.dix
<e><p><l>oahpahus<s n="n"/></l><r>opetus<s n="n"/></r></p></e> <e><p><l>oahpponeavvu<s n="n"/><s n="g3"/></l><r>opetusmateriaali<s n="n"/></r></p></e> <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e> <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e> <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e> <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e> <e><p><l>ánsikta<s n="n"/><s n="sg"/></l><r>kasvot<s n="n"/><s n="pl"/></r></p></e> <e><p><l>ámadadju<s n="n"/></l><r>ansikt<s n="n"/><s n="nt"/></r></p><par n="maydetind__n"/></e>
TODO
termwiki lemma + POS:
- sjekke om lemma + pos finst i bidix frå før
- deretter lage kandidatpar for dei som ikkje finst
- evaluere, teste, nytt møte, legge til
... for kvart språkpar: sme-nob, sme-fin, sme-smn, sme-smj, sme-sma
OmegaT
https://github.com/divvun/OmegaT-hfst-tokenizer
Dokumentasjonen på wiki er oppdatert.
Fst-fila i speller/-katalogen skal slutte på *-<lang>.hfstol (analyser-gt-norm-se.hfstol).
Alle oppslag i glossary-lista skal ha standardisert lemmaform, ingen variantar. Variantane blir fanga opp av fst-en.
TODO
- fjerna variantar av lemma frå glossary
- fjerna kategoriinfo heilt
apertium/trunk/ cat se-nb.dix |grep '<e>'|cut -d">" -f4|cut -d"<" -f1|sort|uniq|hfst-proc ~/apertium/trunk/apertium-sme-nob/sme-nob.automorf.hfst |grep '\*'|wc -l
Originalreferat her: