Meeting_2016-10-18
Sjur og Trond 18.10. 2016
Saker:
- preprocess / hfst-tokenise
- normative fst-ar
- dialektparametrisering av fkv
- korpus
- stavekontrollar på nett
preprocess / hfst-tokenise
Alle språk har no mwe-dis.cg3 (må tilpassast for kvart språk).
Vi vil analysera heile korpuset med hfst-disamb/hfst-tokenise.
- éin med normativ hfst-analysator (=stavekontroll)
- éin med deskriptiv hfst-analysator (≈ Hfst vs Xerox for korpusanalyse)
Normative fst-ar
Jf:
giella+Sem/Lang_Tool:giella GOAHTI-A ;
(dvs default, som betyr CmpN/SgN for nordsamisk)
$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol giellagiella giella+N+Cmp#giella+N+Sg+Nom 10,000000 $ echo gielagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol gielagiella gielagiella+? inf $ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol gielaidgiella gielaidgiella+? inf
Jf med deskriptiv analysator:
$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol giellagiella giella+N+Cmp/SgNom+Cmp#giella+N+Sg+Nom 10,000000 $ echo gielagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol gielagiella giella+N+Cmp/SgGen+Cmp#giella+N+Sg+Nom 10,000000 $ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol gielaidgiella giella+N+Cmp/PlGen+Cmp#giella+N+Sg+Nom 10,000000 gielaidgiella giella+N+Err/Orth+Cmp/PlGen+Cmp#giella+N+Sg+Nom 10,000000
Sjur har ikkje gjort noko med sma og smj enno, men prøver å få på plass
dialektparametrisering av fkv
Fkv-folka jobbar med yaml-filer, men med filnamn som gjer at dei ikkje blir
korpus
- vi treng meir skjønlitteratur - minna Davvi Girji på manglande filer
- Ailu jobbar ut januar - kva kan han gjera før han sluttar?
- korpusmøte D+GT
- Arbeid med parallelltekst
stavekontrollar på nett
Børre omorganiserer koden litt, deretter dokumenterer han. Etter det burde det