150109
Contents:
Møte om lulesamisk term/ord-bok
09.01. 2015. Børre, Kevin, Sandra, Sjur, Trond.
Saksliste
- Status
- Lulesamifisering
- Korpus
- Manuelt arbeid
Status
Kevin har lagt til korpus og endra på CorpusTools, m.a. språkattkjenning.
Alt i alt i freecorpus:
- 350 000 ord smj (48 % av dok para)
- 195 000 ord sma (78 % av dok para)
mål: fadordbok vs fadterminologisamling
Lulesamifisering
Pipeline
nobsme = src="fad"
- nob-freq i fad-korpuset og i allmennkorpus
- f-f > a-f ==> kandidat for terminologi (eller berre gje opp t-aspektet)
- manuell sjekking av kandidatlista: term eller ikkje? (evt. tull eller ikkje)
- maskinell sjekking mot nob-sme
- Kintel-sjekk
- manuell sjekking av kandidatlista: term eller ikkje? (evt. tull eller ikkje)
- kandidat blir lulesamifisert
- lulesamifiserte l-kandidaten blir delt i tre:
- kintelbelagt -> del i dagleg vs term vs tull
- korpusbelagt -> manuell sjekk
- totalt ubelagt -> omsetjing/nylaging -> Giellagáldu
- kintelbelagt -> del i dagleg vs term vs tull
Kvaliteten på lulesamifisering
Programmet: Kjeldefila er sme2smj-lexeme.xfst
cd $GTHOME/gt/smj/src/ xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop Bruk: lookup -q sme2smj.fst čállit echo čállit | lookup -q sme2smj.fst ccat -r -l sme ~/freecorpus/converted/sme/facta/skuvlahistorja1/|preprocess|lookup gt/smj/src/sme2smj.fst |cut -f2|tr '\n' ' '|l Den svært delvis kontrollerte: kvaliteten på smesmj/src/*.xml echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst cat words/dicts/nobsme/src/V_nobsme.xml|grep '<t '|grep '"fad"'|tr '<' '>'|cut -d">" -f3|lookup gt/smj/src/sme2smj.fst |see
sme2smj.fst treng ein gjennomgang: Sandra, Thomas, Trond.
Status på kvalitet:
- 13112 fad-ord på sme, alle PoS
- av 361 ordbokslulesamifiserte, hadde 71 korpustreff
- av 13112 fst-lulesamifiserte, hadde 124 korpustreff
Korpus
Absolutt halde fram.
Manuelt arbeid
Sandra snakkar med folk.
Neste møte
Onsdag 14.1. eller torsdag 22.1.