150109

Møte om lulesamisk term/ord-bok

09.01. 2015. Børre, Kevin, Sandra, Sjur, Trond.

Saksliste

  • Status
  • Lulesamifisering
  • Korpus
  • Manuelt arbeid

Referat frå 17.12.

Status

Kevin har lagt til korpus og endra på CorpusTools, m.a. språkattkjenning. Nytt på korpusfronten er framfor alt frå Sverige.

Alt i alt i freecorpus:

  • 350 000 ord smj (48 % av dok para)
  • 195 000 ord sma (78 % av dok para)

mål: fadordbok vs fadterminologisamling

Lulesamifisering

Pipeline

nobsme = src="fad"

  • nob-freq i fad-korpuset og i allmennkorpus
  • f-f > a-f ==> kandidat for terminologi (eller berre gje opp t-aspektet)
    • manuell sjekking av kandidatlista: term eller ikkje? (evt. tull eller ikkje)
    • maskinell sjekking mot nob-sme
    • Kintel-sjekk
  • kandidat blir lulesamifisert
  • lulesamifiserte l-kandidaten blir delt i tre:
    • kintelbelagt -> del i dagleg vs term vs tull
    • korpusbelagt -> manuell sjekk
    • totalt ubelagt -> omsetjing/nylaging -> Giellagáldu

Kvaliteten på lulesamifisering

Programmet: Kjeldefila er sme2smj-lexeme.xfst

cd $GTHOME/gt/smj/src/
xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop
Bruk: 
lookup -q sme2smj.fst
čállit

echo čállit | lookup -q sme2smj.fst
ccat -r -l sme  ~/freecorpus/converted/sme/facta/skuvlahistorja1/|preprocess|lookup gt/smj/src/sme2smj.fst |cut -f2|tr '\n' ' '|l

Den svært delvis kontrollerte:
kvaliteten på smesmj/src/*.xml
echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst 

 cat words/dicts/nobsme/src/V_nobsme.xml|grep '<t '|grep '"fad"'|tr '<' '>'|cut -d">" -f3|lookup gt/smj/src/sme2smj.fst |see

sme2smj.fst treng ein gjennomgang: Sandra, Thomas, Trond.

Status på kvalitet:

  • 13112 fad-ord på sme, alle PoS
  • av 361 ordbokslulesamifiserte, hadde 71 korpustreff
  • av 13112 fst-lulesamifiserte, hadde 124 korpustreff

Korpus

Absolutt halde fram.

Manuelt arbeid

Sandra snakkar med folk.

Neste møte

Onsdag 14.1. eller torsdag 22.1.