121219

FAD- og korpusmøte 19.12.2012

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

  • Status
  • Arbeid framover
  • Autshomato
  • Neste møte

Status

Oppsummere Apertium-gull-arbeid (M og BM ferdig)

BM og M har funne mykje spennande. Gt-pipeline har lemma, det har ikkje Apertium.

$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n>
11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n>
7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n>

second_run>grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | wc -l 
   17308
second_run>grep -h '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | sort | uniq | wc -l
   17238
	
$10 0 -7.7 0.0 0.25 høyskole+utdanning<n><m> allaskuvla+oahpahus<n>

Oppsummere gt-pipeline-alignment

Cip har laga alignment.

22 0 -6.91 0.0 0.25 høgskoleutdanning<subst> allaskuvlaoahpahus<N>
22 0 -6.91 0.0 0.25 hurtigrute<subst> riddorukto<N>

grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|lookup ~/main/words/dicts/nobsme/bin/nobsme.fst |grep '?'|wc -l
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|wc -l

$22 0 -6.911 0.0 0.2222222 yrkesaktiv<adj> bargonávccalaš<a>
$3 0 -8.904 0.0 0.1538462 yrkesaktivitet<n><m> fidnodoaibma<n>
$16 0 -7.23 0.0 0.1612903 yrkeserfaring<n><m> bargoduogáš<n>
$16 0 -7.23 0.0 1.0 yrkeserfaring<n><m> bargovásihus<n>
$17 0 -7.169 0.0 0.2 yrkesopplæring<n><m> fitnooahpahus<n>
$10 0 -7.7 0.0 0.4 yrkesutøver<n><m> fidnobargi<n><actor>

Arbeid framover

  • Planlegge gt-gull-arbeid
  • bestemme nedre grense for sannsynsverdi

Hovudtrekk

  1. Fase 1
    1. Ciprian leksikalisfiserer apertium-pipeline (sjå nedanfor)
    2. BM og Marja arbeider med andre ting
  2. Fase 2
    1. Cip fjernar leksikalifiserte apertium-par frå gt-pipeline
    2. BM og Marja ser på output av leksikaliserte + unifiserte ordpar
    3. BM og Marja arbeider med andre ting
  3. Fase 3
    1. BM og M arbeider med rest-gt-pipeline

Prosedyre for å arbeide med apertium

Lemmatisere apertium-$-output:

  1. Lage grunnformer av avleidde ord (sjå nedanfor for prosedyre for der_X)
  2. Ingen pluss i nob eller sme => ok
  3. Pluss i nob men ikkje sme => prøv i nob å erstatte "+" med "s", null, "e"
  4. Pluss i sme men ikkje i nob => prøv i sme:
    1. fjern +,
    2. Gjer /søk/erstatt/: /hallat/hallan/, /eapmi/an/, /stit/stin/, /hit/han/, /dit/dan/ /i+/e/, /u+/o/ /t+/n/, /t+//
  5. Pluss i nob og sme => prøv nob først og deretter sme
  6. Hugs <actor> i sme
    1. <n>...<actor> => stryk <<actor>
    2. <v>...<actor> => manuelt

Her er oversikt over der:

 
1018 passl => stryk der_passl-taggen
 719 n => erstatt final t med n
 368 eapmi => erstatt -it med eapmi
 127 at => stryk der_at-taggen
  82 vuohta => legg vuohta til stamme
  72 muš => erstatt final -t med muš
  57 passs => stryk der_passs-taggen
  44 dimin => stryk der_dimin-taggen
  12 halla => stryk der_halla-taggen
  12 ahtti => erstatt -it med ahttit
  11 st => ignorer
  11 alla => ignorer
   8 h => ignorer
   5 d => stryk der_d-taggen

Kommandoar:

grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep der_|rev|cut -d"_" -f1|rev|cut -d">" -f1|sort|uniq -c|sort -nr
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep 'eapmi+'|rev|cut -d"+" -f2-|sort|rev|l

Taggen <vabess> må vi sjå manuelt på:

bruke<vblex> geavahit<v><tv><vabess>
bruke<vblex> geavvat<v><iv><vabess><a>
vurdere<vblex> árvvoštallat<v><tv><vabess>
avklare<vblex> mearridit<v><tv><vabess>
berøre<vblex> guoskat<v><iv><vabess><a>
binde<vblex> čatnat<v><tv><vabess>
diktere<vblex> bidjat<v><tv><vabess>
forsøke<vblex> geahččalit<v><tv><vabess>
rulle<vblex> jorrat<v><iv><vabess><a>
skifte<vblex> lotnut<v><tv><vabess><a>
stabil<adj> rievdat<v><iv><vabess><a>
ubesvart<adj> vástidit<v><tv><vabess><a>
uendret<adj> rievdadit<v><tv><vabess><a>
ugift<adj> náitalit<v><iv><vabess><a>
ukritisk<adj> árvvoštallat<v><tv><vabess><a>
ulønnsom<adj> gánnáhit<v><iv><der2><der_ahtti><v><tv><vabess><a>
umistelig<adj> massit<v><tv><vabess><a>
uskreven<adj> čállit<v><tv><vabess><a>
utføre<vblex> doaibmat<v><iv><vabess><a>
utøve<vblex> doaibmat<v><iv><vabess><a>
uventet<adj> vuordit<v><tv><vabess><a>
uønsket<adj> sávvat<v><tv><vabess><a>

Autshomato

  1. Skal vi pushe CAT (Authomato eller andre ting) på omsetjarar må vi arrangere kurs.
  2. Verkeleg nyttig blir CAT først når TM inneheld tekstar som verkeleg inneheld same emne

Neste møte

Kort prat når Ciprian er ferdig med fase 1/2.