121219
FAD- og korpusmøte 19.12.2012
Til stades: Berit Merete, Marja, Ciprian, Trond
Saker:
- Status
- Arbeid framover
- Autshomato
- Neste møte
Status
Oppsummere Apertium-gull-arbeid (M og BM ferdig)
BM og M har funne mykje spennande. Gt-pipeline har lemma,
$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n> 11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n> 7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n> second_run>grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | wc -l 17308 second_run>grep -h '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | sort | uniq | wc -l 17238 $10 0 -7.7 0.0 0.25 høyskole+utdanning<n><m> allaskuvla+oahpahus<n>
Oppsummere gt-pipeline-alignment
Cip har laga alignment.
22 0 -6.91 0.0 0.25 høgskoleutdanning<subst> allaskuvlaoahpahus<N> 22 0 -6.91 0.0 0.25 hurtigrute<subst> riddorukto<N> grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|lookup ~/main/words/dicts/nobsme/bin/nobsme.fst |grep '?'|wc -l grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|wc -l $22 0 -6.911 0.0 0.2222222 yrkesaktiv<adj> bargonávccalaš<a> $3 0 -8.904 0.0 0.1538462 yrkesaktivitet<n><m> fidnodoaibma<n> $16 0 -7.23 0.0 0.1612903 yrkeserfaring<n><m> bargoduogáš<n> $16 0 -7.23 0.0 1.0 yrkeserfaring<n><m> bargovásihus<n> $17 0 -7.169 0.0 0.2 yrkesopplæring<n><m> fitnooahpahus<n> $10 0 -7.7 0.0 0.4 yrkesutøver<n><m> fidnobargi<n><actor>
Arbeid framover
- Planlegge gt-gull-arbeid
- bestemme nedre grense for sannsynsverdi
Hovudtrekk
- Fase 1
- Ciprian leksikalisfiserer apertium-pipeline (sjå nedanfor)
- BM og Marja arbeider med andre ting
- Ciprian leksikalisfiserer apertium-pipeline (sjå nedanfor)
- Fase 2
- Cip fjernar leksikalifiserte apertium-par frå gt-pipeline
- BM og Marja ser på output av leksikaliserte + unifiserte ordpar
- BM og Marja arbeider med andre ting
- Cip fjernar leksikalifiserte apertium-par frå gt-pipeline
- Fase 3
- BM og M arbeider med rest-gt-pipeline
Prosedyre for å arbeide med apertium
Lemmatisere apertium-$-output:
- Lage grunnformer av avleidde ord (sjå nedanfor for prosedyre for der_X)
- Ingen pluss i nob eller sme => ok
- Pluss i nob men ikkje sme => prøv i nob å erstatte "+" med "s", null, "e"
- Pluss i sme men ikkje i nob => prøv i sme:
- fjern +,
- Gjer /søk/erstatt/: /hallat/hallan/, /eapmi/an/, /stit/stin/, /hit/han/, /dit/dan/ /i+/e/, /u+/o/ /t+/n/, /t+//
- fjern +,
- Pluss i nob og sme => prøv nob først og deretter sme
- Hugs <actor> i sme
- <n>...<actor> => stryk <<actor>
- <v>...<actor> => manuelt
- <n>...<actor> => stryk <<actor>
Her er oversikt over der:
1018 passl => stryk der_passl-taggen 719 n => erstatt final t med n 368 eapmi => erstatt -it med eapmi 127 at => stryk der_at-taggen 82 vuohta => legg vuohta til stamme 72 muš => erstatt final -t med muš 57 passs => stryk der_passs-taggen 44 dimin => stryk der_dimin-taggen 12 halla => stryk der_halla-taggen 12 ahtti => erstatt -it med ahttit 11 st => ignorer 11 alla => ignorer 8 h => ignorer 5 d => stryk der_d-taggen
Kommandoar:
grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep der_|rev|cut -d"_" -f1|rev|cut -d">" -f1|sort|uniq -c|sort -nr grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep 'eapmi+'|rev|cut -d"+" -f2-|sort|rev|l
Taggen <vabess> må vi sjå manuelt på:
bruke<vblex> geavahit<v><tv><vabess> bruke<vblex> geavvat<v><iv><vabess><a> vurdere<vblex> árvvoštallat<v><tv><vabess> avklare<vblex> mearridit<v><tv><vabess> berøre<vblex> guoskat<v><iv><vabess><a> binde<vblex> čatnat<v><tv><vabess> diktere<vblex> bidjat<v><tv><vabess> forsøke<vblex> geahččalit<v><tv><vabess> rulle<vblex> jorrat<v><iv><vabess><a> skifte<vblex> lotnut<v><tv><vabess><a> stabil<adj> rievdat<v><iv><vabess><a> ubesvart<adj> vástidit<v><tv><vabess><a> uendret<adj> rievdadit<v><tv><vabess><a> ugift<adj> náitalit<v><iv><vabess><a> ukritisk<adj> árvvoštallat<v><tv><vabess><a> ulønnsom<adj> gánnáhit<v><iv><der2><der_ahtti><v><tv><vabess><a> umistelig<adj> massit<v><tv><vabess><a> uskreven<adj> čállit<v><tv><vabess><a> utføre<vblex> doaibmat<v><iv><vabess><a> utøve<vblex> doaibmat<v><iv><vabess><a> uventet<adj> vuordit<v><tv><vabess><a> uønsket<adj> sávvat<v><tv><vabess><a>
Autshomato
- Skal vi pushe CAT (Authomato eller andre ting) på omsetjarar må vi arrangere kurs.
- Verkeleg nyttig blir CAT først når TM inneheld tekstar som verkeleg inneheld same emne
Neste møte
Kort prat når Ciprian er ferdig med fase 1/2.