course April2016
MT-beaivvit cuoŋománus
Prográmmaevttohus:
MÁNNODAGA
0 Bures boahtin
- Doaibmágo? echo ja |apertium -d. sme-smX
- Leago HFST ok? Kevina gohččumat ođasmahttit HFST:
-
wget http://apertium.projectjj.com/osx/install-nightly.sh
-
sudo bash install-nightly.sh
-
wget http://apertium.projectjj.com/osx/install-nightly.sh
- Mii kompileregoahtit sme + smX + sme-smX
- Vahku prográmma
- Jorgalanprográmmaid stáhtus
1 Evalueret sme-teavstta MT-jorgalusa
Jorgalit guokte oanehis teavstta:čáppagirjjálašvuođa teavstta ja čoahkkingirjji:
-
python check_mt-otpt.py -f pseudo_tmx_data/cahceravgga_sme2smn.tmx
-
open otpt_dir/cahceravgga_sme2smn.html
-
python check_mt-otpt.py -f pseudo_tmx_data/SP-18-2012_sme2smn.tmx
- open otpt_dir/SP-18-2012_sme2smn.html
- geahččat násttiid ja hash
- árvvoštallat gielalaš meattáhusaid
- árvvoštallat syntávssa
- buohtastahttit dan golbma giellapára jorgalusaid kvaliteahta (WER)
- Evalueren: http://xixona.dlsi.ua.es/~fran/eval/
2 Buoridit jorgalanfeaillaid
Mo gávdnat jorgalanfeailla siva
Bargat násttiid ja hash
Missing (násti)
- Lasit missing sániid bidixii, ja sánit fertejit leat leksikaliserejuvvon sihke sme- ja smX-FST: s
- bidix-bargu
Geahččat dan maid analysáhtor ii máhte genereret (hash):
-
echo 'cealkka' |apertium -d. sme-smn-dgen, omd.
- buohtastahte analysáhtoriin (usmX ja dsmXNorm)
- buohtastahte analysáhtoriin (usmX ja dsmXNorm)
usmn Pariisa Pariisa Pariisa+N+Prop+Sem/Plc+Sg+Nom dsmnNorm Pariisa+N+Prop+Sem/Plc+Sg+Loc Pariisa+N+Prop+Sem/Plc+Sg+Loc Pariisa+N+Prop+Sem/Plc+Sg+Loc +?
Ferte lasihit/divvut FST (omd. addit +Sg+Loc leksikonii masa Pariisa manná)
Nubbi ovdamearka:
-
#lávluđ<vblex><der_nomag><n><pl><nom>
- buohtastahte analysáhtoriin (usmX ja dsmXNorm)
usmn lávluđ lávluđ lávluđ+V+Inf dsmnNorm lávluđ+V+Der/NomAg+N+Sg+Nom lávluđ+V+Der/NomAg+N+Sg+Nom lávluđ+V+Der/NomAg+N+Sg+Nom +?
Ferte lasihit/divvut FST (addit +Der/NomAg leksikonii masa lávluđ manná)
Leago sme-input riekta?
Geahččat input:
-
echo 'cealkka' |apertium -d. sme-smn-biltrans
- bidix ráddje biltrans-analysa. Jus omd. dihto sátni lea bidixis dušše adjektiivan,
-
usme čájeha sáni vejolaš analysaid olggobealde bidix
- jus sátni oažžu boasttu kásusa, omd. genitiivva dan sajis go akkusatiivva, de feaila lea sme syntávssalaš analysas
- dieđit sme-feailla Lenii, Trondii dahje Duommái
- bidix ráddje biltrans-analysa. Jus omd. dihto sátni lea bidixis dušše adjektiivan,
Geahččat sme syntávssalaš analysa apertiumas:
- echo 'cealkka' |apertium -d. sme-smn-disam
Geahččat sme syntávssalaš analysa olggobeal apertiuma:
- echo 'cealkka' |smedis
Manne transfer-njuolggadus ii doaimma?
Geahččat chunkema:
- echo 'cealkka' |apertium -d. sme-smn-chunker
DISTTAGA
3 Giellatekno ja Apertiuma taggaformáhtat
- Makkár formáhtat
- Man dihte erohusat
- dáinna gohččumiin oainnát tággaid:
Dahje don sáhtát iskat eaŋkilsániid:
-
echo "lohkan" |hfst-lookup .deps/sme.automorf.hfst
- echo "luuhâm" |hfst-lookup .deps/smn.automorf.hfst
4 Testenbargu:python skriptat
-
texts: fiillat dábálaš txt-formáhtas. _sme.txt ja _smX.txt
-
tmx_data: sihke sme ja smX seammá fiillas, okta cealkka háválassii.
-
fi.samediggi: sihke sme ja smn seammá fiillas, okta cealkka háválassii.
-
pseudo_tmx_data: dušše sme, okta cealkka háválassii.
- otpt_dir/: output-directory mas leat fiillat mat leat genererejuvvon python-skriptain.
- python-skripta ovttagielat teavsttaide: check_mt-otpt.py
- python-skripta guovttegielat teavsttiade, ja mas lea WER: wercheck_mt-otpt.py
Jorgalit teavstta mii lea juo jorgaluvvon, ja buohtastahttit jorgalusaid:
-
python wercheck_mt-otpt.py -f tmx_data/100writers_sme2smn.tmx
- open otpt_dir/ - de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.
Jorgalit olles máhpa, ja rahpat bohtosa:
-
python wercheck_mt-otpt.py -d tmx_data/
- open otpt_dir/ - de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.
Jorgalit teavstta mii ii leat jorgaluvvon ovdal:
-
python check_mt-otpt.py -f mappe/file
- open otpt_dir/ - de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.
Jorgalit olles máhpa, ja rahpat bohtosa:
-
python check_mt-otpt.py -d tmx_data/
- open otpt_dir/ - de rahpasa finder-láse. Vállje fiilla maid háliidat rahpat.
5 Buoridit jorgalanfeaillaid
- Bargat ieš, oažžut bagadeami
- Lasit cealkkapáraid testensiidduide, ja karakterisere daid lingvisttalaččat
Lexical selection
Lasit bidixii
- sámegielat = sämikielâlâš
- sámegielat = sämikiel
Geavat dán gohččuma vai oainnát taggaid
-
echo 'Doppe lea ollu sámegielat olbmot.' |apertium -d. sme-smn-biltrans
^Doppe<adv><sem_plc><@ADVL→>/Tobbeen<adv><sem_plc><@ADVL→>$ ^leat<vblex><iv><indic><pres><p3><pl><@+FMAINV>/leđe<vblex><indic><pres><p3><pl><@+FMAINV>$ ^ollu<adv><@←ADVL>/ennuv<adv><@←ADVL>$ ^sámegielat<adj><sem_hum><attr><@→N>/sämikiel<adj><sem_hum><attr><@→N>/sämikielâlâš<adj><sem_hum><attr><@→N>$ ^olmmoš<n><sem_hum><pl><nom><←ext→><@←SUBJ>/olmooš<n><sem_hum><pl><nom><←ext→><@←SUBJ>$ ^.<sent>/.<sent>$^.<sent>/.<sent>$
Lasit -lrx-fiilii:
<rule weight="1.0"> <match lemma="sámegielat"> <select lemma="sämikiel"/> </match> </rule> <rule weight="0.5"> <match lemma="sámegielat"> <select lemma="sämikielâlâš"/> </match> </rule> <rule weight="0.6"> <match lemma="sámegielat" tags="adj.sem_hum.attr.*"> (sámegielat<adj><sem_hum><attr><@→N>) <select lemma="sämikielâlâš"/> </match> <or> <match tags="n.sem_hum.*"/> (omd. olmmoš<n><sem_hum><pl><nom>) <match tags="n.*.sem_hum.*"/> (omd. oahpaheaddji<n><nomag><sem_hum><pl><nom>) </or> </rule>
Nubbi ovdamearka dás: Lexical selection
GASKAVAHKU
6 Hash-listtuiguin bargat
Jus don háliidat ráhkadit ođđa hash-listtu ieš, dahje don háliidat ohcat ovdamearkkaid, de fertet
Loga eanet hash-listtuid birra dás: hash-listtut
dev/hash-fi-report.fi
27 #sosiaal<adj><cmp_sgnom><cmp_splitr> sosiála- sosiaal- sosiaal+A+Cmp/Attr+Cmp/SplitR 21 #sosiaal<adj><cmp_sgnom><cmp>syergi 14 #jieškote<prn><ind><sg><gen> 14 #Sosiaal<adj><cmp_sgnom><cmp_splitr> 12 #vääri<n><cmp_sgnom><cmp>#ovdâsteijee<n><nomag><sg><loc><south> 9 #Sosiaal<adj><cmp_sgnom><cmp>syergi 7 #riehtiministeriö<n><sg><gen> riehtiministeriö riehti+N+Cmp/SgNom+Cmp#ministeriö+N+Sg+Acc 6 #Ume<np><top><sg><loc> Ume+N+Prop+Sem/Org+Sg+Loc
Ulbmil: Ipmirdit ja divvut feaillaid.
Gohččumat:
cat dev/hash-report.freq |egrep -v '(cmp|<np-d"#" -f2|cut -d"<" -f1|hfst-lookup smj-sme.automorf.hfst |see cat dev/hash-report.freq |egrep -v '(cmp|<np>|<top>|der_)'|see
DUORASTAGA
7 Bidix-sanity
sh bidix-sanity.sh > sanityoutput
Lea vejolaš heivehit sanityoutput nu ahte oaččut listtu mas eai leat namat,
Go leat dev -máhpas:
sh sortedsanityoutput_withoutprop.txt
Loga eanet bidix-sanity birra.
BEARJADAGA
8 Testen
Regression tests
Pending tests
9 Derivašuvnnat
- Taggaid harmoniseren (seammá tagga buot gielain)
Harmoniserte tagger som forteller funksjon:
- Der/A, Der/Adv, Der/Dimin, Der/NomAct, Der/NomAg, Der/AAdv
- Der/PassL, Der/PassS, Der/Pass
- Der/InchL, Der/Caus (Der/ahtte smj)
Forslag om nye tagger som forteller funksjon:
- pass: Der/halla Der/PassD => Der/PassH Der/PassD Der/PassT
Andre harmoniserte tagger:
- Der/st, Der/l, Der/d , Der/lasj, Der/sasj, Der/vuota
- kaus: Der/h Der/ht Der/d Der/tt
Forslag om nye harmoniserte tagger:
- Der/alla - Der/alle (sma) => Der/alla
- Der/lágan Der/laakan Der/lagan => Der/laakan
- Der/lágaš => Der/laagasj
- Der/las +Der/lis (vearba => adj) => Der/las Der/lis
- Der/t smj: Der/k => Der/k
- Der/upmi -- Der/NomActPass , eller er det nok at vi har Der/PassL i strengen før Der/NomAct:
Resten av sme-taggene - ikke diskutert, og mange av dem er ikke så viktige for MT
- Der/meahttun
- Der/heapmi +Der/ahtes
- Der/jagaš Der/jagáš => Der/jagasj
- Der/keahtta <=== marginal ikke-normativ derivasjon for substantiver, samme form som VAbess
- Der/adda
- Der/amoš
- Der/asti
- Der/at
- Der/dáfot
- Der/eamoš
- Der/easti
- Der/geahtes
- Der/has
- Der/heapmi
- Der/huhtti
- Der/huvva
- Der/muš
- Der/nuolus
- Der/náittot
- Der/seagat
- Der/stuvva
- Der/stávval
- Der/supmi
- Der/suttat
- Der/veara
- Der/viđi
- Der/viđá
- Der/ár
10 Missinglisttuiguin bargat
11 Gávdnat meattáhusaid sme-inputas
- váilevašvuođat FST: s
- boasttudisambigueren
12 Syntávssalaš áššit
- čoaggit ovdamearkkaid
- gos čoavdit daid, ja mo
13 Transfer-njuolggadusat
Bargu ovdal geassemánu MT-vahku.
FST
Buohkaide
Derivašuvnnat MT perspektiivvas
smn
Adjektiivvat, Px,
MT
Buohkaide
- bidix-sanity
- missing-lists politihkalaš domenas
- hash
smj
bidix
smn
Teknihkalaš áššit
- Korpus: Paralleallateavsttat
- Scriptat: bleu/wer
- Ođđa jorgaluvvon korpus juohke idja
- Buoridit kompilerenrutiinnaid (FST)
Boahtteáiggi fáttát
- Metodologiija: Naba jos háliida jorgalit girjji
- prográmmat dasa