191021
fkv-kokous 15.10.2019
Paikalla Aili, Thomas, Trond
Asialista
- Korpusasiat
- Tilannekatsaus
- Tyø
- Tilannekatsaus
- Testaaminen
- yaml
- muut make check-testit
- yaml
- Priorisointi
- Kveeniseminaari Tromssassa
Korpusasiat
Tilannekatsaus
Sekæ KMD että Norjan Kielineuvosto haluavat priroisoida kveenin rinnakkaiskorpusta.
Tavaoitteen siis integroida terminologia sanakirjaan ja rinnakkaiskorpukseen:
Esimerkki
- Personer som behersker både norsk og et annet hjemmespråk eller morsmål i tillegg vil ha tilgang til et rikere og mer utvidet sosialt miljø .
- Ko ossaa sekä ruijaa ette jotaki muuta kieltä saattaa liikkuut monessa joukossa .
add_files_to_corpus -p orig/sme/admin/sd/other_files/dokumentti.pdf -l nob
Terminologia
http://www.termwiki.sprakradet.no/wiki/Hovedside
-
https://no.wiktionary.org/wiki/japani
-
https://no.wiktionary.org/wiki/Kategori:Substantiv_i_finsk
- https://meta.wikimedia.org/wiki/Requests_for_new_languages#Wiktionary
Kysymys: Voiko saada järkevä alusta terminologiatyölle? Voiko Wiktionary olla semmoinen?
Trond voi katsoa tätä
Työ
Nämä KI: n tekstit ovat korpuksessa:
- abc-company_eit_skriftsprak_for_kven_kvensk.doc
- fb_pressemelding_13.11.2012.doc
- halti_kvenkultusenter_iks_26.06.09_kvensk.doc
- halti_nasjonalparksenter_om_vpr_pa_soyle_kvensk.doc
- kainun_institutti_a._borsskog_pressimellinki_23.08.2010.doc
- kainun_institutti_a._borsskogin_kirja_07.01.2010.doc
- kainun_institutti_aaninayttely_fkv.doc
- kainun_institutti_infobrev_om_utviklingen_av_kvensk_skriftsprak_kvensk_og_norsk_21.07.2011.doc
- kainun_institutti_institutin_kesanayttely_2011_a._paulsen_press.doc
- kainun_institutti_kesanayttely_2011_a._paulsen_kuvatekstit_kvaani.doc
- kainun_institutti_kesanayttely_2012_agnes_eriksen.doc
- kainun_institutti_mauno_maitovalas_30.05.10_animasjonstekster_kvensk.doc
- kainun_institutti_mauno_maitovalas_30.05.10_bildetekster_kvensk.doc
- kainun_institutti_mauno_maitovalas_handout_23.06.10_kvensk.doc
- kieli_taulu_kvaani.pdf
- kuka_mie_olen_presentasjon_kvensk.doc
- kvaanin_eli_kainun_kielen_krammatiikki_pressemellinki_04.01.2012.doc
- kvensk_samarbeidsrad_diplom_pa_kvensk.doc
- kvensk_samarbeidsrad_diplom_pa_nob.doc
- pressemelding_mennesker_i_nord_2010.doc
- pressemelding_mennesker_i_nord_2013.doc
- pressitiedotus_zits_viivi_ja_wagner.doc
- tiet_ruijhaan_press_release_kvensk_25.03.2011.doc
- tiet_ruijhaan_rosa_tekster.doc
- uuet_laulut_25.05.2010.doc
- uuet_laulut_konserttiprogramin_teksti.doc
- uuet_produktit_nye_produkter_kvensk_institutt_nettside_04.02.2013.doc
- vanhoi_pyssyjoven_kuvvii_plakat.pdf
- vanhoi_pyssyjoven_kuvvii_pressemelding.doc
Paljon siis puuttuu.
Katsaus:
cd freecorpus/orig/fkv ls admin/*/*.xsl admin/*/*/*.xsl ls */*/*.xsl */*/*/*.xsl |wc -l # tämä on sama kuin seuraava ls -R . |grep xsl|wc -l # montaako tiedostoa (ks edellinen) ls -R . ccat -l fkv ../../converted/fkv/|wc -w # montaako sanaa? 18546 drwxr-xr-x 18 trond staff 576 Jun 17 17:30 other_files drwxr-xr-x 44 trond staff 1408 Jun 17 17:30 regjeringen.no
Testaaminen
yaml
sh test/yaml-check.sh
perintö: perinttöi tahi perinöitä? Aili kuuntele vanhoi nauhoi ja etti Perungan (Beronkan) töistä. Toinen ehotus oon lisätä molemat ja tehhä kommentin siitä ette yhen poistethaan ko tiämä mikä oon oikhein.
feeriä oon kans jäljelä; emmä tiä sen pl vartalo, esimerkiksi oonko feeriöitä tahi feerii jne. Tarvittema enämen dokumentaatiota tästä.
yamlit oon muutoin kunnossa, ei ole isomppii assiita. Thomas oon korjanu pl ess ja kom. Aili oon tehny feililistan.
muut make check-testit
lemmatestit:
- liuota+V+Inf liuvota
- livota+V+Inf lijota
- noveta+V+Inf nojeta
- silmästä+V+Inf silmäistä
twolc-testi:
- hfst: 5 sääntöä eivät mene läpi
- test/src/phonology/pair-test-out.hfst.txt
- test/src/phonology/pair-test-out.hfst.txt
- twolc: 8 sääntöä eivät mene läpi
- test/src/phonology/positive-pairs-out.txt
src/morphology/affixes/numerals.lexc -LEXICON ARABICCASEORD-ERR -ARABICCASEORD ; ! XXX look at this +!LEXICON ARABICCASEORD-ERR +!ARABICCASEORD ; ! XXX look at this *** Warning: Sublexicons defined but not used: ARABICCASEORD-ERR
LEXC test 3: analyser-gt-norm.hfstol + morphology/lexicon.tmp.lexc - 574/0/574 PASS LEXC test 3: analyser-gt-norm.xfst + morphology/lexicon.tmp.lexc - 574/0/574 PASS XPASS: run-lexc-testcases.sh ========================================================== 1 of 1 test did not behave as expected (1 unexpected pass) (6 tests were not run) Please report to feedback@divvun.no ========================================================== Sjur: Du må greppa etter !!€ og !!$ i lexc-filene Sjur: Men testen burde ikkje bli køyrd på lexicon.tmp.lexc, eg skal sjå på det når eg er tilbake på kontoret.
Kattavuus
kattavuus mittattu 1800on nyt 90,23% (siis 1 - 2226/22794)
48367/376486, siis 87,15%
ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l 22794 <=== ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|ufkv|grep '+?'|wc -l 2226
Tuomas:fkv thomas$ ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l 291552 Ailis-MacBook-Pro:fkv aili$ ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l 22794 387979
Vanha preprosessointi ccat -l fkv converted/fkv/|preprocess|ufkv|grep '+?'|cut -f1|sort|uniq -c | sort -nr > fkv.missing.191021 Uusi preprosessointi: ccat -l fkv converted/fkv/|hfst-tokenize -cg $GTHOME/langs/fkv/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst|grep ' ?'|cut -d'"' -f2|sort|uniq -c |sort -nr | less fkv:ssa: ./configure --with-hfst --enable-tokenisers --enable-reversed-intersect --enable-dialects make -j
Edelleen ongelmia näiden kanssa:
/usr/local/bin/hfst-lexc: The file lexicon.tmp.lexc did not compile cleanly. !LEXICON ARABICCASEORD-ERR !ARABICCASEORD ; ! XXX look at this libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException /bin/sh: line 1: 60661 Done /usr/bin/printf "read regex @\"filters/reorder-subpos-tags.hfst\" .o. @\"filters/reorder-semantic-tags.hfst\" .o. @\"generator-raw-gt-desc.tmp1.hfst\" ;\n save stack generator-raw-gt-desc.tmp.hfst\n quit\n" 60662 Abort trap: 6 | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134 make[2]: *** Waiting for unfinished jobs.... rm analyser-raw-gt-desc.tmp.xfst make[1]: *** [all-recursive] Error 1 make: *** [all-recursive] Error 1 make clean make -j
Yli viis kertaa:
19 yeah 18 Taavetin 16 ijänkaikkisesti 14 antakhoon 13 maahaan 13 kunnia 12 terveeksi 12 Paavalin 11 eleison 11 Kyrie 11 Joh 10 kvensk 10 armatta 10 Pyhitetty 10 Peetleheemhiin
Suuren korpuksen tavallisimmat tuntemattomat
263 kirj 261 Muist 189 sg 170 Oulan 165 Kvensk 159 Kert 157 Jouni 124 Kertoi 114 sg3 93 part 91 tulee 81 sg.nom 62 pl 61 saatto 56 Jounin 56 ANNAN 53 → 53 KAISA 52 sg1 51 alko 49 Pohjas-Tromssan 49 Haltiin 48 ssa 48 Vuossárga 48 Tirsdag 48 Maŋŋebárga 48 Mandag 48 ADVLI 47 prees 47 antaa 46 la 44 neljä 44 institutti-Kvensk 42 thaan 40 N[sg.nom 39 ssä 38 miitä 37 kuinka 36 veli 36 u 36 kiinni 36 av 36 alkaa 35 Rohtorin 34 pl3 34 maahaan 33 vaihettelluu 33 ettei 33 Omasvuonon 32 is
Priorisointi
- Korpuskeräys
- Meidän pitää saada testit toimimaan
- Sen jälkeen voidaan arvioida ja priorisoida virheitä
- Generoidut paradigmat -- Aili lukee ja analysoi, sitten korjata
- Kattavuus
Kveeniseminaari Tromssassa
Ensi kokous
Kokousreferaatin kirjoittaminen, ks. jspwiki-syntaksi