191021

fkv-kokous 15.10.2019

Paikalla Aili, Thomas, Trond

Asialista

  • Korpusasiat
    • Tilannekatsaus
    • Tyø
  • Testaaminen
    • yaml
    • muut make check-testit
  • Priorisointi
  • Kveeniseminaari Tromssassa

Korpusasiat

Tilannekatsaus

Sekæ KMD että Norjan Kielineuvosto haluavat priroisoida kveenin rinnakkaiskorpusta.

Tavaoitteen siis integroida terminologia sanakirjaan ja rinnakkaiskorpukseen:

http://sanat.oahpa.no

Esimerkki

  • Personer som behersker både norsk og et annet hjemmespråk eller morsmål i tillegg vil ha tilgang til et rikere og mer utvidet sosialt miljø .
  • Ko ossaa sekä ruijaa ette jotaki muuta kieltä saattaa liikkuut monessa joukossa .
add_files_to_corpus -p orig/sme/admin/sd/other_files/dokumentti.pdf -l nob

Terminologia

http://www.termwiki.sprakradet.no/wiki/Hovedside https://satni.uit.no/termwiki/index.php?title=Váldosiidu

Kysymys: Voiko saada järkevä alusta terminologiatyölle? Voiko Wiktionary olla semmoinen?

Trond voi katsoa tätä

Työ

Nämä KI: n tekstit ovat korpuksessa:

  • abc-company_eit_skriftsprak_for_kven_kvensk.doc
  • fb_pressemelding_13.11.2012.doc
  • halti_kvenkultusenter_iks_26.06.09_kvensk.doc
  • halti_nasjonalparksenter_om_vpr_pa_soyle_kvensk.doc
  • kainun_institutti_a._borsskog_pressimellinki_23.08.2010.doc
  • kainun_institutti_a._borsskogin_kirja_07.01.2010.doc
  • kainun_institutti_aaninayttely_fkv.doc
  • kainun_institutti_infobrev_om_utviklingen_av_kvensk_skriftsprak_kvensk_og_norsk_21.07.2011.doc
  • kainun_institutti_institutin_kesanayttely_2011_a._paulsen_press.doc
  • kainun_institutti_kesanayttely_2011_a._paulsen_kuvatekstit_kvaani.doc
  • kainun_institutti_kesanayttely_2012_agnes_eriksen.doc
  • kainun_institutti_mauno_maitovalas_30.05.10_animasjonstekster_kvensk.doc
  • kainun_institutti_mauno_maitovalas_30.05.10_bildetekster_kvensk.doc
  • kainun_institutti_mauno_maitovalas_handout_23.06.10_kvensk.doc
  • kieli_taulu_kvaani.pdf
  • kuka_mie_olen_presentasjon_kvensk.doc
  • kvaanin_eli_kainun_kielen_krammatiikki_pressemellinki_04.01.2012.doc
  • kvensk_samarbeidsrad_diplom_pa_kvensk.doc
  • kvensk_samarbeidsrad_diplom_pa_nob.doc
  • pressemelding_mennesker_i_nord_2010.doc
  • pressemelding_mennesker_i_nord_2013.doc
  • pressitiedotus_zits_viivi_ja_wagner.doc
  • tiet_ruijhaan_press_release_kvensk_25.03.2011.doc
  • tiet_ruijhaan_rosa_tekster.doc
  • uuet_laulut_25.05.2010.doc
  • uuet_laulut_konserttiprogramin_teksti.doc
  • uuet_produktit_nye_produkter_kvensk_institutt_nettside_04.02.2013.doc
  • vanhoi_pyssyjoven_kuvvii_plakat.pdf
  • vanhoi_pyssyjoven_kuvvii_pressemelding.doc

Paljon siis puuttuu.

Katsaus:

cd freecorpus/orig/fkv
ls admin/*/*.xsl admin/*/*/*.xsl
ls */*/*.xsl */*/*/*.xsl |wc -l # tämä on sama kuin seuraava
ls -R . |grep xsl|wc -l # montaako tiedostoa (ks edellinen)
ls -R .
ccat -l fkv ../../converted/fkv/|wc -w # montaako sanaa? 18546


drwxr-xr-x  18 trond  staff   576 Jun 17 17:30 other_files
drwxr-xr-x  44 trond  staff  1408 Jun 17 17:30 regjeringen.no

Testaaminen

yaml

sh test/yaml-check.sh

perintö: perinttöi tahi perinöitä? Aili kuuntele vanhoi nauhoi ja etti Perungan (Beronkan) töistä. Toinen ehotus oon lisätä molemat ja tehhä kommentin siitä ette yhen poistethaan ko tiämä mikä oon oikhein.

feeriä oon kans jäljelä; emmä tiä sen pl vartalo, esimerkiksi oonko feeriöitä tahi feerii jne. Tarvittema enämen dokumentaatiota tästä.

yamlit oon muutoin kunnossa, ei ole isomppii assiita. Thomas oon korjanu pl ess ja kom. Aili oon tehny feililistan.

muut make check-testit

lemmatestit:

4 verbiä kuten aikaiseemmin:

  • liuota+V+Inf liuvota
  • livota+V+Inf lijota
  • noveta+V+Inf nojeta
  • silmästä+V+Inf silmäistä

twolc-testi:

  • hfst: 5 sääntöä eivät mene läpi
    • test/src/phonology/pair-test-out.hfst.txt
  • twolc: 8 sääntöä eivät mene läpi
    • test/src/phonology/positive-pairs-out.txt
src/morphology/affixes/numerals.lexc
-LEXICON ARABICCASEORD-ERR
-ARABICCASEORD ; ! XXX look at this
+!LEXICON ARABICCASEORD-ERR
+!ARABICCASEORD ; ! XXX look at this

*** Warning:  Sublexicons defined but not used:
      ARABICCASEORD-ERR
LEXC test 3: analyser-gt-norm.hfstol + morphology/lexicon.tmp.lexc - 574/0/574 PASS
LEXC test 3: analyser-gt-norm.xfst + morphology/lexicon.tmp.lexc - 574/0/574 PASS
XPASS: run-lexc-testcases.sh

==========================================================
1 of 1 test did not behave as expected (1 unexpected pass)
(6 tests were not run)
Please report to feedback@divvun.no
==========================================================

Sjur: Du må greppa etter !!€ og !!$ i lexc-filene
Sjur: Men testen burde ikkje bli køyrd på lexicon.tmp.lexc, eg skal sjå på det når eg er tilbake på kontoret. 

Kattavuus

kattavuus mittattu 1800on nyt 90,23% (siis 1 - 2226/22794)

48367/376486, siis 87,15%

ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l
   22794 <===
ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|ufkv|grep '+?'|wc -l
    2226
Tuomas:fkv thomas$ ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l
  291552
  
 Ailis-MacBook-Pro:fkv aili$ ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l
   22794
  387979
Vanha preprosessointi
ccat -l fkv converted/fkv/|preprocess|ufkv|grep '+?'|cut -f1|sort|uniq -c | sort -nr > fkv.missing.191021

Uusi preprosessointi:
ccat -l fkv converted/fkv/|hfst-tokenize -cg $GTHOME/langs/fkv/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst|grep ' ?'|cut -d'"' -f2|sort|uniq -c |sort -nr | less

fkv:ssa:
./configure --with-hfst --enable-tokenisers --enable-reversed-intersect --enable-dialects
make -j

Edelleen ongelmia näiden kanssa:

/usr/local/bin/hfst-lexc: The file lexicon.tmp.lexc did not compile cleanly.

!LEXICON ARABICCASEORD-ERR
!ARABICCASEORD ; ! XXX look at this

libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException
/bin/sh: line 1: 60661 Done                    /usr/bin/printf "read regex 			@\"filters/reorder-subpos-tags.hfst\"             		.o. @\"filters/reorder-semantic-tags.hfst\"           		.o. @\"generator-raw-gt-desc.tmp1.hfst\" 		;\n	 save stack generator-raw-gt-desc.tmp.hfst\n	 quit\n"
     60662 Abort trap: 6           | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical
make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134
make[2]: *** Waiting for unfinished jobs....
rm analyser-raw-gt-desc.tmp.xfst
make[1]: *** [all-recursive] Error 1
make: *** [all-recursive] Error 1

make clean
make -j

Yli viis kertaa:

  19 yeah
  18 Taavetin
  16 ijänkaikkisesti
  14 antakhoon
  13 maahaan
  13 kunnia
  12 terveeksi
  12 Paavalin
  11 eleison
  11 Kyrie
  11 Joh
  10 kvensk
  10 armatta
  10 Pyhitetty
  10 Peetleheemhiin

Suuren korpuksen tavallisimmat tuntemattomat

 263 kirj
 261 Muist
 189 sg
 170 Oulan
 165 Kvensk
 159 Kert
 157 Jouni
 124 Kertoi
 114 sg3
  93 part
  91 tulee
  81 sg.nom
  62 pl
  61 saatto
  56 Jounin
  56 ANNAN
  53 →
  53 KAISA
  52 sg1
  51 alko
  49 Pohjas-Tromssan
  49 Haltiin
  48 ssa
  48 Vuossárga
  48 Tirsdag
  48 Maŋŋebárga
  48 Mandag
  48 ADVLI
  47 prees
  47 antaa
  46 la
  44 neljä
  44 institutti-Kvensk
  42 thaan
  40 N[sg.nom
  39 ssä
  38 miitä
  37 kuinka
  36 veli
  36 u
  36 kiinni
  36 av
  36 alkaa
  35 Rohtorin
  34 pl3
  34 maahaan
  33 vaihettelluu
  33 ettei
  33 Omasvuonon
  32 is

Priorisointi

  1. Korpuskeräys
  2. Meidän pitää saada testit toimimaan
  3. Sen jälkeen voidaan arvioida ja priorisoida virheitä
  4. Generoidut paradigmat -- Aili lukee ja analysoi, sitten korjata
  1. Kattavuus

Kveeniseminaari Tromssassa

Ensi kokous

Kokousreferaatin kirjoittaminen, ks. jspwiki-syntaksi