191015
fkv-kokous 15.10.2019
Asialista
Tänään
- Viime kokouksen asiat
- Kysymykset
- Missing lists
- Järjestys
- Virheilmoitus
- Missing lists
- Seuraava kokous
Myöhemmin fkv
- Tilannekatsaus
- yaml
- muut make check-testit
- yaml
- Priorisointi
- Kveeniseminaari Tromssassa
Viime kokouksen asiat
https://giellalt.uit.no/lang/fkv/KvenDocumentation.html
Kysymyslista:
Missinglists.
Tämän komenon kaikki "osat":
echo hei | preprocess | ... cat ~/Downloads/mandat.txt| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed '>>‘<< s/,/, /g;’
$ echo hei| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed ‘s/,/, /g;’ cut: bad delimiter sed: 1: "‘s/,/,": invalid command code ?
Kommennossa oli virhe: Väärä apostroffi. Unicode-merkkien tunnistaminen:
Oikea apostroffi on __'__, eli U+002 APOSTROPHE. Voidaan myös käyttää __"__ (eli: shift 2).
Notes-ohjelmasta pitää poistaa kaikki "smart quotes"-valinnat.
Uusi nob:
cd ../nob svn up svn up ../../giella-shared ./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect # Thomas ./configure --with-hfst --enable-alignment --enable-reversed-intersect # Aili make -j
Kommennot u = analyysi (up), d = generointi (down):
- hfst-analysaattorille: hunob, hdnob, hufkv, hdfkv
- xfst-analysaattorille: unob, dnob, ufkv, dfkv
Komentorivi:
cat ~/Downloads/mandat.txt| # ota teksti preprocess| # yksi sana per rivi unob| # norjan analysaattori cut -f2| # ota lemma + analyysi cut -d"+" -f1| # heitä analyysi pois uniq| # lyö tuplamuodot yhteen sort| # laita aakkosjärjestykseen uniq -c| # laske muotoja sort -nr| # järjestää määrän mukaan cut -c6-| # ota numerot pois nobfkv| # käännä kveeniksi grep "?"| # poimi tuntemattomat cut -f1| # muodot vain kerran grep '[a-z]'| # vain ne, joilla on vähintään yksi kirjain tr '\n' ','| # lista muutetaan yhdeksi riviksi sed 's/,/, /g;'| # lisätään väli pilkun jälkeen see # ja heitetään subethaeditiin
- Kuinka tiettää mihin järjestyksheen laittaa kaikki osat?
- Järjestys on looginen (!): edellisen komennon output on seuravan komennon input
- Järjestys on looginen (!): edellisen komennon output on seuravan komennon input
- Miksi saan tämän virheen (Bad CPU type in executable) jos käytän xfst?
- Koska Catalina ei tunnista sitä. Palataan asiaan.
Missing list
----
sivu alkaa tähän
ufkv jos xfst, hufkv jost hfst-xfst:
Missing-list-komento on tämä:
cat teksti.txt | preprocess | ufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing cat teksti.txt | preprocess | hufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
Missing-list-kommennon selitys:
cat teksti.txt | # ota teksti preprocess | # yksi sana per rivi ufkv | # analysoi (jos normatiivinen, niin ufkvNorm, hufkvNorm) grep "+?" | # poimi tuntemattomat: virrhe<tab>virrhe<tab>+? cut -f1 | # poimi ensimmäinen kolonna: virrhe sort | # aakkostaa uniq -c | # lyö yhteen ja laske määrä sort -nr > # järjestä taajuuden mukaan teksti.missing #
Sen jälkeen pitää lisätä teksti.missing-sanat src/morphology/stems/ -tiedostoihin tarpeiden mukaan.
Hyvä idea: Jos on tavallinen virhe, niin sekin voidaan lisätä analysaattoriin:
peret+Err/Orth:pär n_32_et ;
Onko sinulla antiword-lääke? Kirjoita komentoriville:
which antiword
Jos kone löytää antiwordin, sinulla on se. Jos ei, dokumentaatio
- Jos teksti on muodossa teksti.doc, voit tehdä antiword teksti.doc.
- Jos teksti on muodossa teksti.docx, sinun pitää
- tallentaa se .txt-muotoon, tai
- tallentaa se .doc-muotoon ja käyttää antiword, tai
- kopioida sisällön ja liimata tekstidokumenttiin
- tallentaa se .txt-muotoon, tai
which ccat convert2xml ~/freecorpus/orig/fkv ccat -l fkv ~/freecorpus/orig/fkv | preprocess | ...
Vaihtoehtoinen
ei preprocess, vaan hfst-tokenize
Sivu loppuu tähän
Aili ja Thomas tekevät dokumentaation, näin:
Sivu on tämä:
https://giellalt.uit.no/lang/fkv/KvenDocumentation.html
see doc/KvenDocumentation.jspwiki # Siinä: Tee linkki (ks. MissingLists.html mallina, esim. UusiDokumentti.html) # Tallenna. touch doc/MissingLists.jspwiki # taikka UusiDokumentti.jspwiki see doc/MissingLists.jspwiki # editoida,... + tallentaa svn add doc/MissingLists.jspwiki svn ci -m "jotain fiksua" doc/MissingLists.jspwiki
Tässä ovat jspwiki-editoinnin säännöt
- tallenna: doc/meetings/191015.jspwiki
- svn add doc/meetings/191015.jspwiki
- lisätä linkki tiedostoon doc/KvenDocumentation.jspwiki (ks. rivi 39)
- tsekata molemmat sisään
Seuraava möötti:
21.10 kl 09.00 (jatko-osa)
Rinnakkaistekstit
- Adding the parallel file. Miten se oli kuin molemmat tekstit (originaaliteksti ja käänös) on samassa dokumentissa? Tämä komento myös silloin? add_files_to_corpus -p orig/sme/admin/sd/other_files/dokumentti.pdf -l nob
- Pitäisikö laittaa orginaalitekstin eriksheen korpuksheen?