191015

fkv-kokous 15.10.2019 Paikalla Aili, Thomas, Trond

Asialista

Tänään

  • Viime kokouksen asiat
  • Kysymykset
    • Missing lists
    • Järjestys
    • Virheilmoitus
  • Seuraava kokous

Myöhemmin fkv

  • Tilannekatsaus
    • yaml
    • muut make check-testit
  • Priorisointi
  • Kveeniseminaari Tromssassa

Viime kokouksen asiat

https://giellalt.uit.no/lang/fkv/KvenDocumentation.html (Kokous jatkoi seuravalla päivällä, sen pöytäkirja puuttuu)

Kysymyslista:

Missinglists.

Tämän komenon kaikki "osat":

echo hei | preprocess | ...
cat ~/Downloads/mandat.txt| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed '>>‘<< s/,/, /g;’
$ echo hei| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed ‘s/,/, /g;’
cut: bad delimiter
sed: 1: "‘s/,/,": invalid command code ?

Kommennossa oli virhe: Väärä apostroffi. Unicode-merkkien tunnistaminen: https://earthlingsoft.net/UnicodeChecker/

Oikea apostroffi on __'__, eli U+002 APOSTROPHE. Voidaan myös käyttää __"__ (eli: shift 2).

Notes-ohjelmasta pitää poistaa kaikki "smart quotes"-valinnat.

Uusi nob:

cd ../nob
svn up
svn up ../../giella-shared
./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect # Thomas
./configure --with-hfst --enable-alignment --enable-reversed-intersect # Aili
make -j

Kommennot u = analyysi (up), d = generointi (down):

  • hfst-analysaattorille: hunob, hdnob, hufkv, hdfkv
  • xfst-analysaattorille: unob, dnob, ufkv, dfkv

Komentorivi:

cat ~/Downloads/mandat.txt| # ota teksti
preprocess|                 # yksi sana per rivi
unob|                       # norjan analysaattori
cut -f2|                    # ota lemma + analyysi
cut -d"+" -f1|              # heitä analyysi pois
uniq|                       # lyö tuplamuodot yhteen
sort|                       # laita aakkosjärjestykseen
uniq -c|                    # laske muotoja
sort -nr|                   # järjestää määrän mukaan
cut -c6-|                   # ota numerot pois
nobfkv|                     # käännä kveeniksi
grep "?"|                   # poimi tuntemattomat
cut -f1|                    # muodot vain kerran
grep '[a-z]'|               # vain ne, joilla on vähintään yksi kirjain
tr '\n' ','|                # lista muutetaan yhdeksi riviksi
sed 's/,/, /g;'|            # lisätään väli pilkun jälkeen
see                         # ja heitetään subethaeditiin
  • Kuinka tiettää mihin järjestyksheen laittaa kaikki osat?
    • Järjestys on looginen (!): edellisen komennon output on seuravan komennon input
  • Miksi saan tämän virheen (Bad CPU type in executable) jos käytän xfst?
    • Koska Catalina ei tunnista sitä. Palataan asiaan.

Missing list

----

sivu alkaa tähän

ufkv jos xfst, hufkv jost hfst-xfst:

Missing-list-komento on tämä:

cat teksti.txt | preprocess | ufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
cat teksti.txt | preprocess | hufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing

Missing-list-kommennon selitys:

cat teksti.txt | # ota teksti
preprocess |     # yksi sana per rivi
ufkv |           # analysoi (jos normatiivinen, niin ufkvNorm, hufkvNorm)
grep "+?" |      # poimi tuntemattomat: virrhe<tab>virrhe<tab>+?
cut -f1 |        # poimi ensimmäinen kolonna: virrhe
sort |           # aakkostaa
uniq -c |        # lyö yhteen ja laske määrä
sort -nr >       # järjestä taajuuden mukaan
teksti.missing   # 

Sen jälkeen pitää lisätä teksti.missing-sanat src/morphology/stems/ -tiedostoihin tarpeiden mukaan.

Hyvä idea: Jos on tavallinen virhe, niin sekin voidaan lisätä analysaattoriin:

peret+Err/Orth:pär n_32_et ; 

Onko sinulla antiword-lääke? Kirjoita komentoriville:

which antiword

Jos kone löytää antiwordin, sinulla on se. Jos ei, dokumentaatio kerto miten se asennetaan.

  • Jos teksti on muodossa teksti.doc, voit tehdä antiword teksti.doc.
  • Jos teksti on muodossa teksti.docx, sinun pitää
    • tallentaa se .txt-muotoon, tai
    • tallentaa se .doc-muotoon ja käyttää antiword, tai
    • kopioida sisällön ja liimata tekstidokumenttiin
which ccat
convert2xml ~/freecorpus/orig/fkv
ccat -l fkv ~/freecorpus/orig/fkv | preprocess | ...

Vaihtoehtoinen

ei preprocess, vaan hfst-tokenize


Sivu loppuu tähän

Aili ja Thomas tekevät dokumentaation, näin:

Sivu on tämä:

https://giellalt.uit.no/lang/fkv/KvenDocumentation.html

see doc/KvenDocumentation.jspwiki
# Siinä: Tee linkki (ks. MissingLists.html mallina, esim. UusiDokumentti.html)
# Tallenna.
touch doc/MissingLists.jspwiki # taikka UusiDokumentti.jspwiki
see doc/MissingLists.jspwiki
# editoida,... + tallentaa
svn add doc/MissingLists.jspwiki
svn ci -m "jotain fiksua" doc/MissingLists.jspwiki

Tässä ovat jspwiki-editoinnin säännöt

  • tallenna: doc/meetings/191015.jspwiki
  • svn add doc/meetings/191015.jspwiki
  • lisätä linkki tiedostoon doc/KvenDocumentation.jspwiki (ks. rivi 39)
  • tsekata molemmat sisään

Seuraava möötti:

21.10 kl 09.00 (jatko-osa)

Rinnakkaistekstit

  • Adding the parallel file. Miten se oli kuin molemmat tekstit (originaaliteksti ja käänös) on samassa dokumentissa? Tämä komento myös silloin? add_files_to_corpus -p orig/sme/admin/sd/other_files/dokumentti.pdf -l nob
  • Pitäisikö laittaa orginaalitekstin eriksheen korpuksheen?