Puuttuvien Sanojen Nouto
’
HOW TO find missing kven words from nob text
Komento
Komento on:
cat ~/Desktop/xxxnob2fkv.txt |preprocess --abbr=tools/tokenisers/abbr.txt|unob|lookup2cg|vislcg3 -g src/syntax/disambiguation.cg3 |grep -v '"<'|cut -d" " -f1,2|uniq|grep ' N$’|sort|uniq -c|sort -nr|cut -c6-|cut -d'"' -f2|nobfkv|grep '?'|cut -f1
MITEN KÄYTTÄÄ (lue tämä, tämä riittää):
- Seiso terminaalissa main/langs/nob : ssa! (Eli jos kirjoitat pwd ja painat enter pitäis lukea: .../main/langs/nob)
- - esim. ~/Documents/NorjalainenTeksti.txt
Jos haluat eri sanaryhmän kuin vain Nouns (N) niin muokkaa (tai poista) osaa (Punainen teksti keltaisella):
... | grep ' N$’ | ...
Muita mahdollisia tageja on esimerkiksi: A, V, Adv, Pron, Pr
Tuloksena saat sanalistan jonka voit kopioida uuteen tekstitiedostoon.
MUTTA MITÄ SE OIKEASTAAN TEKKEE (vapaaehtoista):
Komennot ottaa tekstitiedoston,
- -> laittaa sen sana sanalta norjankielisen analysaattorin lävitse, (ja disambiguaattorin),
- -> poistaa disambiguaattorin tekemät ekstraanalyysit (hus = (N+Sg ja N+Pl), haluthaan vain 1: hus +N)
- -> poimii vain sanoja jotka kuuluvat siihen sanaluokkaan jota pyysin (esim. grep ' N$’)
- -> katsoo mitkä näistä sanoista puuttuu nobfkv sanakirjasta
- -> palauttaa ne, puhtaana listana
Jos syvällisemmin haluat ymmärtää yksittäiset komennot, aloita ensimmäisestä ja katso mitä saat tuloksesi. Sit lisää seuraava komento perään ja katso mitä nyt saat tuloksesi. Sit lisää seuraava jne. kunnes koko komentoketju on käytössä ja saat lopullisen sanalistan tuloksesi. Tässä vielä vähän kommentteja avuksi:
cat ~/Desktop/xxxnob2fkv.txt |preprocess --abbr=tools/tokenisers/abbr.txt|\ # laittaa sen sana sanalta norjankielisen analysaattorin lävitse, (ja disambiguaattorin): unob|lookup2cg|vislcg3 -g src/syntax/disambiguation.cg3 |\ # puhdistaa tekstiä ja poistaa disambiguaattorin tekemät ekstraanalyysit (hus = (N+Sg ja N+Pl), haluthaan vain 1: hus +N): grep -v '"<'|cut -d" " -f1,2|uniq|\ # poimii vain sanoja jotka kuuluvat siihen sanaluokkaan jota pyysin (esim. grep ' N$’|): grep ' N$’|\ # järjestää ne frekventisti, poistaa duplikaatit ja puhdistaa tekstiä: sort|uniq -c|sort -nr|cut -c6-|cut -d'"' -f2|\ # katsoo mitkä näistä sanoista puuttuu nobfkv sanakirjasta: nobfkv |grep '?'|\ # palauttaa ne, puhtaana listana: cut -f1