unix_korpus_kursa
Unix ja Divvunkurssat
1. Unix-gohččumat korpusohcamii
Fiillat maiguin sáhttá stoahkat
info ja man (= manual) ja --h
- info cat
- man cat
- kwic-snt --h
cat (= concatenate)
- cat fiila1.txt (váldde ovtta fiilla)
- cat fiila1.txt fiila2.txt (váldde máŋga fiilla)
- cat *.txt (váldde buot fiilla main lea .txt loahpas)
- cat skuvla* (váldde buot fiilla main lea skuvla álggus)
- cat -n fiila.txt (váldde fiilla ja nummirastte linnjáid)
pipe (boallobeavddis:Alt 7)
| cat fiila.txt | less cat fiila.txt | sort | uniq > boadus.txt
less (= opposite of more) (modus)
- space (bláđe vulos)
- b (bláđe bajás)
- g (mana fiilla álgui)
- G (mana fiilla lohppii)
- nummir g (mana linnjánummárii)
- /xxx (oza sreaŋgga xxx)
wc (= word count)
- -l (galle linnjá)
- wc -l
- wc -l
- -w (galle sáni)
- wc -w
kwic-snt
- -w (= width) (viidodat, default = 80)
- kwic-snt -w 150 xxx
- kwic-snt -w 150 xxx
- -m (= most)(galle dáhpáhusa, default = 100)
- kwic-snt -m 500 xxx
- kwic-snt -m 500 xxx
- -b (= before) (sortere gurutbeal konteavstta mielde)
grep (= get regular expression), egrep (= extended grep)
- -c (galle linnjá)
- grep -c xxx
- grep -c xxx
- $ (linnjá loahpas)
- grep "xxx$"
- grep "xxx$"
- ^ (linnjá álggus)
- grep "^xxx"
- grep "^xxx"
- -v (mat eai sisttisdoala xxx)
- grep -v xxx
- grep -v xxx
- grep-ovdamearkkat:
(Váldde linnjáid mat sisttisdollet:) grep "láhk[aá]i" (láhkai dahje láhkái) grep "[A-ZČŠŽŊĐŦ]" (ovtta dáin bustávain: ABCD....) grep "[0-9]" (ovtta dáin loguin: 0123...) grep -v "[0-9]" (main ii leat lohku) grep "[139]" (ovtta dáin loguin: 139) grep "139" (139)
- egrep (viiddiduvvon)
- egrep "(xxx|yyy)" (main lea juogo xxx dahje yyy)
regex
. vaikko makkár mearka * vaikko man galle \ dahká ahte ii dulkojuvvo regex:n, omd. \* mearkkaša * grep "A.*A" (váldde linnjáid main leat unnimusat guokte A)
tr
- tr "x" "y"
preprocess --abbr=abbr.txt
- skripta mii juohká teavstta nu ahte juohke linnjás lea dušše okta sátni.
- --abbr váldá vuhtii oanádusaid ja multi word expressions (juohke gielas lea iežas abbr-fiila)
sort
- -nr (sortere nummára mielde)
- sort -nr
- sort -nr
- -u (sortere ja unifisere)
- sort -u
- sort -u
- -r (sortere reverserejuvvon alfabehta mielde)
- sort -r
- sort -r
- -o (= output, vurke fiilan)
- sort -o infile.txt outfile.txt
uniq
- -c (= count, galle dáhpáhusa)
- uniq -c
rev
sed
- sed "s/xxx/yyy/g"
cut
- -d (= delimiter, default lea TAB)
- cut -d " "
- cut -d " "
- -f (= field, ja váldde vára)
- cut -d " " -f2
- cut -d " " -f2,3,5
- cut -d " " -f2-
- cut -d " " -f2
Repetišuvdna
- kommando -vuohki objekta
- man kommando
- info kommando
- pipe
Bargobihtát:
- iskka fiillaid sturrodagaid
- oza dihto sreaŋggaid lessas
- oza dihto sániid, gehčosiid, prefivssaid. Geavat grep ja kwic-snt, ja buohtastahte bohtosiid
- oaččo ovtta sáni juohke linnjái: buohtastahte preprocess ja preprocess --abbr
- ráhkat frekveansaslisttu
- váldde sániid dihto prefivssain: sortere ja unifisere sihke sáni álggu ja loahpa mielde
- oaččo ovtta cealkaga juohke linnjái
2. Divvun-kursa
Bargat Divvun-serveris
Divvun korpus – galle sáni 30.11.12
šládja | sme | sma | smj |
---|---|---|---|
admin | 7.860.863 | 110.581 | 124.795 |
bible | 505.352 | 50.746 | 83.971 |
facta | 1.244.686 | 190.874 | 128.286 |
ficti | 231.908 | 144.582 | 41.507 |
laws | 797.721 | 0 | 0 |
news | 11.004.732 | 281 | 8.346 |
oktiibuot | 21.645.262 | 497.064 | 386.905 |
Oassi davvisámegiela teavsttain leat jorgalusat dárogielas, ja mii bálddalaston sámi/dáru cealkagiid:
- sme: 2.121.438, nob: 2.449.382
korpus
cd ../hoavda/Public/corp/
Analysed-máhpain leat dákkár fiillat:
- ccat: buhtes teaksta
- preprocess (rievtti mielde multi): buot vejolaš morfologalaš analysat
- dis: doaivvu mielde rivttes morfologalaš analysa pluss syntávttalaš gilkor
- dep: dependeansanummáriin
huksehus, ja mo navigeret
gos lean ja gosa áiggun?
- pwd (= print working directiory) (gos lean?)
- ls (= list) (čájet dán máhpa sisdoalu)
- ll (= long list) (čájet dán máhpa sisdoalu buot dieđuiguin)
- mkdir (= make directory)
- mkdir kurssadir (ráhkat kursadir-nammasaš máhpa)
- mkdir kurssadir (ráhkat kursadir-nammasaš máhpa)
- cd (= change directory)
- cd kurssadir (mana kursadir-nammasaš máhppii)
- cd .. (mana ovtta ceahki ruovttoluotta)
- cd ../.. (mana guokte ceahki ruovttoluotta)
- cd (mana ruovttumáhppii)
- cd kurssadir (mana kursadir-nammasaš máhppii)
ccat
alias
- less .bashrc
- emacs .bashrc / see .bashrc
svn up
- svnup (skripta mii ođasmahte buot fiillaid dihto máhpain)
analysáhtoriid kompileren
"ráhkat davvisámi morfologalaš analysáhtora"
- make GTLANG=sme (go leat gt-máhpas)
- Beassat analysáhtor-modusii aliasa bokte:
- usme (deskriptiiva analysáhtor) ja usmeNorm (normatiiva analysáhtor)
- dsme (deskriptiiva generáhtor) ja dsmeNorm (normatiiva generáhtor)
- usme (deskriptiiva analysáhtor) ja usmeNorm (normatiiva analysáhtor)
- Beassat eret dán modusis: Ctrl c
"ráhkat lullisámi/julevsámi morfologalaš analysáhtora"
- dáid gohččomiid maŋŋelaga:
- ./autogen.sh
- ./configure
- make
- ./autogen.sh
- Beassat analysáhtor-modusii aliasa bokte:
- usma dahje usmj (deskriptiiva analysáhtorat) ja usmaNorm dahje usmjNorm (normatiiva analysáhtorat)
- dsma dahje dsmj (deskriptiiva generáhtorat) ja dsmaNorm dahje dsmjNorm (normatiiva generáhtorat)
- usma dahje usmj (deskriptiiva analysáhtorat) ja usmaNorm dahje usmjNorm (normatiiva analysáhtorat)
- Beassat eret dán modusis: Ctrl c