Inarin Koltan Kieliteknologia Maalis15
Tavoitteet:
- Mikä on analysaattori, ja miksi sitä tarvitaan
- Unix-järjestelmän hakemistojen hallitseminen (cd, ..)
- Versiohallinta (svn, ...)
- lexc, eli morfologia
- Unix kielentutkijoille (cat, tr, cut, ...)
Maanantai, tiistai:
Yleiskatsaus:
main/courses/lexctwolc/basics
- 1.lexc = me kirjoitamme
- 1.twolc = me kirjoitamme
- m1 = kone rakentaa ohjelmat
- 1.fst = rakennettu analyysiohjelma
- i1.fst = rakennettu tuottamisohjelma
lexc:
- automaatti = yksi taso: auto = auto, autb = ?
- transduktori = kaksi tasoa: autot <=> auto+N+Sg+Pl
Konkreettisesti:
- automaatti: substantiivit, pari sijamuotoa, px
- transduktor:
- morfologiset nimitarrat
twolc:
- twolc yksinään
- astevaihtelu
- vokaalisointu
lexc ja twolc yhdessä
- astevaihtelu
- vokaalisointu
- i-vaihtelu
- lisäboonuksena vesi-sanojen mallintaminen
Unix-järjestelmän hakemistojen hallitseminen
- komentorivi, komennot ja miten ne liitetään yhteen
- cat, tr, grep, sort, rev, cut, sed
- säännölliset lausekkeet:
^, $, ., *, +, (...), [...], ...
Lukemista:
Versiohallinta (svn)
Ohjelmien asentaminen koneisiin
Morfologisen analyysiohjelman rakentaminen
Morfofonologisen analyysiohjelman rakentaminen
tekstianalyysi unixin avulla
Keskiviikko, torstai
Omien kielten tiedostojen lukeminen
Torstai
giellaekno-infrastruktuurin käyttäminen:
- löytää
- kääntää
- korjata
- miten työnskenellä
- arvioida
- testata
Perjantai
Kertaaminen