Inarin Koltan Kieliteknologia Maalis15

Tavoitteet:

  • Mikä on analysaattori, ja miksi sitä tarvitaan
  • Unix-järjestelmän hakemistojen hallitseminen (cd, ..)
  • Versiohallinta (svn, ...)
  • lexc, eli morfologia
  • Unix kielentutkijoille (cat, tr, cut, ...)

Maanantai, tiistai:

Yleiskatsaus: Mitä on kieliteknologia, ja miksi se on tärkeä inarinsaamelle Morfologisen analyysiohjelman rakentamisen periaatteet

main/courses/lexctwolc/basics

  • 1.lexc = me kirjoitamme
  • 1.twolc = me kirjoitamme
  • m1 = kone rakentaa ohjelmat
  • 1.fst = rakennettu analyysiohjelma
  • i1.fst = rakennettu tuottamisohjelma

lexc:

  • automaatti = yksi taso: auto = auto, autb = ?
  • transduktori = kaksi tasoa: autot <=> auto+N+Sg+Pl

Konkreettisesti:

  • automaatti: substantiivit, pari sijamuotoa, px
  • transduktor:
  • morfologiset nimitarrat

twolc:

  • twolc yksinään
  • astevaihtelu
  • vokaalisointu

lexc ja twolc yhdessä

  • astevaihtelu
  • vokaalisointu
  • i-vaihtelu
  • lisäboonuksena vesi-sanojen mallintaminen

Unix-järjestelmän hakemistojen hallitseminen

  • komentorivi, komennot ja miten ne liitetään yhteen
  • cat, tr, grep, sort, rev, cut, sed
  • säännölliset lausekkeet:
^, $, ., *, +, (...), [...], ...

Lukemista:

Versiohallinta (svn)

Ohjelmien asentaminen koneisiin

Morfologisen analyysiohjelman rakentaminen

Morfofonologisen analyysiohjelman rakentaminen

tekstianalyysi unixin avulla

Keskiviikko, torstai

Omien kielten tiedostojen lukeminen

Torstai

giellaekno-infrastruktuurin käyttäminen:

  1. löytää
  2. kääntää
  3. korjata
  4. miten työnskenellä
  5. arvioida
  6. testata

Perjantai

Kertaaminen