190911
Giellateknomøte 11.9.2019
Tilstede: Chiara, Lene, Trond,
Saksliste
- SMARTool
- Uli-føredrag (tidspunkt?)
- Nasjonalbiblioteket
- Språkhistoriekurset og Janne S
- cg-mt pg perlstiar
- UB: Exhibition on Arctic Indigenous languages (når?)
- Oppsummering av besøk hos språkbanken i Göteborg (teakstačoakkaldaga birra)
- Ordbild (mo buoridit min Korp-prográmma?)
- Korpus
- nob/sme-preprosessering
- ... evt andre saker
SMARTool
Vi lar SMARTool vere på vår github, og satsar på å prøve ut og samarbeide med russisk om dette.
https://uit-no.github.io/smartool/
Denne saka er viktig i forhold til å beholde to programmererstillinger.
Uli-føredrag (tidspunkt?)
Nasjonalbiblioteket
Lars kommer til UiT i kveld. Chiara og Trond avtaler tidspunkt for møte med Lars.
Her ligg Kurset om grensesnitt for Bokhylla.
Språkhistoriekurset og Janne S
Janne kjem neste veke, held førelesing torsdag på masterkurs og vi tar møte med han fredag frå morgonen og fram til etter lunsj.
cg-mt pg perlstiar
Chiara har fiksa det, og snakka med Sjur. Chiara og Trond ser på dette.
Neste spørsmål vil vere å generere script til fleire språk.
UB:Exhibition on Arctic Indigenous languages
Åpning UB mandag 16/9 kl 15-16. Dei som kan, går.
Oppsummering av besøk hos språkbanken i Göteborg (teakstačoakkaldaga birra)
Chiara har arbeidd i Götebrg, meir eller mindre berre med Ordbild. Det er ein
Tabeller ok, svar frå backend ok, men problem med å vise. Det var ikkje opplagt
Oppdatering av grensesnitt
Ny maskin til Chiara
Konto på bøttemacen, deretter evt. eiga maskin.
Personalmøte
Nye prosjekt:
Det blir oppretta ein AI-lab i Sverige, som skal samarabeide med
Dei viste også verkty for å annotere korpus.
Dei har eit prosjekt med Lund for å undersøke korleis rykte blir spreidd på nett.
Dei kjem alle til å vere på NoDaLiDa.
Ordbild (mo buoridit min Korp-prográmma?)
I dagens Ordbild er det plass for POS og @-funksjon (@S
Utfordringa er å få lemmaform.
Trond og Lene oppdaterer OversiktOverOrdbild.jspwiki
Korpus
Chiara prioriterer parallellkorpus: nob-sme og nob-sma
Vi må finne FAD-tmx-filene på freecorpus. Trond ser på det.
Prioritering.
- Parallellisert korpus:
- nob-sma (gjerne før 3.10)
- nob-sme (gjerne før 9.10)
- fin-smX (gjerne analyseres på nytt før 9.10, men her er ikke noen nye filer)
- nob-sma (gjerne før 3.10)
- Marisk (mhr og mrj) 70 mill (Korpuset er prosessert men ikkje sjekka. Analysen bør forbetrast)
- Kvensk (Trond undersøker situasjonen: Er det fleire tekstar som skal inn?)
- Samiske einspråklege
- Nordsamisk (evt. vente på fleire som kjem inn), og ta med semtagger (med skript for å endre tagger)
nob/sme-preprosessering
Lene har sett på romartal (små romertal fungerer).
Risten meldar frå om preprosesseringsproblem som hindrar parallellisering.
Neste møte
blir neste veke. Ikkje heilt til vanleg tid, då er det besøk frå FAD. Kanskje på fredag, vi ser på det.