191024
Giellateknomøte 24.10.2019
Tilstede: Trond, Chiara, Lene, Risten
Saksliste
- Orienteringssaker
- Korpus og Korp
- Preprosessering
- CG-MT
- Nasjonalbiblioteket og jupyter
- Kommande presentasjonar og prioriteringar
- Paris, UNESCO
- Andre saker
Orienteringssaker
Servarar (oppsummering)
Spørjeundersöking, 60 spørsmål, businessorientert.
Trond og Chiara ser på dette.
Wordpress
Chiara klarer no å logge seg inn. Alt ser ut til å fungere.
Vi betaler for den nye og ser etterkvart på kva som skjer.
MT apertium
Ikke arbeidd aktivt med sme-nob på lenge. Lene har arbeidd med sme-smx.
Vi bør også hugse sme-smn (Lene ser på samansetjingsstiar også for smn).
Annex
Trond og Chiara ser på dette neste veke.
SMARTool
Vi har hatt møte og møtereferat.
Konteaksta
Isak Saba-senteret har testa ut Konteksta og liker det.
NDS
Derivasjon:
Når vi går frå eit lemma vi klikkar på i translation bør det gå direkte til lemmaet i smenob-fila, og ikkje via analysatoren. Det er berre forvirrande. Chiara skal endre slik at det går direkte til lemma. Lene skriv Bz på dette.
Dette skal gjelde for alle språkpar (ta hensyn også til Hom-taggene)
Klikk-i-tekst
Det hendar det dukkar opp Der-taggar i klikk-i-tekst-vindauget. Vi må se på hva som skal være med i vinduet, og evt. flere brukervennlige tagger
Korpus og Korp
Status
nob-sme
Sametinget har lovd å sende over protokoller i docx-format, men ingenting har kommet. Lene tar kontakt om dette.
fin-smn
Reetta laga ei liste over problem i fin-smn. Denne venter til vi har noen til å arbeide med dette språkparet.
nob-fkv
- Tekstane i freecorpus treng parallellisering.
- KI og KMD har tekstar som må i freecorpus
Trond diskuterer med Kvensk Institutt.
mhr og mrj
Desse vil vi har analysert og publisert på gtweb.uit.no/u_korp
http://victorio.uit.no/rusbound/
Chiara skal få tilgang til rusbound (Trond)
Arbeidsgang framover:
- fornye korpusinnholdet (Køyre pipeline Chiara og Trond)
- prøve pipeline, viss det går bra: Publisere på u_korp (Chiara)
- Oppdatere Korp-programmet for u_korp og f_korp (Chiara)
- Oppdatere FST og CG (mhr-gruppa)
- Forbetre OCR-prosessering (mhr-gruppa)
Ekstra person til å arbeide?
Vi vurderer måtar å få tak i nokon. Utlysing. Trond diskuterer.
Preprosessering
hfst-tokenise og setningsinndeling.
abbr-filene
- hfst-tokenise inkluderer alle punktum i forkortingane
- hfst-tokenise -cg tok.hfstol og deretter cg3 mwe.hfstol
|hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3
- Sjekk om forkortinga ligg inne i sme og i nob
- Parallellize bruker hfst-tokenize, uten mwe, men den er mulig å legge til
- Køyre setning med den relevante kommandoen
Testing og testrutiner
Risten leiter etter setningar med forkortingar (med punktum) inni og til slutt i setningar (transitive og intransitive).
Risten og Trond ser på dette (diskuterer med Børre og Sjur).
Den nye organiseringa av abbr må implementeres også for dei andre samiske språka også (Trond).
CG-MT
Status
Pipeline fra sme-txt til dep-analyse må legges til manuelt.
Det er enda noen problemer med pipeline, ikke alt fungerer som det skal. Vi skal arbeide med dette i neste uke.
Burde koden etterhvert omskrives fra perl til python?
Veke med Eckhard
Vi inviterer, tidligst veka 9.-13.12. (Trond)
Nasjonalbiblioteket og jupyter
Situasjon
Det kjem ei lenke på korpussida på giellalt.
Kommande presentasjonar og prioriteringar
Trond:smn, fkv, SAALS Uppsala 21-22.11, stadnamn
Lene:24.10 SESAM, SAALS Uppsala 21-22.11, LIA Trondheim 25-x'27.11, Paris??
Paris, UNESCO
Vi vil sannsynlegvis bli invitert til å lage ein poster.
Andre saker
Kurs i regi av Forskarforbundet
Chiara drar.