191024

Giellateknomøte 24.10.2019

Tilstede: Trond, Chiara, Lene, Risten

Saksliste

  • Orienteringssaker
  • Korpus og Korp
  • Preprosessering
  • CG-MT
  • Nasjonalbiblioteket og jupyter
  • Kommande presentasjonar og prioriteringar
  • Paris, UNESCO
  • Andre saker

Orienteringssaker

Servarar (oppsummering)

Spørjeundersöking, 60 spørsmål, businessorientert. gtoahpa-01, gtweb-01. Dette er servarar, men spørsmål er om applikasjonar.

Trond og Chiara ser på dette.

Wordpress

Chiara klarer no å logge seg inn. Alt ser ut til å fungere.

Vi betaler for den nye og ser etterkvart på kva som skjer.

MT apertium

Ikke arbeidd aktivt med sme-nob på lenge. Lene har arbeidd med sme-smx.

Vi bør også hugse sme-smn (Lene ser på samansetjingsstiar også for smn).

Annex

Trond og Chiara ser på dette neste veke.

SMARTool

Vi har hatt møte og møtereferat.

Konteaksta

Isak Saba-senteret har testa ut Konteksta og liker det.

NDS

Derivasjon: Vi har fått brev fra bruker om substantiv ikke dukker opp. Dette er et substantiv som også har NomAg-analyse.

Når vi går frå eit lemma vi klikkar på i translation bør det gå direkte til lemmaet i smenob-fila, og ikkje via analysatoren. Det er berre forvirrande. Chiara skal endre slik at det går direkte til lemma. Lene skriv Bz på dette.

Dette skal gjelde for alle språkpar (ta hensyn også til Hom-taggene)

Klikk-i-tekst

Det hendar det dukkar opp Der-taggar i klikk-i-tekst-vindauget. Vi må se på hva som skal være med i vinduet, og evt. flere brukervennlige tagger

Korpus og Korp

Status

Chiara kan sjå på HFST vs. XFST.

nob-sma

Risten har parallellisert lovtekstar. Tre står att. Lene har fjerner etterhvert i 2012-korpuset. Spørsmål: Vi analyserer 2012-data ein gong til, for å unngå dobbelt sett tekstar.

Sametinget har lovd å sende over protokoller i docx-format, men ingenting har kommet. Lene tar kontakt om dette.

Bibel

fin-smn

Reetta laga ei liste over problem i fin-smn. Denne venter til vi har noen til å arbeide med dette språkparet.

nob-fkv

  • Tekstane i freecorpus treng parallellisering.
  • KI og KMD har tekstar som må i freecorpus

Trond diskuterer med Kvensk Institutt.

mhr og mrj

Desse vil vi har analysert og publisert på gtweb.uit.no/u_korp

http://victorio.uit.no/rusbound/

Chiara skal få tilgang til rusbound (Trond)

Arbeidsgang framover:

  1. fornye korpusinnholdet (Køyre pipeline Chiara og Trond)
  2. prøve pipeline, viss det går bra: Publisere på u_korp (Chiara)
  3. Oppdatere Korp-programmet for u_korp og f_korp (Chiara)
  4. Oppdatere FST og CG (mhr-gruppa)
  5. Forbetre OCR-prosessering (mhr-gruppa)

Ekstra person til å arbeide?

Vi vurderer måtar å få tak i nokon. Utlysing. Trond diskuterer.

Preprosessering

hfst-tokenise og setningsinndeling.

abbr-filene

  • hfst-tokenise inkluderer alle punktum i forkortingane
  • hfst-tokenise -cg tok.hfstol og deretter cg3 mwe.hfstol
|hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 
  1. Sjekk om forkortinga ligg inne i sme og i nob
  2. Parallellize bruker hfst-tokenize, uten mwe, men den er mulig å legge til
  3. Køyre setning med den relevante kommandoen

Testing og testrutiner

Risten leiter etter setningar med forkortingar (med punktum) inni og til slutt i setningar (transitive og intransitive).

Risten og Trond ser på dette (diskuterer med Børre og Sjur).

Den nye organiseringa av abbr må implementeres også for dei andre samiske språka også (Trond).

CG-MT

Status

Pipelinen for CG-MT fungerer. Halve pipelinen er i et skript tools/mt/cgbased/bin/smegram. Dokumentasjon ligg i tools/mt/cgbased/README

Pipeline fra sme-txt til dep-analyse må legges til manuelt.

Det er enda noen problemer med pipeline, ikke alt fungerer som det skal. Vi skal arbeide med dette i neste uke.

Burde koden etterhvert omskrives fra perl til python?

Veke med Eckhard

Vi inviterer, tidligst veka 9.-13.12. (Trond)

Nasjonalbiblioteket og jupyter

Situasjon

Lars har svart på spørsmål, Trond og Chiara skriv dokumentasjon.

Det kjem ei lenke på korpussida på giellalt.

Kommande presentasjonar og prioriteringar

Trond:smn, fkv, SAALS Uppsala 21-22.11, stadnamn

Lene:24.10 SESAM, SAALS Uppsala 21-22.11, LIA Trondheim 25-x'27.11, Paris??

Paris, UNESCO

Vi vil sannsynlegvis bli invitert til å lage ein poster.

Andre saker

Kurs i regi av Forskarforbundet

Chiara drar.