180911

Giellatekno-møte 11.09.2018

Tilstede: Ciprian, Trond, Chiara, Lene

Saker

  • Oppfølgjing frå førre møte
  • Korp
  • NDS
  • SSHRC
  • LIA
  • Loggar
  • Haustplan

Oppfølgjing frå førre møte

Trond følgjer opp preprocess-saka + tale.

Korp (Stockholm)

  • Ciprian lagar presentasjon frå oss
    • Multilingual presentasjon av taggane
  • Versjonar av Korp (github) 5.0.10 og (som test) 6.0.1 vs. Göteborg: 7.0.0

Korp (Uleåborg)

Nytt innhald + debugging Samansette ord på fleire linjer nedover PUNCT har framleis tomme entryar i grepkorpus

"<doaimma>"
        "doaibma" N Sem/Act Sg Gen @>N #2->3

"<skuvlladoaimma>"
        "doaibma" N Sem/Act Sg Gen @>N #2->3
                "skuvla" N Sem/Edu_Org Cmp/SgGen Cmp #2->3

"<jekkiidsuodjalanguovlu>"
        "guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
                "suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
                        "jeaggi" N Sem/Plc Cmp/PlGen Cmp #4->2
        "guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
                "suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
                        "jeaggi" N Sem/Plc Err/Orth Cmp/PlGen Cmp #4->2
                        

$HLOOKUP $GTHOME/langs/sme/src/generator-gt-norm.hfstol
jeaggi+N+Cmp/PlGen+Cmp#suodjaleapmi+N+Cmp/SgNom+Cmp#guovlu+N+Sg+Nom        jekkiidsuodjalanguovlu
jeaggi+N+Sem/Plc+Cmp/PlGen+Cmp#suodjaleapmi+N+Sem/Act+Cmp/SgNom+Cmp#guovlu+N+Sem/Plc+Sg+Nom        jekkiidsuodjalanguovlu
(fungerer både med og uten semtagger)

Konklusjon:

  • Vi held fram med to preprosesseringsmetodar for Korp (xfst, hfst), og evaluerer skilnaden dei i mellom
  • Prioritet: Presentere ny versjon av korpusinnholdet i Uleåborg
  • Evalueringa av xfst/hfst vil vise kva versjon vi skal implementere det nye innhaldet med.

https://spraakbanken.gu.se/eng/research/infrastructure/korp/distribution/backend

NDS

Posisjonsproblemet med søkeordet er fiksa. Viss søkeordet får to treff prioriterer vi det som har same streng. Chiara har implementert "facebook-feltet" som Sindre ville ha for sanat.

SSHRC

Frist i slutten av september, Lene, Trond, Sjur ser på dette.

LIA

Analyse:

Lene fikk 5 nye filer frå Kristin sist torsdag, disse blei sendt med morfologi og MT på fredag. Det er no 82 000 ord frå oss til LIA.

Det er saker opne med annotering, dette bør vi diskutere i Kautokeino. Retting av ortografi: Det burde være automatiske prosedyrer for å rette betre.

Cip og Joel var einig om at Joel skulle arbeide på den siste versjonen, der %+Fonetikk ikkje skulle vere med.

Debugging

Feilmelding til https: //tekstlab.uio.no/glossa2/saami

  1. Feil søkeresultat (t.d. pronomen for substantiv)
  2. Feil pop-up-analyse (substantiv, men presentert med feil lemma eller feil analyse)
  3. Dobbel pop-up-analyse (!)
  4. Tekniske symbol i analysen (_DCC_)
  5. Lingvistiske feil i analyse
  6. Fjerne # frå MT_output, kanskje også *

Programmet for LIA-workshop

Onsdag med vekt på bruk av LIA Sápmi, torsdag meir internasjonalt og overordna perspektiv

Loggar

Trond har lagt inn oversyn over loggprosessar i priv/. Alle ser om det manglar noko, deretter ser vi på prosessering av loggane.

Haustplan

Alle oppdaterer planen sin, vi ser på prioriteringar neste gong.