180509

Giellateknomøte 9. mai 2018

Tilstede: Ciprian, Trond, Chiara, Lene

Saksliste

  • Serversaka
  • Alle orienterer
  • Preprosessering
  • LIA
  • Bibelen
  • NDS
  • NAV

Serversaka

Konteaksta fungerer ikkje fordi serveren (gtoahpa) er full. Det blir også problem med bookmarklet.

Serveroppgradering

Trond tar kontakt med IT advelinga før lunsj i dag, dette er kritisk for oss.

Dette er IT:

Administrasjonen ved UiT 
Seksjon for grunntjenester
Seksjon for digitale forskningstjenester
Seksjon for systemutvikling og arkitektur
Seksjon for digitale utdanningstjenester
Seksjon for brukernær IT-støtte

Alle orienterer

  • Ciprian: Deadline 20.5. (2 artikler, 1 presentasjon), LIA, bibelen
    • bortreist til 24.05.
  • Lene: arbeider med sma og CG, skriver Bz for diverse bugger i forbindelse med HFST, LIA, bibelen
    • er bortreist på fredag
  • Trond: Studentar, preprosessering, taggflytting, CG-testing, sma
  • Chiara: Konteaksta, hfst-testing, NDS

Preprosessering

Output for HFST fungerer for Konteaksta.

Trond og Sjur arbeider med output for forkortninger, vs. punktum som setningsgrense

  • skal punktum alltid være et eget token?
  • skal punktum være en del av lemma?
  • skal punktum være en del av lemma pluss eget token?

Møte om dette med Lene, Trond, Kevin, Sjur og Linda.

Trond skriv e-post om dette, møte så snart som råd.

LIA

Scriptet Ciprian har laga er no klart til å bruke (inkludert MT).

  • Lene og Ciprian diskuterer etter dette møtet

Bibelen

Ciprian har testa mange ulike konverteringar til vår xml og har laget et tilpasset skript for å få ut både xml og txt.

Lene har analysert, og får relevante analyser på setningsnivå, og kan plukke ut setningene som de ønsker.

Det er eitt teikn som blir prosessert i lag med ordet (enkelt hermeteikn for sitat i sitat). Trond og Lene ser på problemet med teikn.

Ønske fra Bibelselskapet: "Så er det også brukt en del ukjente ord og uttrykk i teksten. Er det mulig for dere å lokalisere slike ad maskinell vei?"

Legge teksten inn i Korp-grensesnitt? Alternativer:

  • separat url?
  • legge inn som eget valg i vår test-2018-korp?
  • med lås (tar lang tid fordi vi ikke har dette implementert)

Lingvistikk:

  • Legge til toppen av missinglist (vi + Thomas)

Framdrift

  1. Diskutere med Bibelselskapet
  2. Sende missinglist til dem
  3. Legge inn missing i lexc
  4. Sende setningar som tekst

NDS

Lenkje til Korp

  • Nokre ord får lenkje, andre får ikkje, dette er en bug
  • Forslag om at vi ikke legger inn lenke til bug hvis ordet ikke finnes i Korp
    • da må vi ha generere liste over alle lemmaer

Paradigme på førstesida

Børres framlegg. Dette vil være problematisk pga mye informasjon, og lite ønskelig for mobiltlf. TODO: Rydd opp i grå boks.

Adresse for tilbakemelding til NDS

Vi må få en synlig knapp for tilbakemelding, helst med informasjon om hvilket ord brukeren ser på (dyp url). Helst mulighet for anonym tilbakemelding.

Ulike analysatorar for fkv

Trond har lagt den riktige analyseren i /opt/ og i sanat.config.yaml, og skal sjekke inn endringa i svn.

sms

Kompileringstida for sms er to timar. Det er noko gale der. Vi må sjå på det og diskutere med Jaska.

Lene tar kontakt med Jaska.

*** Warning:  Sublexicons defined but not used:
      A_NUORR A_AQLKHKHI A_VUAQMES GER-ESS_ GER-INSTR_ N_HYPOTEEQS PROP_KHEQRJJ
      TV_PIYKKLOOCHCHYD TV_VUAGGGAD V_PEITTAD

NAV

Det skal vere møte i Kautokeino 11.6. om NAV-løysingar på samisk. Trond er bortreist på møte. Lene har planlagt å ta fri den dagen.

Trond høyrer med Sjur.