180412

Giellateknomøte 12.04.2018

Tilstede: Ciprian, Trond, Chiara, Lene

Saker

  • Office365
  • Serversaka
  • TTS på server, for bruk online, pluss til NDS og annet
  • Giellatekno-nettsida
  • Arbeid med lyd (NRK)
  • Arbeid med korpus

Office365

Outlook fungerer etter oppskrift, Mail og Android ikkje.

Tiltak:

  • Trond drar til Orakel på Hus2.

Serversaka

Vi har att møte. Børre har sendt spesifikasjon. Vi har ikkje fått attendemelding.

Tiltak:

  • Ciprian ber Børre ta kontakt med relevante personar og følgje opp.

TTS på server, for bruk online, pluss til NDS og annet

Vi vil ha TTS installert på server for å kunne tilby TTS som

  • oneline-tilbud (kopier inn tekst og få det opplest)
  • legge TTS til NDS

Tiltak:

  • Chiara tar kontakt med Sjur og Acapella

Giellatekno-nettsida

Chiara har lagt til ny logo, og har noen ideer, men ønsker plan for hva hun kan gjøre innimella anna arbeid.

Tiltak:

  • Chiara sjekker inn endringene hun har gjort allerede.
  • Chiara lager en skisse som vi diskuterer når hun har gjort det

Techdoc

  • utskilling fra hovedinfo
  • userdoc bør skilles ut separat (for bygging)
  • sjekke symlinker før utskilling
  • felles techdoc med Divvun krever kommunikasjon

Tiltak:

  • Ciprian og Chiara diskuterer med Børre
  • Vi endrar ikkje ting før vi har nye servarar på plass.

Arbeid med lyd (NRK)

En person fra NRK har tatt kontakt (epost) for samarbeid som innbefatter lyd. Vi kan bruke nettverkspenger til å bygge opp kompetansen vår og samarbeidet med Aalto.

TTS og ASR bruker felles en del ressursar, og kan dermed diskutere samtidig.

  • Opptak av lyd + tekst
  • Modell for lyd til bokstav og omvendt?

ASR: Kjenne att ei røyst vs. kjenne att alle

Vi vil ha vår eigen pipeline

Lydsamarbeid:

  1. Diskutere med Sjur (Chiara)
  2. Setje opp ein alfa-pipeline for TTS og ein for ASR (Chiara og Ciprian)
  3. Invitere relevante miljø (tsjuvasjisk, Aalto) (Trond)

NRK:

Trond følgjer opp brevet. Vi gjer framlegg om eit møte om ulike samarbeid.

  • TTS/ASR (opptak er viktig)
  • Tekstar med lyd i Korp
  • Konteakstasamarbeid
  • Divvun: Integrering av stavekontrollar i redigeringssystem

Arbeid med korpus

Kronjobb mailen er kryptisk, Ciprian undersøker denne.

Prioriteringsliste for handarbeid i korpus.

For neste oppdatering av innholdet i Korp:

Henting på nett / prosessering

  • nob-sme
    • hente artikler i samilogutmuitalit
    • allerede henta inn en del som må fikses for parallellisering
  • sme-nob
    • NRK Jođi-tekster (hvis vi får dette i samtaler med NRK)
  • nob-sma
    • barnebøker (er i korpus?)
  • sme
    • Sámis på internett - free (pdf)
  • blogger
    • MLO
    • HW
    • Sámi Dutkansearvi

Corpus improvement work 2018

  • innholdet i sme/admin/sd/samisketall bør flytte til freecorpus/sme/science/samilogut/
  • news: muligheter for å flytte fra bound til free?
  • science: vi har filer sme/science både i free og i bound, uten noen klar deling
  • sma: eget valg for klassiske tekster (Ciprian har snakka med Maja-Lisa og ho skal sende en liste over disse tekstene)
  • sma: Ciprian vil lage en demo med ord-aligned mini-korpus nob-sma.

Innsamling frå forlag

  • sme-sma
  • sme-smj