190816

Giellateknomøte 19.8.2019

Tilstede: Trond, Chiara, Lene, Risten (under korpusarbeid)

Saker:

  • Myhre og maskinlæring
  • Korpusarbeid
  • Korp-oppdatering og Göteborg-reise
  • NDS
  • Oversikt, planar denne høsten
  • Færøyane

Myhre og maskinlæring

Det blir møte på tysdag. Chiara og Trond diskuterer eit opplegg og nettside med relevant informasjon.

  • Presentere vår bakgrunn og innfallsvinkel til maskinlæring
  • Konkrete problemstillingar vi har (MT baseline, stavekontrollforslag, missinglist-komponent, ...)
  • Studentoppgåver (vi har data)
  • Moglege forskingsprosjekt, og finansiering? (tverrfakultær)
  • Samarbeid -- ikkje berre maskinlæring!!

Vi lagar ei side maskinlæring under forsking, med lenkje til giellalt.

Korpusarbeid

August: Risten har parallellisert admin/sd-mappa (sma, nob), med utgangspunkt i ei liste Lene har laga på nettet. Børre skal legge inn i korpustools ein sjekk for at fila ikkjer er parallellisrt frå før, men til no er det lister som gjeld.

Korpora som har prioritet

  • Parallellkorpora: nob-sma, nob-sme,
  • Einspråklige: mhr, mrj, fkv, sme,

Innsamling:

  • sme: Sametingsprotokollar, Ávvir
  • smn, marisk, fkv

Ristens prioritetsliste:

  1. parallellisering: Reettas liste fin-sme
  2. innhenting og parallellisere: nob og sme sametingsprotokoller (2016->)
  3. parallellisering: nob-sma/smj/sme, fin-smn/sms/sme (i dag har vi: nob-sme, nob-sma, fin-smn)

Prioriteringsprinsipp, generelt:

  1. nob, sme: hente og parallellisere (på ein fornuftig måte)
  2. Kontrollere nye parallelliserte filer for alle 6 språkpar (evt. prioritere deltakarar til seminaret)

Status for freecorpus/prestable/tmx:

  • fin2X: filer: 3119
  • nob2X: filer: 1281
  • sme2X: filer: 3590
  • sma2X: filer: 412
  • smj2X: filer: 806
  • smn2X: filer: 495
  • sms2X: filer: 491

Bør lages ei liste med antall setninger/ord for hvert språkpar.

Chiara vil ikkje oppdatere noko før andre veke i september.

Trond ser på dei finske filene til neste møte, Risten arbeider etter lista over.

Korp-oppdatering og Göteborg-reise

Chiara tar kontakt med Gbg. (Husk lemgram for Korp)

NDS

  • %-søk
  • entersøk, vs. tabsøk

Press TAB or touch screen to select

For lærere og brukere (lage dokumentasjonsside, undervise på kurs)

  • Klikk-i-tekst, brukes begges veger
  • korpus i forhold til NDS (en- og tospråklig korpus)
  • link til grammatikk
  • ordavledninger (info + artikler)
  • lref
  • stammetype
  • paradigme, også med link til korpus
  • Fornavn finnes for sme
  • forskjellig paradigmer

Chiara legger til korpuslinker også til paradigmer for andre PoS enn verb.

Oversikt, planar denne høsten

  • 23.–24.8 Bibelseminar Kautokeino (Trond, Lene)
  • 26.8 UD-delegasjon, Tromsø (Lene)
  • 3.–4.9 språksenterworkshop (Lene)
  • 2.-5.9. Göteborg (Chiara)
  • 2.-9.9. Færøyane (Trond)
  • 12.9. UHR-møte Oslo (Lene) - Lene: avspasering 13.9
  • 19.9. Oslo, Språkrådet, (Trond)
  • 30.9-2.10 NODALIDA i Turku (Lene, Trond, Chiara)
  • 2.–4.10. Sørsamiske fagdager Levanger (Lene, Trond)
  • 9.–10.10. Oversetterseminar Inari (Lene, Trond)
  • 7.-11.10. Ferie (Chiara)
  • 11.10. Bergen, leksikografi (Trond)
  • 19.10. Lyngenseminar (Lene)
  • 14.–15.11. SAALS4 Uppsala (Lene, Trond)
  • 26.11. LIA seminar Oslo (Lene)
  • 21.-22.11 Stadnamn, Tromsø (Trond)
  • 5.-6.12. UNESCO, Paris (??)

Færøyane

Trond samarbeider med universitetet der om FST og stavekontroll, drar dit i september.