210114
Giellateknomøte 14.1.21
Tilstede: Trond, Lene, Chiara
Saker
- Saker frå siste møte
- Korpusoppdateringa: status og arbeid
- MT og neurale nett (møtet i neste veke)
- Prioritering av programmeringsarbeid + evt. ting å ta opp med Divvun-gruppa
- UArctic
- ICALL i Sverige?
- NFR + forskarskole?
- HIF-kurs i språkteknologi høsten 2021 ?
Saker frå siste møte
Migrering av python2 til python3
MT
smesmj
Lene vil vurdere intervju med lesarar, gje gratis digitalt abonnement for å delta i intervju.
Arbeidsgang ved publisering (dette er rutinar som må publiserast):
- Tekstene oversettes med vår MT og lagres på Ávvir-server, pga. av publisering med rammer osv.
- Leserne må be om oversetting via knapp, dvs at det vil for dem fungere likt som annen MT
- LTK tar ein manuell gjennomgang i løpet av eit par timar, og Lene forbedrer bidix og transfer
- Ávvirs oversetting oppdateres på deres server
Problem med inc-katalogar og automatisk konvertering av sme-ord til f.eks. smj:
- Det er mange falske venner mellom f.eks. sme og smj
- Å blande usjekka ordpar inn i produksjon gjør at man ikke får ordene i missinglist, det er vanskelig å se hva som er feil
smesmn
Vedlikehald av MT generelt
TODO: Sjå på automatisk oppdatering av sem-taggar med Sjur og Børre (Trond).
Plan for minimums MT-oppdatering
CGMT
Digitalisering og Samisk arkiv
oahpa.no
Nasjonale minoritetsspråk
Trond følgjer opp dette.
ssh og nøklar
Vi bør bestemme kva vi vil gjere, Chiara må svare.
Korpusoppdateringa:status og arbeid
Grepkorpus
Chiara har laga grepkorpus, Lene har gått gjennom og gjort rettinger i de samiske FSTene og påpekt hva som skal rettes i sms. Trond følgjer opp med sms, +Comp > +Der+Der/Comp+A og +Superl > +Der+Der/Superl+A er viktigst.
Korp
- Laste ned knappen er fiksa.
Tekstar
Bibeltekstar i usx. Trond snakkar med Bibelselskapet. Vi vil få nobsme in toto. For dei andre er delar omsett. Diskusjon med Børre om sjekking og parallellisering.
Buggar i frontend
Det uralske korpuset er publisert, med god mottaking. JB har laga ein film om dette.
Arbeid
- Fikse u_korp bugger
- oppdatere f_korp
- oppdatere korp
- endre grensesnittet (se forrige møtereferat)
MT og neurale nett (møtet i neste veke)
Møte 20.1. klokka 10.
Plugins i CAT. Vi bør spørje om Wordfast, og meir om Uleåborgprosjektet.
NMT: Jf. diskusjon om dekolonialisering (Trond sender artikkel til oss andre).
Prioritering av programmeringsarbeid + evt. ting å ta opp med Divvun-gruppa
https: //github.com/divvun/registry
Oppfølging av Bugzilla
Evt andre saker
Opne saker i Bugzilla
Generelt
- Sjå på prioriteringa av dei sakene vi finn viktige (er merkinga rett)
- Diskutere eksplisitt med relevante personar
Baakoeh-bug
Dette krever overgang til HFST. dict-FST på server er oppdatert med riktig configure.
Vi må bruke denne for å få med vekting:
./configure --with-backend-format=openfst-tropical
Er dette innebakt i --enable-tokenisers ?
./configure --with-hfst --enable-tokenisers --enable-reversed-intersect
gir for Trond:
HINTRSCT generator-raw-gt-desc.tmp1.hfst /usr/local/bin/hfst-compose-intersect: warning: Transducer type mismatch in <stdin> and fst/phonology.rev.hfst; using former type as output HXFST generator-raw-gt-desc.tmp.hfst libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException /bin/sh: line 1: 92187 Done /usr/bin/printf "read regex @\"filters/reorder-subpos-tags.hfst\" .o. @\"filters/reorder-semantic-tags.hfst\" .o. @\"generator-raw-gt-desc.tmp1.hfst\" ;\n save stack generator-raw-gt-desc.tmp.hfst\n quit\n" 92188 Abort trap: 6 | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134 make[1]: *** [all-recursive] Error 1 make: *** [all-recursive] Error 1
UArctic
ICALL i Sverige?
NFR + forskarskole?
HIF-kurs i språkteknologi høsten 2021?
På samisk har vi ikkje bachelorstudentar akkurat no slik at kurset sannsynligvis er ikke er relevant for samiskstudenter.
Samisk masterkurs i språkteknologi + korpuslingvistikk, V22.
Neste møte
26.1. klo. 0900.
Trond sender invitasjon.