260412
Giellatekno-møte 26.04.2018
Tilstede: Trond, Ciprian, Chiara, Lene
Saksliste
- Ciprians reise
- Søknad til NFR
- Konteaksta
- Planer framover (kort sikt)
- FST + CG pipeline (relevant for alle)
- Folk på timelønn
- Ferie
Ciprians reise
Ciprian presenterte artikkel som blir fagfellevurdert og publisert.
Bonus: Muligens får vi et verktøy til visualisering av flerspråklige ordbøker.
Søknad til NFR
private/trunk/plan/admin/applications/nfr_2018/
Konteaksta
Alt er implementert lokalt, men last opp fil er enda ikke implementert på nettet.
Hva skal vi gjøre med filer som lastes opp?
Språkgjenkjenning, problem med textcat. Chiara snakkar med Børre.
Lene har testa, det er problem med noen tekstar. Ser på dette med Chiara.
Pipeline bug med preprocess. Vi bruker xfst på nettet no, men jobber med hfst-pipeline lokalt.
Møte med lærere på NTVGS tirsdag 22. mai kl. 12-15.30 (Chiara og Lene)
FST + CG pipeline (sent-proc.sh, men også ellers)
Input til CG skjer i dag i prinsippet på tre måtar:
- perl xfst perl
- perl hfst perl
- hfst hfst hfst
Det vi vil ha over heile linja er (3), dvs:
./configure --with-hfst --enable-tokenisers
hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst|vislcg3 -g src/syntax/disambiguator.cg3
Sjå hfst-tokenize --help for eit oversyn over alternativ.
Planer framover (kort sikt)
ML er i Tromsø neste uke, vi skal gjøre ferdig en artikkel om smn speller.
Arbeide med tokenisering i hfst-pipeline.
Små driftsmidler
- sørsamisk syntaktisk analyse
- evt. korpusarbeid:
- parallellisering av tekster
- flere tekster, visse domene (f.eks. nob-sme samiske tall forteller)
- parallellisering av tekster
Oppdatering av korp
Fire kriteria å vurdere
- enspråklige tekster
- flere parallelltekster, særlig for nye språkpar (i dag: nob-sme, nob-sma, fin-smn).
- Kandidat: fin-sme skal vere med på neste
- Kandidat: fin-sme skal vere med på neste
- forbedre metadata
- forbedre preprosessering
Konvertering pdf til xml: Problemet er bindestrekar på slutten av linja i pdf-dokumentet.
(note: ordformsøk fin-smn går bra, men ikkje lemmasøk)
Statens kartverk
Ciprian tar kontakt med SK for å avklare en del informasjon i listene.
Deretter ser vi på det, og inviterer evt nokon frå SK til diskusjon.
LIA - prioriteres
Reisepenger
- Vi lagar budsjett for desse pengane. Alle: Mail til Trond
- Vi bør ha gode rutiner for oppfølging i løpet av året (Trond)
- Omposteringer for 2018: Torsby, Kautokeino
Folk på timelønn
- korpusarbeid
- sma syntaktisk analyse (delvis mai, pluss juni)
Ferie
- Trond: I starten av juli (9?) - 5.8.
- Lene: 2.7-5.8
- Ciprian: Ca. fra starten av juli, kanskje også litt før (slutten av juni)
- Chiara: kanskje 2 uker fra 16.07