Meeting_2017-02-28
Contents:
S&T-møte 28.2.2017
Saksliste
- gt/sme/
- OmegaT
- FinUgReViTa
- fao
- Grønland
- MacDivvun
gt/sme/
$ tree . ├── script │ ├── 500testCGrules.sh -- spør, framlegg: slett │ ├── eckhard.sh -- slett │ ├── syntestCGrules.sh -- erstatta med langs/sme/test/src/syntax/syntax_developertest.sh, framlegg: slett │ ├── testCGrules.sh -- erstatta med ??, sjekk med Lene, framlegg: slett │ ├── testadj.sh -- slett │ ├── testnoun.sh -- slett │ ├── testproper.sh -- slett │ ├── testverb.sh -- slett │ └── uniqCG.sh - Skript for å kjøre sum-cg.pl uten semtagger -- utdatert, oppdater sum-cg.pl ├── src │ ├── Makefile │ ├── Oldsme-dis.rle - kopi av urevidert sme.dis, før regelsamanslåing og flytting til nyinfra -- spør Lene │ ├── README - slett │ ├── dis-tag.txt - script for å slette V N Actor -- slett │ ├── sme-olddis.rle = lager av utkommenterte reglar frå 2008 -- slett │ ├── sme-tdis.rle = 5 reglar for tekstdisambiguering, irrelevant med ny vislcg3 -- slett │ ├── tag-pos.regex = fjern alle taggar bortsett frå ordklasse -- slett │ ├── tag-sme.regex = til samiske namn -- flytt │ └── wordfeud.sh = trekkjer ut lemma -- flytt og generaliser ├── testing │ ├── Makefile │ ├── README │ ├── codes │ │ ├── default │ │ │ ├── a-codes.txt │ │ │ ├── n-codes.txt │ │ │ ├── num-codes.txt │ │ │ ├── prop-codes.txt │ │ │ ├── pxnoun-codes.txt │ │ │ └── v-codes.txt │ │ ├── dict │ │ │ ├── A-codes.txt │ │ │ ├── G3-codes.txt │ │ │ ├── N-codes.txt │ │ │ ├── NomAg-codes.txt │ │ │ ├── Npl-codes.txt │ │ │ ├── Num-codes.txt │ │ │ ├── Pron-codes.txt │ │ │ ├── Prop-codes.txt │ │ │ └── V-codes.txt │ │ └── oahpa │ │ ├── a-codes.txt │ │ ├── n-codes.txt │ │ ├── num-codes.txt │ │ ├── prop-codes.txt │ │ └── v-codes.txt │ ├── gen-paradigms.pl │ ├── gen-paradigms.sh │ ├── hyphenation.txt │ ├── ii+leat+clitics-test-sme.txt │ ├── make-dictindex │ ├── make-gen-dict │ ├── paradigm2xml.pl │ ├── parawlist.txt │ ├── run_generation.sh │ ├── sme-plxtestwords.txt │ ├── sme-tests.yaml │ ├── speller-testbed-sme.txt │ └── wordlist.pl └── working_files - slett ├── 00README.txt ├── all-lemmas-freq.txt ├── bound-nonhapax-compounds.txt ├── bound-nonrec-unrec-freqsorted.txt ├── bound-nonrec-unrec.txt ├── non-hapax-bound_ravttoluokta.txt ├── non-hapax-compounds-free-freq.txt ├── non-hapax-compounds-free-typos.txt ├── non-hapax-compounds-free.txt ├── non-hapax-free_vistesuodjalus.txt ├── non-hapax_lemma-freq.txt ├── non-hapax_lemma.txt ├── non-hapax_lemma_NVD-freq.txt └── non-hapax_lemma_NVD.txt 8 directories, 67 files
OmegaT
Trond har laga: $GTBIG/mt/omegat/, som inneheld 10 underkatalogar
Tanken er: Omsetjarar skal kunne sjekke ut desse katalogane (anonym svn) og
$GTHOME/words/dicts/*/bin/all-*.lexc (evt. fjerna entryar med mellomrom)
Forbetringspotensiale i OmegaT
- lemmatisere L1
- generere L2 i same bøyingsform (evt. korresponderande form) som L1
Tiltak
- Trond legg til dict-lister i glossary, utan lukka ordklasser, og fjerner visse ordtypar
- Ciprian legg til parallelltekst (som avtalt i tidlegare møte)
- Sjur ser på sátni.org, og legg dei til som separate lister (vi ser på integrering etterpå)
- Trond slettar irrelevante språk i segmenteringsfila
Tokenizer i OmegaT
Vi kan bruke fst-ane våre som input til å lage LuceneNortSaamiTokenizer, etc.
Tiltak
- Sjur ser på lemmatisering (sjekk med Tino og Tomi når det gjeld Lucene-basert lemmatisering og hfst)
FinUgReViTa
Divvun bør invitera dei til Tromsø. Bør koordinerast med andre ting og arr.
FAO og Grønland
Trond sin tur til Færøyane gjekk fint, takk til hjelp frå Sjur og Kevin.
Framlegg: Samkøyre opplæring for kal, fao, Sjur er invitert til Nuuk.
MacDivvun
Nyskriving av MacVoikko. Inneheld bibliotek for automatisk installering og
- Programmeringa er gjort.
- Sjur kompilerer og sjekkar (sme, smj, sma, smn, sms)
- Vi legg det ut som beta og får fleire til å teste
Tidsplan: Vi prøver å få ein beta til neste veke.