160914
Giellateknomøte 14.9. 2016
Til stades: Ciprian, Lene, Marja-Liisa (på dei tre siste sakene), Tiina, Trond
Saker
- Møterommet
- Oahpa-veka
- Korpusarbeid og Korp
- Rutine for janmleg køyring av analyser
- Clarino
- MT-møtet i Helsingfors
- Brasil
- Ressursar til MT-prosjektet
- Andre saker
Møterommet
- Førebels liste nesten i orden.
- Manglar: Skøyteledning til prosjektør (Trond spør FL)
- Kyrre og besøk til Handelshøgskolen el.l. (Trond)
- Tidspunkt: Ikkje under ume-førelesinga, ikkje neste veke.
Oahpa-veka
Lene tar kontakt med Reidun for å ordne overnatting for Ryan og Heli
Vi alle setter av tid for å forberede workshopen
http://giellatekno.uit.no/ped/common/NotesForNewOahpaCode.html
Ciprian er på seminar onsdag-fredag. Det bør settes av tid en kveld for
Order rom til Oahpa-veka. TODO: Trond
Korpusarbeid og Korp
Saker som ikke er løst i Korp-grensesnittet vårt:
- lemmasøk (for extended search)
- lemgram (som gir brukeren muligheta til å velge lemma etter å ha skrevet inn en ordform)
- søk på syntaktiske tagger (for extended search)
- forbedring av grensesnittet, hvis mulig?
- brukerdokumentasjon: legge inn eksempel på relevante søk
Testing av den nye preprocesseren og den gamle og deretter diffe:
New preprocessor (standing in sme):
... | hfst-tokenize tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | ... ... | preprocess --abbr=tools/preprocess/abbr.txt
Postprocessing
hfst-lookup --with-some-cg-output-flag sme.hfst | ...
Trond discusses this with Sjur:
- check gold corpus
- check analysis on
- Missing lists for sme, sma, smj
Nye tekstar
Clarino
Vi diskuterte dette. Trond og Ciprian følgjer opp.
Brasil
Trond skriv ein kort presentasjon av Giellatekno og Divvun
Rutine for janmleg køyring av MT-oversettinger
Compiling: Compile sme, smX, apertium-sme-smX.
giella-core/scripts sh make-sme-smn.sh sh make-sme-smj.sh sh make-sme-sma.sh wercheck_mt-otpt.py (wer FALSE) python wercheck_mt-otpt.py -d tmx_data/ python check_mt-otpt.py -d pseudo_tmx_data/
Run them every night, put them in an apertium directory, with link from the MT pages
- Put them in the svn - where?
- which svn: apertium or gt?
apertium-sme-smj$ cat tmx_data/* | wc -l 10564 apertium-sme-sma$ cat tmx_data/* | wc -l 11499 apertium-sme-smn$ cat tmx_data/* | wc -l 7630 apertium-sme-smn$ cat fi.samediggi/* | wc -l 113841
We will have to do that in a way that
- makes the text accessible to the linguists
- without spending too
Finding unused texts and parallel texts
-
http://www.riista.fi (Finnish - North Saami - Swedish)
- Programs for political parties (offer the tool to the parties)
- Also consider a party programs' corpus
- Also consider a party programs' corpus
- Textbooks for schools
Trond and Ciprian to look at the technical issue with storage,
MT-møtet i Helsingfors
Ressursar til MT-prosjektet
- Diskutere med Laura om tidsdisponering
- Korpusarbeid
- Andre prosjekt
- Lingvistar, Petter*
- Francis, Kevin
Trond tar med innspel til møte med instituttet.
Neste møte