2017-06-09
Grammatikkontrollmøte 9.6.2017
Til stades: Kevin, Linda, Sjur
Sjuk: Thomas
Saker:
- taggrekkefølge
- taggforskjeller i generering og analyse
- fri samansetjng med bindestrek
- møte i Helsingfors
- arkviformat for grammatikkontrollfil
Taggrekkefølge
Kevin ser på reglane, ev pratar med Tino.
Denne:
COPY:syn-super-part2 (Superl Sg Nom &SUGGEST) EXCEPT (Sg Nom) TARGET (A &syn-super-part2) ;
i staden for:
COPY:syn-super-part2 (Superl &SUGGEST) EXCEPT (&syn-super-part2) TARGET (A &syn-super-part2) ;
gir
"jierpmálaš" A Sem/Dummytag <W:0.0000000000> @<SPRED MAP:17049:r3339 Superl Sg Nom &syn-super-part2 &SUGGEST COPY:11712:syn-super-part2
reinska til taggane divvun-suggest ser på:
"jierpmálaš" A Superl Sg Nom &syn-super-part2 &SUGGEST
Kevin tek opp spørsmålet om ein meir generisk / mindre redundant
Taggforskjeller i generering og analyse
(bug: http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2392)
Sjur ser på dette - vi treng ein fst for generering som er ei spegling av
Fri samansetjng med bindestrek
(fritt fyrsteledd, substantiv som andreledd)
Sjur ser på dette.
SUBJ-VERB-kongruens
SUBJ Pl VFIN Sg, SUBJ Sg VFIN Pl
Svaret er "ja", men bare trygge regler (for eksempel for de to første ordan i
bug [http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2357]
Sitat frå Riektačállinrávvagat, avsnitt 1.10 Jurddasáhcu:
«Jurddasáhcu (tankestrek: intervall, strekning)
Ingen mellomrom!
Linda og Sjur vil fanga opp slike feil i fst-en, både med tanke på gjenbruk i
Møte i Helsingfors
Datoen er grei. Hotell Arthur er greidt, og ligg rett ved den relevante
Saker:
- minnebruk for hfst-tokenise
- standardisering av mekanismen kring tvetydig tokenisering
- t.d. kan me få backtracking til å bli ein pmatch-operasjon?
- t.d. kan me få backtracking til å bli ein pmatch-operasjon?
- kurs i pmatch? dokumentasjon? (jf Ins() frå tidlegare i vår)
Arkviformat for grammatikkontrollfil
Ugjort:
- Zip-lesing/pakking er ikkje heilt på plass enno, work-in-progress (prøver å basera på korleis ospell gjer det)
- XML-formatet for arkivet må ha moglegheit for modifisering av pipelines ved brukarval (alternativet ville vore å ha mange veldig like pipelines, men det blir mykje redundans)
- endringane mine i vislcg3 er enno ikkje upstream: https: //github.com/TinoDidriksen/cg3/issues/1
- Spesifiser API-et for divvun-checker (generisk, inspirert av kva som trengst i LO, Word, macos, og kva som er gjort allereie i libvoikko, languagetool, osb)
Gjort:
- Det å bruka alle komponentane som bibliotek er på plass
- https: //github.com/hfst/hfst/pull/352 merged
- mesteparten av arbeidet: https: //github.com/unhammer/divvun-suggest/tree/librarisation
- https: //github.com/hfst/hfst/pull/352 merged
- Prototyp av XML-format med støtte for fleire pipelines i same fil
- Kan sjekka ei setning frå C++ og få ut analyse i C++ utan noko IPC (ingen starting av eksterne prosessar, ingen midlertidige filer)
Sjur: gje Kevin skrivetilgang til github/divvun!
Ymse
Burde vi setja opp vår eigen pad-servar? Jf.