2017-06-09

Grammatikkontrollmøte 9.6.2017

Til stades: Kevin, Linda, Sjur

Sjuk: Thomas

Saker:

  • taggrekkefølge
  • taggforskjeller i generering og analyse
  • fri samansetjng med bindestrek
  • møte i Helsingfors
  • arkviformat for grammatikkontrollfil

Taggrekkefølge

(bug: http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2381)

Kevin ser på reglane, ev pratar med Tino.

Denne:

COPY:syn-super-part2 (Superl Sg Nom &SUGGEST) EXCEPT (Sg Nom) TARGET (A &syn-super-part2) ;

i staden for:

COPY:syn-super-part2 (Superl &SUGGEST) EXCEPT (&syn-super-part2) TARGET (A &syn-super-part2) ;

gir

        "jierpmálaš" A Sem/Dummytag <W:0.0000000000> @<SPRED MAP:17049:r3339 Superl Sg Nom &syn-super-part2 &SUGGEST COPY:11712:syn-super-part2

reinska til taggane divvun-suggest ser på:

        "jierpmálaš" A Superl Sg Nom &syn-super-part2 &SUGGEST

Kevin tek opp spørsmålet om ein meir generisk / mindre redundant syntaks for å sikra at taggane kjem på ein bestemt plass i taggrekka i tilfelle der taggstrengen skal gå til ein fst for å genrerera ordformer med Tino/CG-lista.

Taggforskjeller i generering og analyse

(bug: http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2392)

Sjur ser på dette - vi treng ein fst for generering som er ei spegling av analysatoren når det gjeld taggar (TVV og IVV).

Fri samansetjng med bindestrek

(fritt fyrsteledd, substantiv som andreledd) http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2376

Sjur ser på dette.

SUBJ-VERB-kongruens

Lage regler for feil som det ikke fins eksempler på i korpuset?

SUBJ Pl VFIN Sg, SUBJ Sg VFIN Pl

Svaret er "ja", men bare trygge regler (for eksempel for de to første ordan i setninga).

bug [http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2357]

ble det avgjort noe?

Sitat frå Riektačállinrávvagat, avsnitt 1.10 Jurddasáhcu:

«Jurddasáhcu (tankestrek: intervall, strekning) geavahuvvo muitalit gaskka man nu rájes man nu rádja i. Dalle ii leat gaska goappáge bealde jurddasázu. (Det er ikke mellomrom på noen av sidene til tankestreken.) Romsa–Ivgubahta 120 km 9.00–14.15 vuossárga–bearjada siidduin 25–100 80–90 euro Rámburáigi lávvordagaid: 9–13 Rabas 09–13»

Ingen mellomrom!

Linda og Sjur vil fanga opp slike feil i fst-en, både med tanke på gjenbruk i andre samanhengar, og med tanke på enkel retting (send analysen til generator utan Err-tagg, få rett form ut).

Møte i Helsingfors

Datoen er grei. Hotell Arthur er greidt, og ligg rett ved den relevante delen av Helsingfors universitet.

Saker:

  • minnebruk for hfst-tokenise
  • standardisering av mekanismen kring tvetydig tokenisering
    • t.d. kan me få backtracking til å bli ein pmatch-operasjon?
  • kurs i pmatch? dokumentasjon? (jf Ins() frå tidlegare i vår)

Arkviformat for grammatikkontrollfil

Ugjort:

  • Zip-lesing/pakking er ikkje heilt på plass enno, work-in-progress (prøver å basera på korleis ospell gjer det)
  • XML-formatet for arkivet må ha moglegheit for modifisering av pipelines ved brukarval (alternativet ville vore å ha mange veldig like pipelines, men det blir mykje redundans)
  • endringane mine i vislcg3 er enno ikkje upstream: https: //github.com/TinoDidriksen/cg3/issues/1
  • Spesifiser API-et for divvun-checker (generisk, inspirert av kva som trengst i LO, Word, macos, og kva som er gjort allereie i libvoikko, languagetool, osb)

Gjort:

  • Det å bruka alle komponentane som bibliotek er på plass
    • https: //github.com/hfst/hfst/pull/352 merged
    • mesteparten av arbeidet: https: //github.com/unhammer/divvun-suggest/tree/librarisation
  • Prototyp av XML-format med støtte for fleire pipelines i same fil
  • Kan sjekka ei setning frå C++ og få ut analyse i C++ utan noko IPC (ingen starting av eksterne prosessar, ingen midlertidige filer)

Sjur: gje Kevin skrivetilgang til github/divvun!

Ymse

Burde vi setja opp vår eigen pad-servar? Jf. https://github.com/ether/etherpad-lite#installation