2017-04-26
Grammatikkontrollmøte 26.4.2017
Til stades: Duommá, Kevin, Linda, Sjur
Saker:
- sidan sist
- arbeid framover
Sidan sist
Duommá
- som vanligt i framtiden har han jobbat med testkorpuset
- legge til tagger i leksikonet
- samle falske positiver av kommaregler til Linda
- testar hur reglerna funkar (hovedprøvekanin for grammatikkontroll)
- tweakar lexikons och compound-tags i henhold till for exempel real word errors
- legger till ord i listor før grammarcheckern
- ser hur reglerna kan utvecklas
- etc etc etc
Linda
http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2363:
#ADD:punct-sahcu (&punct-sáhcu) TARGET ("-" PUNCT) IF (NEGATE -1 CC); ## Muitalusat -girji # particle readings # ----------------- REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/2 N)(0 (N Pl Nom)); ## bihtáidbargamat # assuming that mat only goes to verbs ## Dálkkádatrievdamat dagahit stuorra hástalusaid álgoálbmotkultuvrraide , ealáhusheivehemiide ja servodatovdáneapmái . REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/1 (N Sg Nom) OR (V Ind Prs Sg3 Err/Orth-a-á))(0 (N Pl Nom)); ## Juohke vahkku lea sierra lekšuvdna ( plána ) mas ovdanbohtet doaimmat ja barggut , lohkamušat ja logaldallamat. ## Fágaloggat , bagadallamat ja profešuvdnamáhppa geavahuvvojit reaidun šaddat dihtomielalažžan iežas oahppamis. ## Sámi vieruiduvvamat ## Ságastallamat rivdet maiddái go oahppi álgá nuoraidskuvlii . ## Dát čiekčamat eai lágiduvvo eambbo okte juohke njeallji jagis . REMOVE:unspacecmp (V Foc/gis) (0 (N Sg Loc)); ## báikkálaš álbmogis ## Mii vuovdit gollosiid sidjiide geat eanemusat fállet bidjegis. ## 51_% galgá leahkit dan seamma meinnegis Stuorradikkis ovdal nu manná , muhto dasa mii goit leat bargame.
Problemord med analyse:
álbmogis álbmogis álbmot+N+Sg+Loc álbmogis álbmot+N+Sg+Acc+PxSg3 álbmogis álbmot+N+Sg+Gen+PxSg3 álbmogis álbmut+V+TV+Ind+Prs+Du1+Foc/gis álbmogis álbmut+V+TV+Ind+Prt+Pl3+Foc/gis
Saka er ferdig, vi legg til nye reglar i mwe-dis om det trengst (eller fjerner stiar i lexc).
Kevin
- døme i webdemo redigerbare av andre enn meg
- ckeditor-plugin, med webdemo (ikkje basert på SCAYT)
- http: //gtweb.uit.no/gc/ck/
- http: //gtweb.uit.no/gc/ck/
- tilbakemeldingsmodul (divvun-suggest):
- xml-format har no defaults m/regex på tagg
- R: $2: 17 betyr no «bytt ut '$2' i tittel med/form til ordet med ID: 17
- ADDRELATION ($2) (&real-something) (0 (blah)) TO (*1 N);
- "ord1" &real-something R: $2: 17
- "andreordimellom"
- "ord2" N ID: 17
- errors.xml: <title>$1 should be something-else when preceded by $2</title>
- ADDRELATION ($2) (&real-something) (0 (blah)) TO (*1 N);
- xml-format har no defaults m/regex på tagg
- pipelessness (bruk som bibliotek):
- heile pipelinen utanom hfst-tokenise kan no køyra utan bruk av pipes/IPC (Windows sitt stave-API tillet ingen interprogramkommunikasjon)
- https: //github.com/unhammer/vislcg3/tree/StreamApplicator
- heile pipelinen utanom hfst-tokenise kan no køyra utan bruk av pipes/IPC (Windows sitt stave-API tillet ingen interprogramkommunikasjon)
Arbeid framover
Duommá
- som vanligt i framtiden ska han jobbat med testkorpuset
- legge til tagger i leksikonet
- samle falske positiver av kommaregler til Linda
- testa hur reglerna funkar (hovedprøvekanin for grammatikkontroll)
- tweaka lexikons och compound-tags i henhold till for exempel real word errors
- legge till ord i listor før grammarcheckern
- se hur reglerna kan utvecklas
- etc etc etc
Linda
- fortsatt problemer med taggrekkefølge: jierpmálaš+A+Sg+Nom+Superl burde være jierpmálaš+A+Superl+Sg+Nom
"<jierpmálaš>" "jierpmálaš" A Sem/Dummytag Sg Nom <W:0> @<SPRED MAP:17047:r3339 &syn-super-part2 #7->7 ADD:11628:syn-super-part2 syn-super-part2 "jierpmálaš" A Sem/Dummytag Sg Nom <W:0> @<SPRED MAP:17047:r3339 Superl &SUGGEST #7->7 COPY:11630:syn-super-part2 jierpmálaš+A+Sg+Nom+Superl ?
TODO:
- (X) Linda legg inn på Bugzilla
- Kevin pratar med Tino
Kevin
- tilbakemeldingsmodul (divvun-suggest)
- alternative forslag på same ord
- forslag på ord-med-subreadings?
- alternative forslag på same ord
- pipeless bibliotek
- hfst-tokenise inn i pipeless-prototyp
- lesing av arkivformat
- kodereinsk
- hfst-tokenise inn i pipeless-prototyp
Vi må ha eit møte med hfst-gjengen (Krister og Sam) for å diskutera gjenståande saker med pmatch/tokenise. Kevin kjem med forslag til tider som passar han, og Sjur tek det opp med Krister og Sam. Saker vi vil ta opp:
- kvifor blir pmhfst ca 3 gonger større enn input-fst?
- kvifor er runtime-minnebruk 6-7 gonger større enn fst-fil?
- er maskineriet kring tvetydig tokenisering ok? Kan det bli ein standard del av hfst-pmatch/-tokenise?