2017-04-26

Grammatikkontrollmøte 26.4.2017

Til stades: Duommá, Kevin, Linda, Sjur

Saker:

  • sidan sist
  • arbeid framover

Sidan sist

Duommá

  • som vanligt i framtiden har han jobbat med testkorpuset
  • legge til tagger i leksikonet
  • samle falske positiver av kommaregler til Linda
  • testar hur reglerna funkar (hovedprøvekanin for grammatikkontroll)
  • tweakar lexikons och compound-tags i henhold till for exempel real word errors
  • legger till ord i listor før grammarcheckern
  • ser hur reglerna kan utvecklas
  • etc etc etc

Linda

http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2363:

#ADD:punct-sahcu (&punct-sáhcu) TARGET ("-" PUNCT) IF (NEGATE -1 CC);    
    ## Muitalusat -girji


    # particle readings
    # -----------------
    
REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/2 N)(0 (N Pl Nom));
    ## bihtáidbargamat
    # assuming that mat only goes to verbs
    ## Dálkkádatrievdamat     dagahit stuorra hástalusaid álgoálbmotkultuvrraide , ealáhusheivehemiide ja servodatovdáneapmái . 
    
REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/1 (N Sg Nom) OR (V Ind Prs Sg3 Err/Orth-a-á))(0 (N Pl Nom));    
    ## Juohke vahkku lea sierra lekšuvdna ( plána ) mas ovdanbohtet doaimmat ja barggut , lohkamušat ja     logaldallamat.
    ## Fágaloggat ,     bagadallamat     ja profešuvdnamáhppa geavahuvvojit reaidun šaddat dihtomielalažžan iežas oahppamis.
    ## Sámi     vieruiduvvamat 
    ## Ságastallamat     rivdet maiddái go oahppi álgá nuoraidskuvlii . 
    ## Dát     čiekčamat     eai lágiduvvo eambbo okte juohke njeallji jagis .          
REMOVE:unspacecmp (V Foc/gis) (0 (N Sg Loc));    
    ## báikkálaš álbmogis
    ## Mii vuovdit gollosiid sidjiide geat eanemusat fállet bidjegis. 
    ## 51_% galgá leahkit dan seamma     meinnegis     Stuorradikkis ovdal nu manná , muhto dasa mii goit leat bargame.     

Problemord med analyse:

álbmogis
álbmogis    álbmot+N+Sg+Loc
álbmogis    álbmot+N+Sg+Acc+PxSg3
álbmogis    álbmot+N+Sg+Gen+PxSg3
álbmogis    álbmut+V+TV+Ind+Prs+Du1+Foc/gis
álbmogis    álbmut+V+TV+Ind+Prt+Pl3+Foc/gis

Saka er ferdig, vi legg til nye reglar i mwe-dis om det trengst (eller fjerner stiar i lexc).

Kevin

  • døme i webdemo redigerbare av andre enn meg
  • ckeditor-plugin, med webdemo (ikkje basert på SCAYT)
    • http: //gtweb.uit.no/gc/ck/
  • tilbakemeldingsmodul (divvun-suggest):
    • xml-format har no defaults m/regex på tagg
    • R: $2: 17 betyr no «bytt ut '$2' i tittel med/form til ordet med ID: 17
      • ADDRELATION ($2) (&real-something) (0 (blah)) TO (*1 N);
      • "ord1" &real-something R: $2: 17
      • "andreordimellom"
      • "ord2" N ID: 17
      • errors.xml: <title>$1 should be something-else when preceded by $2</title>
  • pipelessness (bruk som bibliotek):
    • heile pipelinen utanom hfst-tokenise kan no køyra utan bruk av pipes/IPC (Windows sitt stave-API tillet ingen interprogramkommunikasjon)
    • https: //github.com/unhammer/vislcg3/tree/StreamApplicator

Arbeid framover

Duommá

  • som vanligt i framtiden ska han jobbat med testkorpuset
  • legge til tagger i leksikonet
  • samle falske positiver av kommaregler til Linda
  • testa hur reglerna funkar (hovedprøvekanin for grammatikkontroll)
  • tweaka lexikons och compound-tags i henhold till for exempel real word errors
  • legge till ord i listor før grammarcheckern
  • se hur reglerna kan utvecklas
  • etc etc etc

Linda

  • fortsatt problemer med taggrekkefølge: jierpmálaš+A+Sg+Nom+Superl burde være jierpmálaš+A+Superl+Sg+Nom
"<jierpmálaš>"
        "jierpmálaš" A Sem/Dummytag Sg Nom <W:0> @<SPRED MAP:17047:r3339 &syn-super-part2 #7->7 ADD:11628:syn-super-part2
syn-super-part2
        "jierpmálaš" A Sem/Dummytag Sg Nom <W:0> @<SPRED MAP:17047:r3339 Superl &SUGGEST #7->7 COPY:11630:syn-super-part2
jierpmálaš+A+Sg+Nom+Superl      ?

TODO:

  • (X) Linda legg inn på Bugzilla
  • Kevin pratar med Tino

Kevin

  • tilbakemeldingsmodul (divvun-suggest)
    • alternative forslag på same ord
    • forslag på ord-med-subreadings?
  • pipeless bibliotek
    • hfst-tokenise inn i pipeless-prototyp
    • lesing av arkivformat
    • kodereinsk

Vi må ha eit møte med hfst-gjengen (Krister og Sam) for å diskutera gjenståande saker med pmatch/tokenise. Kevin kjem med forslag til tider som passar han, og Sjur tek det opp med Krister og Sam. Saker vi vil ta opp:

  • kvifor blir pmhfst ca 3 gonger større enn input-fst?
  • kvifor er runtime-minnebruk 6-7 gonger større enn fst-fil?
  • er maskineriet kring tvetydig tokenisering ok? Kan det bli ein standard del av hfst-pmatch/-tokenise?