2017-08-23
Grammatikkontrollmøte 23.8.2017
Til stades: Kevin, Sjur
Saker: 
- status 
- arbeid framover
Status
- zip-lesing nesten ferdig (manglar ein modul, alt anna funkar)
- API for libchecker (namn todo) må dokumenterast, må laga døme på linking- xml-format bare-bones, men fungerer - vi treng metadata i xml-fila - korleis representera brukarval? 
- generelle metadata
 
- korleis representera brukarval? 
 
- vi treng metadata i xml-fila 
Diskusjon om metadata:
Generell informasjon: 
- språk (både kode og på naturleg språk (eige språk og andre)
- versjon av grammatikkontrollen 
- kven som står bak med kontaktinformasjon (e-post, nettside)
- opphavsrettsnotar 
- liste over brukte teknologiar, m. versjon (cg, hfst, div. bibliotek)
- tanken er at alt dette kan bli vist dersom vertsprogram ber om slik info
Brukarval – det som er innanfor kvar pipeline (ikkje verdt å laga ny pipeline
- brukaren må kunna slå av og på ulike feiltypar som skal bli fanga opp, t.d.: - stor bokstav i byrjinga av ei setning 
- -a vs -e i infinitiv på nynorsk
 
- stor bokstav i byrjinga av ei setning 
I visse tilfelle er det best å ha ulike pipelines, med namn og språkkode 
- brukaren må ta eit aktivt val: tusenskiljetekn (mellomrom eller punktum)
- brukaren må kunna slå av feiltypar som ikkje er relevante og gjev støy (falske 
Etter diskusjonar kom vi fram til ein modell som Kevin har dokumentert i 
Andre tema: 
- handteringa av store bokstavar: - vi ber om at ICU (el) blir lagt til i hfst-tokenise, slik at det er nok at
 
- vi ber om at ICU (el) blir lagt til i hfst-tokenise, slik at det er nok at
- https: //github.com/hfst/hfst/issues/361 
- https: //github.com/hfst/hfst/issues/362 
- gramcheck-biblioteket nesten ferdig, jf zip-info lenger opp (github-master må
Arbeid framover
- gjera ferdig zip-lesinga og gramcheck-lib 
- kommandolineverkty for gramcheck-lib - bør m.a. kunna korrigera tekst i batsj-modus, slik at ein kan evaluera - bør kunna ta ei liste med attr-verdi-par som argument for å spesifisera - bør ha ein modus der ein får ei liste med alle moglege brukarval, og 
 
- bør m.a. kunna korrigera tekst i batsj-modus, slik at ein kan evaluera 
- byta ut modes-fila med xml-fila som er ein del av zip-fila, og generer - laga ein gramcheck-generator for å generera forslag 
- endra hfst-tokenise til ikkje å konvertera taggar til CG-format - ... men gjer det i staden i fst-en med eit filter 
- endra tagg-parsinga til ikkje å vera avhengig av + som ein del av taggen 
 
- ... men gjer det i staden i fst-en med eit filter 
- skriva/dokumentera gramcheck-API 
- lenka mot unicode-bibliotek og slå opp alle ord som har store bokstavar som - som ein enkel preprosessering av input (+ soft-hyphen)
- ved runtime, så ingen eksplosjon i fst-en 
- om dette fungerer, fjern A→a på førstebokstav av fst-en (dvs berre leksikalsk
 
- som ein enkel preprosessering av input (+ soft-hyphen)
- laga gjettarar for alle opne ordklasser, inkl morfologi - sjekk om det går ut over fst-storleik 
- sjekk om det går ut over analysefart
 
- sjekk om det går ut over fst-storleik 

