2017-08-23

Grammatikkontrollmøte 23.8.2017

Til stades: Kevin, Sjur

Saker:

  • status
  • arbeid framover

Status

  • zip-lesing nesten ferdig (manglar ein modul, alt anna funkar)
  • API for libchecker (namn todo) må dokumenterast, må laga døme på linking mot det
  • xml-format bare-bones, men fungerer
    • vi treng metadata i xml-fila
      • korleis representera brukarval?
      • generelle metadata

Diskusjon om metadata:

Generell informasjon:

  • språk (både kode og på naturleg språk (eige språk og andre)
  • versjon av grammatikkontrollen
  • kven som står bak med kontaktinformasjon (e-post, nettside)
  • opphavsrettsnotar
  • liste over brukte teknologiar, m. versjon (cg, hfst, div. bibliotek)
  • tanken er at alt dette kan bli vist dersom vertsprogram ber om slik info

Brukarval – det som er innanfor kvar pipeline (ikkje verdt å laga ny pipeline for):

  • brukaren må kunna slå av og på ulike feiltypar som skal bli fanga opp, t.d.:
    • stor bokstav i byrjinga av ei setning
    • -a vs -e i infinitiv på nynorsk

I visse tilfelle er det best å ha ulike pipelines, med namn og språkkode (smj-NO vs smj-SE). I andre tilfelle er det val som bestemmer oppførselen til kommandorekka:

  • brukaren må ta eit aktivt val: tusenskiljetekn (mellomrom eller punktum)
  • brukaren må kunna slå av feiltypar som ikkje er relevante og gjev støy (falske eller irriterande alarmar) for brukaren: t.d. konsistent bruk av diftongar (der det er dialektvariasjon mellom monoftong og diftong)

Etter diskusjonar kom vi fram til ein modell som Kevin har dokumentert i koden – penare dok. kjem etter kvart.

Andre tema:

  • handteringa av store bokstavar:
    • vi ber om at ICU (el) blir lagt til i hfst-tokenise, slik at det er nok at analysatoren berre har leksikalsk form.
  • https: //github.com/hfst/hfst/issues/361
  • https: //github.com/hfst/hfst/issues/362
  • gramcheck-biblioteket nesten ferdig, jf zip-info lenger opp (github-master må oppdaterast)

Arbeid framover

  • gjera ferdig zip-lesinga og gramcheck-lib
  • kommandolineverkty for gramcheck-lib
    • bør m.a. kunna korrigera tekst i batsj-modus, slik at ein kan evaluera grammatikkontrollen automatisk i høve til eit gullstandardkorpus
    • bør kunna ta ei liste med attr-verdi-par som argument for å spesifisera brukarval
    • bør ha ein modus der ein får ei liste med alle moglege brukarval, og tilgjengelege verdiar for kvar av dei
  • byta ut modes-fila med xml-fila som er ein del av zip-fila, og generer sh-skript frå den
  • laga ein gramcheck-generator for å generera forslag
  • endra hfst-tokenise til ikkje å konvertera taggar til CG-format
    • ... men gjer det i staden i fst-en med eit filter
    • endra tagg-parsinga til ikkje å vera avhengig av + som ein del av taggen
  • skriva/dokumentera gramcheck-API
  • lenka mot unicode-bibliotek og slå opp alle ord som har store bokstavar som om dei hadde små
    • som ein enkel preprosessering av input (+ soft-hyphen)
    • ved runtime, så ingen eksplosjon i fst-en
    • om dette fungerer, fjern A→a på førstebokstav av fst-en (dvs berre leksikalsk form av kvart ord i fst-en)
  • laga gjettarar for alle opne ordklasser, inkl morfologi
    • sjekk om det går ut over fst-storleik
    • sjekk om det går ut over analysefart