2017-09-06
Grammatikkontrollmøte 6.9.2017
Til stades: Duommá, Kevin, Linda, Sjur
Saker:
- sidan sist
- andre ting
- arbeid framover
Sidan sist
Kevin og Sjur har hatt møte i Helsingfors. Referat frå Helsingforsmøtet
- (X) gjera ferdig zip-lesinga (les no hfst-ar frå minnet òg
- ( ) gjera ferdig gramcheck-lib – må prøve å lenka til det frå heilt eksterne
- (X) kommandolineverkty for gramcheck-lib
- ( ) bør m.a. kunna korrigera tekst i batsj-modus, slik at ein kan evaluera
- ( ) bør kunna ta ei liste med attr-verdi-par som argument for å spesifisera
- (-) bør ha ein modus der ein får ei liste med alle moglege brukarval, og
- ( ) bør m.a. kunna korrigera tekst i batsj-modus, slik at ein kan evaluera
- ( ) byta ut modes-fila med xml-fila som er ein del av zip-fila, og generer
- ( ) laga ein gramcheck-generator for å generera forslag (Sjur)
- (X) endra hfst-tokenise til ikkje å konvertera taggar til CG-format
- (X) ... men gjer det i staden i fst-en med eit filter
- (X) ... men gjer det i staden i fst-en med eit filter
- ( ) skriva/dokumentera gramcheck-API
- ( ) lenka mot unicode-bibliotek og slå opp alle ord som har store bokstavar
- som ein enkel preprosessering av input (+ soft-hyphen)
- ved runtime, så ingen eksplosjon i fst-en
- om dette fungerer, fjern A→a på førstebokstav av fst-en (dvs berre leksikalsk
- som ein enkel preprosessering av input (+ soft-hyphen)
- ( ) laga gjettarar for alle opne ordklasser, inkl morfologi
- sjekk om det går ut over fst-storleik
- sjekk om det går ut over analysefart
- sjekk om det går ut over fst-storleik
Linda & Duommá
- jobbar med testkorpuset
- legger til tagger i leksikonet
- samler falske positiver av kommaregler til Linda
- testar hur reglerna funkar
- tweakar lexikons och compound-tags i henhold till for exempel real word errors
- legger till ord i listor før grammarcheckern
- ser hur reglerna kan utvecklas, och om dom i det hela tatt er relevanta
- jobba med kongruensregler og barrierer (subjekt-verbal i enkle setninger)
- fiksa overgenereringer i mwe-dis og feil disambiguering i disambiguator
- fiksa modes (tokenisers istedenfor preprocess)
Nummer- og talprosesseringa må bli betre, med feiltaggar for feilaktige
"<163 - 250>" "163 - 250" Num Arab Sg Acc <== Err/NumRange "163 - 250" Num Arab Sg Gen "163 - 250" Num Arab Sg Ill Attr "163 - 250" Num Arab Sg Loc Attr "163 - 250" Num Arab Sg Nom
Det skal vera:
163–250 (n-dash)
Men - kva med tvetydige lesingar:
Ikte ledje dušše 163 - 250 olbmo leat boahtán odne. Igår var det bare 163 - 250 mennesker har kommet idag. = Igår var det bare 163 ; 250 mennesker har kommet idag.
Det finst (iallfall) tre ulike moglege rettingar, avhengig av kontekst:
-
163-250 minus utan mellomrom, berre gi dette forslaget i mattekontekst
-
163; 250
- 163–250 - kort tankestrek utan mellomrom
Matematisk bruk:
163 - 250 er -87
(men der skal det vel ikkje vera mellomrom?)
Integrering med stavekontroll
input: "<ukjendord>" "ukjendord" ? output: "<ukjendord>" "ukjendord" ? "forslag" A Stavekontroll LIST ukjend = ?; input: "<kjent>" "kjent" A output, viss me stavar kjende ord òg: "<kjent>" "kjent" A "forslag" A Stavekontroll
Vi vil prøva ut å setja inn stavekontrollen etter hfst-tokenise. rett etter
Vi vinn:
- betre forslag (irrelevante er disambiguert vekk)
- stavekontroll berre på ukjende ord (dersom det er det vi vel å gjera), dvs
Vi tapar:
- fart - stavekontrollen kan vera sein når han skal generera forslag
- kompleksitet - meir komplekse cg-reglar?
LT-integrering?
LanguageTool er open kjeldekode for å integrera ein grammatikkontroll med LibreOffice, OpenOffice, Google Chrome og Firefox. Vi kan bruka integreringskoden deira for å få tilgang til vertsprogramma på ein enkel måte. Seinare kan vi kanskje bli ein alternativ backend til LT.
Fungerer ikkje interaktivt.
Testing og evaluering
Vi treng eit kommandolineverkty som kan nyttast til å testa og evalueringa
Andre ting
- referere til grammatikkontroll i phden min "Giellaoahpa Divvun" (GoDivvun)
arbeid framover
Kevin
- stavekontroll i CG-pipelinen
- testing av gramcheck-lib, finpuss, API-dokumentasjon
- evalueringssystem mot gullkorpus
- brukarval: hent liste over moglege feiltypar, skjul gitte typar
Linda
- teste subjekt-verbal kongruensfeil og fikse reglan
- teste kommaregler
Neste møte
Onsdag 27.9. kl 10.30