2017-03-07
Contents:
Grammatikkontrollmøte 7.3.2017
Til stades: Linda, Duommá, Kevin, Sjur
Saker:
- status
- arbeid framover
- NoDaLiDa
- anna?
status
Duommá:
- har halde fram med å byggja korpus over feil og rett
- veldig nyttigt, ser kva som må jobbes meir med, åså vilka eventuella regler som bara är å kasta bort
Bortkasta reglar: partitiv lokativ - två tolkningar:
- ...2003 čavčča juolludan oasi ruđaid... = høsten 2003 tilldelat en del pengar....
- ...2003 čavčča juolludan oasi ruđain... = høsten 2003 tilldelat en del av pengarna....
Linda:
- tegnsettingsregler, dvs. kommaregler
- sett for real-word error confusion pairs
- Namneforslag: GODivvun - GiellaOahppaDivvun GiellODivvun GOdivvun
- feedback formulering - utfordring - DUommá
- flere kasusregler subjekt vs. akk/gen
- feil i sammenheng med derivasjoner -- Giellagáldu
- feil i ellipser (koordinering) -- Giellagáldu
- jf «eg sikter til og snakkar om X» vs *«eg sikter og snakkar om X»
- jf «eg sikter til og snakkar om X» vs *«eg sikter og snakkar om X»
- maintenance: tilpassing til nye tagger, forandringer i disambigueringa etc.
Kevin:
- webdemo meir språkgenerell (jf. fao-demo), ein del bugfix, escaping
- småbugs m/hfst-tokenize; travis-testar
- html-støtte i errors.xml / tilbakemeldingstekst
- hfst-ospell-cg-prototyp – CG-reglar for å fjerna tullete forslag
Sjur:
- url-parsar - nyttig for gk? - ja
- litt perifert: jobba med ein ny versjon av MacVoikko -> MacDivvun - framtidig ramme for os-vid grammatikkontroll
- rydda og samla GC-dokumentasjonen - alt er no samla under techdoc/proof/gramcheck/
arbeid framover
- alternativ pipeline for enkle formatteringsfeil; inn i webdemo --- Kevin
- anførselsteikn
- "kake" → «kake» -- kanskje CG
- og « kake» → og «kake» --- ikkje CG --- Kevin
- "kake" → «kake» -- kanskje CG
- parentesar:
- ubalanserte parentesar:
- ubalanserte parentesar:
- anførselsteikn
{kake] -> {kake}
- altern. pipeline, framhald:
- parentesar, framhald:
- 1.) : -)
- 2.) : -(((
- 1.) : -)
- telefonnummer
- dato
- ... og andre taluttrykk
- doble mellomrom, mellomromsfeil:
- kake ; ost → kake; ost
- og )eller → og) eller --- ikkje CG --- Kevin
- kake ; ost → kake; ost
- store vs. småbokstaver? --- korpusgransking?
- parentesar, framhald:
- meldingar til brukaren --- Duommá
- bruk nettdemoen for å sjekka resultata
- bruk nettdemoen for å sjekka resultata
- åtvaring ved forslag som er like input (divvun-suggest) --- Kevin
- gjera det lettare å leggja til nye dømesetningar --- Kevin
- leggja til fleire dømesetningar --- Linda og Duommá
- alternativ pipeline med hfst-ospell-cg; inn i webdemo --- Kevin
- xml-format for pipeline-spesifisering --- Kevin
- vi har eit gamalt utkast, men det finst ikkje i svn; inn i svn --- Kevin
- vi har eit gamalt utkast, men det finst ikkje i svn; inn i svn --- Kevin
- url-parsar: legg inn i gramcheck --- Sjur
- errors.xml: liste med taggar/tagg-regex som skal ha same (korte) standardfeilmelding
For å få meir fleksibilitet, og mindre redundans utvider vi formatet for feilmeldingane til ~dette:
<defaults> <default> <errors> <e re="real-.*"/> <e id="real-ráđastaddat"/> <e id="real-blah"/> </errors> <header> <title lang=nn>Feilbrukt ord</title> <title lang=en>Wrong word in context blah</title> </header> <default> <errors> <e id="missing-comma"/> <e id="wrong-apos/> </errors> <header> <title lang=en>Typographic thingy</title> </header> </default> </defaults> <error id="real-ráđastaddat"> <header><!-- is now optional, and only overrides default-titles, cf above --> <title xml:lang="en">It should be "ráđastaddat" not "rađastaddat" "ráđastaddat"</title> <title xml:lang="se">Galggašii leat "ráđastaddat" iige "rađastaddat" </title> </header> <body> <description xml:lang="en">"$1" seems to be a spelling error, "ráđastaddat" seems to be a better choice.</description> <description xml:lang="se">"$1" orru leamen čállinmeattáhus ja "ráđastaddat" orru heiveme buorebut.</description> <examples> <ex xml:lang="se">Bengtsson {rađastattai} visot omiid.</ex> </examples> </body> </error> <error id="real-vuovttat"> <body> <description xml:lang="en"></description> <description xml:lang="se"> "$1" orru buoret sázu haga</description> <examples> <ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide.</ex> </examples> </body> </error>
$-variablar:
- cg-analysen identifiserer alltid relevante ord med ein nummerert tagg
- dette ordet kan ein setja inn i feilmeldinga med ein dollartagg med same nummer
"<relevantkontekstord>" "relevantkontekstord" ADV @F-SUBJ ID:1056 […kanskjeandreord…] "<eitordsomerfeil>" "eitordsomerfeil" N &real-detretteordet R:$2:1056
Tilhøyrande feilmelding:
<error id="real-detretteordet"> <body> <description xml:lang="en"></description> <description xml:lang="se"> "$1" orru buoret sázu haga</description> <examples> <ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide $2.</ex> <ex xml:lang="nn">Etter «$2», bør «$1» stå i habitiv, ikkje medlativ. Eller så bør du skriva «$2» i ikkjetiv.</ex> </examples> </body> </error>
$1 er alltid det ordet som har feiltaggen på seg, alle andre $n svarar til CG-relasjonen $n:
ADDRELATION ($2) (CC) (-1 (*)) TO (-1 (*));
Dette fungerer! Jf
NoDaLiDa
Vi takkar nei, vi har ikkje høve.
anna?
Nei.