2017-03-07
Contents:
Grammatikkontrollmøte 7.3.2017
Til stades: Linda, Duommá, Kevin, Sjur
Saker:
- status
- arbeid framover
- NoDaLiDa
- anna?
status
Duommá:
- har halde fram med å byggja korpus over feil og rett
- veldig nyttigt, ser kva som må jobbes meir med, åså vilka eventuella regler som bara är å kasta bort
Bortkasta reglar: partitiv lokativ - två tolkningar:
- ...2003 čavčča juolludan oasi ruđaid... = høsten 2003 tilldelat en del pengar....
- ...2003 čavčča juolludan oasi ruđain... = høsten 2003 tilldelat en del av pengarna....
Linda:
- tegnsettingsregler, dvs. kommaregler
- sett for real-word error confusion pairs
- Namneforslag: GODivvun - GiellaOahppaDivvun GiellODivvun GOdivvun
- feedback formulering - utfordring - DUommá
- flere kasusregler subjekt vs. akk/gen
- feil i sammenheng med derivasjoner -- Giellagáldu
- feil i ellipser (koordinering) -- Giellagáldu
- jf «eg sikter til og snakkar om X» vs *«eg sikter og snakkar om X»
- jf «eg sikter til og snakkar om X» vs *«eg sikter og snakkar om X»
- maintenance: tilpassing til nye tagger, forandringer i disambigueringa etc.
Kevin:
- webdemo meir språkgenerell (jf. fao-demo), ein del bugfix, escaping
- småbugs m/hfst-tokenize; travis-testar
- html-støtte i errors.xml / tilbakemeldingstekst
- hfst-ospell-cg-prototyp – CG-reglar for å fjerna tullete forslag
Sjur:
- url-parsar - nyttig for gk? - ja
- litt perifert: jobba med ein ny versjon av MacVoikko -> MacDivvun - framtidig ramme for os-vid grammatikkontroll
- rydda og samla GC-dokumentasjonen - alt er no samla under techdoc/proof/gramcheck/
arbeid framover
- alternativ pipeline for enkle formatteringsfeil; inn i webdemo --- Kevin
- anførselsteikn
- "kake" → «kake» -- kanskje CG
- og « kake» → og «kake» --- ikkje CG --- Kevin
- "kake" → «kake» -- kanskje CG
- parentesar:
- ubalanserte parentesar:
- ubalanserte parentesar:
- anførselsteikn
{kake] -> {kake}
- altern. pipeline, framhald:
- parentesar, framhald:
- 1.) : -)
- 2.) : -(((
- 1.) : -)
- telefonnummer
- dato
- ... og andre taluttrykk
- doble mellomrom, mellomromsfeil:
- kake ; ost → kake; ost
- og )eller → og) eller --- ikkje CG --- Kevin
- kake ; ost → kake; ost
- store vs. småbokstaver? --- korpusgransking?
- parentesar, framhald:
- meldingar til brukaren --- Duommá
- bruk nettdemoen for å sjekka resultata
- bruk nettdemoen for å sjekka resultata
- åtvaring ved forslag som er like input (divvun-suggest) --- Kevin
- gjera det lettare å leggja til nye dømesetningar --- Kevin
- leggja til fleire dømesetningar --- Linda og Duommá
- alternativ pipeline med hfst-ospell-cg; inn i webdemo --- Kevin
- xml-format for pipeline-spesifisering --- Kevin
- vi har eit gamalt utkast, men det finst ikkje i svn; inn i svn --- Kevin
- vi har eit gamalt utkast, men det finst ikkje i svn; inn i svn --- Kevin
- url-parsar: legg inn i gramcheck --- Sjur
- errors.xml: liste med taggar/tagg-regex som skal ha same (korte) standardfeilmelding
For å få meir fleksibilitet, og mindre redundans utvider vi formatet for feilmeldingane til ~dette:
<defaults>
<default>
<errors>
<e re="real-.*"/>
<e id="real-ráđastaddat"/>
<e id="real-blah"/>
</errors>
<header>
<title lang=nn>Feilbrukt ord</title>
<title lang=en>Wrong word in context blah</title>
</header>
<default>
<errors>
<e id="missing-comma"/>
<e id="wrong-apos/>
</errors>
<header>
<title lang=en>Typographic thingy</title>
</header>
</default>
</defaults>
<error id="real-ráđastaddat">
<header><!-- is now optional, and only overrides default-titles, cf above -->
<title xml:lang="en">It should be "ráđastaddat" not "rađastaddat" "ráđastaddat"</title>
<title xml:lang="se">Galggašii leat "ráđastaddat" iige "rađastaddat" </title>
</header>
<body>
<description xml:lang="en">"$1" seems to be a spelling error, "ráđastaddat" seems to be a better choice.</description>
<description xml:lang="se">"$1" orru leamen čállinmeattáhus ja "ráđastaddat" orru heiveme buorebut.</description>
<examples>
<ex xml:lang="se">Bengtsson {rađastattai} visot omiid.</ex>
</examples>
</body>
</error>
<error id="real-vuovttat">
<body>
<description xml:lang="en"></description>
<description xml:lang="se"> "$1" orru buoret sázu haga</description>
<examples>
<ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide.</ex>
</examples>
</body>
</error>
$-variablar:
- cg-analysen identifiserer alltid relevante ord med ein nummerert tagg
- dette ordet kan ein setja inn i feilmeldinga med ein dollartagg med same nummer
"<relevantkontekstord>"
"relevantkontekstord" ADV @F-SUBJ ID:1056
[…kanskjeandreord…]
"<eitordsomerfeil>"
"eitordsomerfeil" N &real-detretteordet R:$2:1056
Tilhøyrande feilmelding:
<error id="real-detretteordet">
<body>
<description xml:lang="en"></description>
<description xml:lang="se"> "$1" orru buoret sázu haga</description>
<examples>
<ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide $2.</ex>
<ex xml:lang="nn">Etter «$2», bør «$1» stå i habitiv, ikkje medlativ. Eller så bør du skriva «$2» i ikkjetiv.</ex>
</examples>
</body>
</error>
$1 er alltid det ordet som har feiltaggen på seg, alle andre $n svarar til CG-relasjonen $n:
ADDRELATION ($2) (CC) (-1 (*)) TO (-1 (*));
Dette fungerer! Jf
NoDaLiDa
Vi takkar nei, vi har ikkje høve.
anna?
Nei.

