2017-03-07

Grammatikkontrollmøte 7.3.2017

Til stades: Linda, Duommá, Kevin, Sjur

Saker:

  • status
  • arbeid framover
  • NoDaLiDa
  • anna?

status

Duommá:

  • har halde fram med å byggja korpus over feil og rett
  • veldig nyttigt, ser kva som må jobbes meir med, åså vilka eventuella regler som bara är å kasta bort

Bortkasta reglar: partitiv lokativ - två tolkningar:

  1. ...2003 čavčča juolludan oasi ruđaid... = høsten 2003 tilldelat en del pengar....
  2. ...2003 čavčča juolludan oasi ruđain... = høsten 2003 tilldelat en del av pengarna....

Linda:

  • tegnsettingsregler, dvs. kommaregler
  • sett for real-word error confusion pairs
  • Namneforslag: GODivvun - GiellaOahppaDivvun GiellODivvun GOdivvun
  • feedback formulering - utfordring - DUommá
  • flere kasusregler subjekt vs. akk/gen
  • feil i sammenheng med derivasjoner -- Giellagáldu
  • feil i ellipser (koordinering) -- Giellagáldu
    • jf «eg sikter til og snakkar om X» vs *«eg sikter og snakkar om X»
  • maintenance: tilpassing til nye tagger, forandringer i disambigueringa etc.

Kevin:

  • webdemo meir språkgenerell (jf. fao-demo), ein del bugfix, escaping
  • småbugs m/hfst-tokenize; travis-testar
  • html-støtte i errors.xml / tilbakemeldingstekst
  • hfst-ospell-cg-prototyp – CG-reglar for å fjerna tullete forslag

Sjur:

  • url-parsar - nyttig for gk? - ja
  • litt perifert: jobba med ein ny versjon av MacVoikko -> MacDivvun - framtidig ramme for os-vid grammatikkontroll
  • rydda og samla GC-dokumentasjonen - alt er no samla under techdoc/proof/gramcheck/

arbeid framover

  • alternativ pipeline for enkle formatteringsfeil; inn i webdemo --- Kevin
    • anførselsteikn
      • "kake" → «kake» -- kanskje CG
      • og « kake» → og «kake» --- ikkje CG --- Kevin
    • parentesar:
      • ubalanserte parentesar:
{kake] -> {kake}
  • altern. pipeline, framhald:
    • parentesar, framhald:
      • 1.) : -)
      • 2.) : -(((
    • telefonnummer
    • dato
    • ... og andre taluttrykk
    • doble mellomrom, mellomromsfeil:
      • kake ; ost → kake; ost
      • og )eller → og) eller --- ikkje CG --- Kevin
    • store vs. småbokstaver? --- korpusgransking?
  • meldingar til brukaren --- Duommá
    • bruk nettdemoen for å sjekka resultata
  • åtvaring ved forslag som er like input (divvun-suggest) --- Kevin
  • gjera det lettare å leggja til nye dømesetningar --- Kevin
  • leggja til fleire dømesetningar --- Linda og Duommá
  • alternativ pipeline med hfst-ospell-cg; inn i webdemo --- Kevin
  • xml-format for pipeline-spesifisering --- Kevin
    • vi har eit gamalt utkast, men det finst ikkje i svn; inn i svn --- Kevin
  • url-parsar: legg inn i gramcheck --- Sjur
  • errors.xml: liste med taggar/tagg-regex som skal ha same (korte) standardfeilmelding

For å få meir fleksibilitet, og mindre redundans utvider vi formatet for feilmeldingane til ~dette:

   <defaults>
    <default>
     <errors>
      <e re="real-.*"/>
      <e id="real-ráđastaddat"/>
      <e id="real-blah"/>
     </errors>
     <header>
       <title lang=nn>Feilbrukt ord</title>
       <title lang=en>Wrong word in context blah</title>
    </header>
    <default>
     <errors>
      <e id="missing-comma"/>
      <e id="wrong-apos/>
     </errors>
     <header>
       <title lang=en>Typographic thingy</title>
     </header>
    </default>
   </defaults>

  <error id="real-ráđastaddat">
    <header><!-- is now optional, and only overrides default-titles, cf above -->
      <title xml:lang="en">It should be "ráđastaddat" not "rađastaddat" "ráđastaddat"</title>
      <title xml:lang="se">Galggašii leat "ráđastaddat" iige "rađastaddat" </title>
    </header>
    <body>
      <description xml:lang="en">"$1" seems to be a spelling error, "ráđastaddat" seems to be a better choice.</description>
      <description xml:lang="se">"$1" orru leamen čállinmeattáhus ja "ráđastaddat" orru heiveme buorebut.</description>
    <examples>
      <ex xml:lang="se">Bengtsson {rađastattai} visot omiid.</ex> 
    </examples>
    </body>
  </error>
  <error id="real-vuovttat">
    <body>
      <description xml:lang="en"></description>
      <description xml:lang="se"> "$1" orru buoret sázu haga</description>
    <examples>
      <ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide.</ex> 
    </examples>
    </body>
  </error>

$-variablar:

  • cg-analysen identifiserer alltid relevante ord med ein nummerert tagg
  • dette ordet kan ein setja inn i feilmeldinga med ein dollartagg med same nummer
    "<relevantkontekstord>"
          "relevantkontekstord" ADV @F-SUBJ ID:1056
    […kanskjeandreord…]
    "<eitordsomerfeil>"
          "eitordsomerfeil" N &real-detretteordet R:$2:1056

Tilhøyrande feilmelding:

  <error id="real-detretteordet">
    <body>
      <description xml:lang="en"></description>
      <description xml:lang="se"> "$1" orru buoret sázu haga</description>
    <examples>
      <ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide $2.</ex> 
      <ex xml:lang="nn">Etter «$2», bør «$1» stå i habitiv, ikkje medlativ. Eller så bør du skriva «$2» i ikkjetiv.</ex>
    </examples>
    </body>
  </error>

$1 er alltid det ordet som har feiltaggen på seg, alle andre $n svarar til CG-relasjonen $n:

ADDRELATION ($2) (CC)  (-1 (*)) TO (-1 (*));

Dette fungerer! Jf http://beta.visl.sdu.dk/cg3/single/#rel-addrelation

NoDaLiDa

Vi takkar nei, vi har ikkje høve.

anna?

Nei.