2014-05-13

Grammatikkontrollmøte 13.5.2014

Til stades: Linda, Sjur

Tidsrom: 13: 20-14: 15

Semantisk annotering

  • mer enn halvparten av substantivleksikonet er annotert (Linda)
    • revision 94020: 41395/80594 (51.36%)
    • det som er mest arbeidskrevende er utviklinga av meningsfulle kategorier og kategorisering av ord innafor disse kategoriene
    • når taggene er på plass vil det være lettere å annotere leksikonet til andre språk

Semantiske tagger i grammatikkontroll

  • for å finne sammensatte ord som ikke er skrevet sammen (utelukke visse sammensetninger basert på semantikken av første og andre leddet)
  • finne objekt til visse verb og på grunnlag av det finne kasusfeil
  • finne feil i adposisjonsfraser
  • finne realworderrors basert på semantisk kontekst

Guesser

For ukjente navn og andre ukjente ord som stavekontrollen ikkje kan hjelpe med.

  • i CG: med regex
  • i morfologisk analysator

Falske positiver

  • evt når en "feil" form ble skrevet i kursiv og dermed er et sitat (er det mulig å løse dette?)

To do

  • legge teknisk til rette slik at Francis kan fortsette med arbeidet (Sjur)
  • lage en gullstandard med minst 1000 setninger (Linda, men ikke ennå)
  • fortsette med den semantiske tagginga av leksikonet, definere semantiske kategorier (Linda)