2011-11-25

Grammatikkontrollprosjekt - møte

Feilkorpus

  • Lene's korpus - i "eatnigielteavsttat" er det mange "bra" feil - har gått genom över hälften, typ
  • samiske bloggene - http: //indigenoustweets.com/blogs/se/
  • flere
  • bruke våres 8 millionskorpus

Døme på korleis vi automatisk kan finna real-word-feil:

-it
-at -boahtán boahtan (bytte på a og á og analysere for å se om det fins et lemma)

Vi treng meir autentisk materiale - elevtekstar?

E-post til lærere

  • invitasjon til samarbeid
  • bygger på Divvun - Divvun retter berre skrivefeil, ser ikkje samanhengar i setninga
  • grammatikkontrollen går vidare:
  • noen skrivefeil kan Divvun ikkje rette fordi det som er en skrivefeil kan se ut som et anna ord, grammatikkontrollen kan rette på dette
  • hva de får ut av det: vi blir å korrigere feil som deres elever gjør
  • et gratis gramatikkprogramm (sånn som divvun)
  • læringseffekten
  • målgruppe: førstespråksbrukere - ungdom/voksne
  • tekstane bare tilgjengelig for forskning, ikke offentlig
  • grammatikkontrollen fritt tilgjengelig, som Divvun-programmene
  • får gjerne vera testbrukarar om dei er interessert (seinare, når vi har noko som kan testast)
  • berre visse typar feil, og ikkje i alle kontekstar
    • kan være frustrerende å få for mange feilmeldinger på korrekte konstruksjoner
  • feil vi prøver å fanga opp:
    • genitiv før postposisjon
    • number congruence verb-pred og subj-pred
    • valensfeil (feil kasus på objektet eller adverbialet til verbet)
    • kasusfeil
    • visse syntaktiske konstruksjoner (ahte vs. go)
    • ortografifeil som resulterer i nye ord ("vuosttáš")
  • vi vil gjerne ha tilbakemelding om andre feil dei ser det kan vera nyttig å fanga opp
  • integrert i MS Office & OpenOffice/LibreOffice
  • Jobben deres: samle inn tekster, komprimere dem og sende pr e-post, synspunkt, seinare testing om dei er interessert, kanskje i lag med elevane

Andre spørsmål

  • (nye) semantiske tagger i leksikon som er nyttige i feilfinninga og disambigueringa:
    • tagging +Hum +Org +Time +Plc +Ani +Txt (girji, lávlla, oppgave...) +Route +Measr +Wthr +Build +Edu +Activity/Event +Process +Object +CognitiveOBj +State
    • Eksempel
      • Dákker dálkin ii mana olggos
      • Dárkker dálkiid ii beasa murret
      • Biegga, jealahas
* valens i leksikon?
** ikkje i leksikon, men i CG?
** verb - subj human objektet - acc - tekst (čállit) <Ag_Nom_Hum__Th_Acc_Text>
		- subj human advl - ill - human <Ag_Nom_Hum__Go_Ill_Hum>
		čállit <Ag_Nom_Hum__Th_Acc_Text> <Ag_Nom_Hum__Go_Ill_Hum>

Per i dag i ei separat valensfil i xml-format, som ikkje er integrert med resten av infrastrukturen. Bør konverterast til eit format som kan integrerast med lexc / den leksikalske transduceren.

  • hva slags feilmeldinger
    • hvor detaljert må errortaggene være
      • som no inntil vidare

TODO:

  • integrera valens-xml i den morfologiske analysatoren (Sjur)
  • leggja til semantiske taggar i leksikonet (Linda, Thomas)
  • skriva brev til lærarar om tekstinnsamling, potensielt samarbeid ( Linda, Thomas, Børre)
    • trond.are.anti@tana.kommune.no (rektor på Tana sameskole)

E-postutkast

Hallo! Sihtabet go ovttasbargat Divvun-teamain? Divvun-teama lea ráhkadišgoahtán grammatikkontrolla ja dárbbaha ollu feilkorpusa dan oktavuodas.

-Mii lea grammatikkontrolla? Dálá Divvun-prográmma lea dusse Speller, mii gávdná sániid, mat leat vearrut cállon. Dat ii huobmá jos lea atnán dugo vearrukásusa

Mii dárbbašit teavsttaid maid vuosttašgielat nuoraid- ja joatkkaskuvlaoahpit leat čállán. Maid dárbbašehpet bargat: Čoaggit teavsttaid, sáddet daid e-boastan midjiide. Jus ehpet háliit anonymiseret daid, de mii bargat dan.

Dušše min dutkit besset dáid teavsttaid geavahit.

Boađus: Friddja grammatikkontrolla mii lea vejolaš geavahit MS Office: s ja OpenOffice.org: s