Error markup

We want to extend (some of) the corpus files with markup for spelling and other errors, to use them as gold standards for testing our spellers (and in the future other tools as well). The markup is done manually, and needs to follow certain rules.

SME

Ordklasse (ikke obligatorisk, ikke for Nordplus):

loan | prop | num | acro
(dette fordi noen typer ord har mer feilskriving enn andre typer)

Spesielle forhold ved ordet (ikke obligatorisk):

cmp | nomag | px | der | infl | foc
Feilen er relatert til dette. Eks.

cmp: sammensetningsfeil - largo istedenfor allegro, eller motsatt, eller samskriving der det skulle vært to ord, eller motsatt. For Nordplus endast samskriving der det skulle vært to ord, eller motsatt.
nomag: vanligvis er det snakk om manglende diftongforenkling ved NomAg. Nordplus har ikke brukt NomAg.
px: feilen er knytta til bøyninga i et ord med genitiv suffiks. Nordplus har ikke brukt px
der: derivasjonsfeil - f.eks. deriv. følger ikke normen. Ikke brukt for Nordplus.
infl: feil knyttet til bøyingsmorfologi - ordet er bøyd som ulikestavelsesstamme når normen er kontrakt stamme. Nordplus dessuten: oblikt kasus brukt isteden for attributt, komparativ brukt isteden for positiv, sammenblandinger i verbbøying og verbmodus etc
foc: skrivefeil knytta til enklitisering

Posisjon: b-ea-tn-a-g-i-in

b - initium - coninit
ea - vokalsentrum - vowc
tn - konsonantsentrum - conc
a - latus - vowlat
g - konsonantmargo - conm
i - vokalmargo - vowm
in - finis - fin

Posisjon i sammensatte hvor første ord ender på konsonant: b-a-j-á-sš-a-dd-a-n

b - initium - coninit
a - vokalsentrum - vowc
j - konsonantsentrum - conc
á - latus - vowlat
sš - konsonantgruppe i ordgrense - conwb
a - vokalsentrum - vowc
dd - konsonantsentrum - conc
a - latus - vowlat
n - finis - fin

Feiltyper – eksempler:

typo = tastefeil, eks.
- {laet}${typo|leat}
a-á = skrevet a istedenfor á, eks.
- {radio}${loan,vowc,a-á|rádio}, Nordplus: {radio}${vowc,a-á|rádio}
- {Asias${prop,vowc,a-á|Ásias}, Nordplus: {Asias}${vowc,a-á|Ásias}
- {boarraseamos}${vowlat,a-á|boarráseamos}
ht-htt = skrevet ht istedenfor htt, eks.
- {gievkkanláhtis}${conc,ht-htt|gievkkanláhttis}
i-e = skrevet i istedenfor e, eks.
- {sámidikkis}${cmp,vowlat,i-e|sámedikkis}, Nordplus: {sámidikkis}${vowlat,i-e|sámedikkis}
i-á = skrevet i istedenfor á, eks.
- {beaividuvvon}${der,i-á|beaiváduvvon}, Nordplus: {beaividuvvon}${vowlat,i-á|beaiváduvvon}
1-2 = samskriving istedenfor to ord, eks.
- {ovddosguvlui}${cmp,1-2|ovddos guvlui}
2-1 = skrevet som to ord istedenfor samskriving, eks.
- nuppi {máilmmi soađi}${cmp,2-1|máilmmisoađi}
hyph-0 = skrevet som bindestrek istedenfor samskriving, eks.
- {dálkkádat-rievdan}${cmp,hyph-0|dálkkádatrievdan}
0-hyph = samskriving istedenfor bindestrek, eks.
- {epoastta}${loan,cmp,0-hyph|e-poastta}, Nordplus: {epoastta}${cmp,0-hyph|e-poastta}
suf = kasus merket på feil måte (for num, acro og prop), eks
- {NRKas}${acro,suf|NRK:s}, Nordplus: {NRKas}${suf|NRK:s}
- {1992:ii}${num,suf|1992:i}, Nordplus: {1992:ii}${suf|1992:i}
- {Asker:is}${prop,suf|Askeris}, Nordplus: {Asker:is}${suf|Askeris}
gen-nom = første del av sammensatt ord er skrevet som genitiv istedenfor nominativ, eks.
- {astoáiggibagadalli}${cmp,gen-nom|astoáigebagadalli}, Nordplus: {Meahciráđđehusa}${case,gen-nom|Meahcceráđđehusa}
mono = skulle vært diftongforenkling, eks.
- {oahpaheaddjiid}${nomag,mono|oahpaheddjiid}, Nordplus: {oahpaheaddjiid}${vowc,mono|oahpaheddjiid}
diph = skulle vært diftong, eks.
- {Olgoriikadepartementtas}${loan,vowc,diph|Olgoriikadepartemeanttas}, Nordplus: {Olgoriikadepartementtas}${vowc,diph|Olgoriikadepartemeanttas}
cond = annet bøyningsmønster ved kondisjonalis, eks.
- {čuovošii}${infl,cond,mono|čuvošii}
- {lágidivčče}${infl,cond|lágidivččii}
verb = annet bøyningsmønster ved verbbøyning, eks.
- {oaččuiba}${infl,verb|oaččuiga}, ikke for Nordplus
ill = knyttet til illativsuffikset (ikke for Nordplus), eks.
- {Størei}${prop,infl,ill,ei-ii|Størii}
- {kursi}${infl,ill,i-ii|kursii}
com = knyttet til komitativsuffikset (ikke for Nordplus). Her har jeg merka av posisjon også fordi det er snakk om assimilasjon. Eks.
- {áššin}${infl,com,fin,n-in|áššiin}

Flere feil i samme ord skilles med ( ; ), eks.

{Filkamánne}${loan,vowc,i-y;conc,lk-lkk;vowlat,e-i|Fylkkamánni}, Nordplus: {Filkamánne}${vowc,i-y;conc,lk-lkk;vowlat,e-i|Fylkkamánni}
{eváhkomátkálaččat}$(conc,hk-hkk;conc,tk-tkk|eváhkkomátkkálaččat}

By following these guidelines the resulting files should be readily useable for (speller) testing, as soon as they are converted to xml.