Error markup
We want to extend (some of) the corpus files with markup for spelling and other errors, to use them as gold standards for testing our spellers (and in the future other tools as well). The markup is done manually, and needs to follow certain rules.
KAL
- Ordklasse (ikke obligatorisk):
- loan | prop | pron | num | acro | abbr
(dette fordi nogle typer ord har mere fejlskrivning end andre typer) - Specielle forhold ved ordet (ikke obligatorisk)
- infl | der | cmp
-
infl: fejlen er tilknyttet bøjningen i ordet
- plurtant: pluralis tantum
- 0-suff: manglende suffiks
- poss: fejlen ligger i possessormarkeringen
-
der: derivationsfejl, fx manglende derivativ (tilhæng) eller fejl ved affingering
- htr: halvtransitiv
- foc: fejlen er tilknyttet enklitisering
- cmp: sammensætningsfejl
-
infl: fejlen er tilknyttet bøjningen i ordet
- Fejltyper - eksempler
- phon | orto | punct | ord | dial | hypcorr | typo
Note: Når der i opmærkningen står en bindestreg med mindst et bogstav på hver side, eks. a-i: Venstre side af bindestregen angiver aktuelle forhold i ordet, medens højre side angiver rettelsen.-
phon: fejlen er tilknyttet fonetik/fonologi.
- {atoraai}${phon,ai|atorai}
- {ingerlarnga}${phon,rng-rn|ingerlarna}
- {erngup}${phon,rng-rm|ermup}
-
orto: fejlen er tilknyttet retskrivningens konventioner. Herunder old = gammel retskrivning; og glides = halvvokaler
- {Arkaluk}${prop,orto,old,rk-qq|Aqqaluk}
- {allanngujuitsuviit}${orto,glides|allanngujuitsuiit}
-
punct: fejlen er tilknyttet interpunktion
- {Pisunili.}${punct,dot-0|Pisunili}
-
ord: fejlen er tilknyttet ordenstal
- {14-anut}${num,ord,0-dot|14.-anut}
-
dial: dialektal fejl.
- {aninguissaqqaartoq}${dial,g,ng-g|aniguissaqqaartoq}
- {Erseqqissaatigissuara}${dial,ssa|Erseqqissaatigissavara}
- {Paasiuminaattut}${dial,tt-ts|Paasiuminaatsut}
- {igalaavinnaat}${dial,v-g|igalaaginnaat}
- {oqaaseqatigiileeriaasiisa}${dial,i-dial|oqaaseqatigiilioriaasiisa}
- {aaqqissuusaanngitsumik}${dial,con,s,1-2|aaqqissuussaanngitsumik}
- {S-O-V-uginnarani}${dial,phon,i-dial|S-O-V-uinnarani}
- {oqaluinnarniutaagani}${infl,dial,ga-na|oqaluinnarniutaanani}
- {Ass.36:”Neriartoqusingami}${der,dial,qu-qqu;dial,ng-g;cmp,1-3|Ass. 36: "Neriartoqqusigami}
-
sub: substandard, afviger fra det standardiserede sprog.
- {Akileraartigani}${sub,infl,ga-nna|Akileraartinnani}
- {Namminersornerulernitsinniik}${infl,sub|Namminersornerulernitsinniit}
- {akissuteqapalluttarneri}${sub,u-a|akissuteqapallattarneri}
-
hypcorr: hyperkorrektion
- {inornartigaaramiuk}${dial,hypcorr,g-ng|inornartingaaramiuk}
- {atoraangasigik}${hypcorr,s-t|atoraangatigik}
-
sandhi: affingeringsfejl
- {Tulluutissorinassanngikkaluarpoq}${der,sandhi,ti-0|Tulluussorinassanngikkaluarpoq}
-
metathesis: ombytning
- {Uunnammarmiullu}${typo,metathesis,nn-mm|Uummannarmiullu}
- {uupakaatiillugu}${phon,con,metathesis|uukapaatiillugu}
-
min-cap: skrevet lille begyndelsesbogstav, skal være stort begyndelsesbogstav
- {nuummi}${prop,min-cap|Nuummi}
-
typo: tastefejl
- {akissutissarsisineqarsinnaapput}${typo,der,si-0|akissutissarsineqarsinnaapput}
- {atorneqrtut}${typo,0-a|atorneqartut}
- {Pallullorni}${typo,llullor-llorlu|Pallorluni}
-
phon: fejlen er tilknyttet fonetik/fonologi.
- Flere fejl i samme ord holdes adskilt med ( ; ), eks.
-
- {Ass.36:”Neriartoqusingami}${der,dial,qu-qqu;dial,ng-g;cmp,1-3|Ass. 36: "Neriartoqqusigami}
By following these guidelines the resulting files should be readily usable for (speller) testing, as soon as they are converted to xml.