dictionarywork
Contents:
- Hva er målet med ordboksarbeidet?
- Genererte ordformsorbøker (VD) vs. online-analyse-ordbøker (NDS) vs. Apertium-ordbøker (webdict)
- Leksikonfiler
- Flerordsuttrykk
-
Entryenes struktur
- <e> nivå i xml
- Meningsgrupper <mg> i xml
- Oversettelsesgrupper <tg> i xml
- Bruk av <re> (restriksjon) i xml
- Bruk av <style> i xml (ikke implementert)
- Lemmaet har ikke paradigme:pg="no" i xml (gjelder bare VD)
- Bruk av v1, v2 osv. i lexc (gjelder bare VD)
- Bruk av lsub i xml (gjelder bare VD)
- Bruk av l_ref i xml (gjelder bare VD)
- Evt. bruk av flere typer referanser - dette er tanker, og er ikke implementert
- Eksempler
- Generere paradigme eller ikke (gjelder bare VD)
- Genererte miniparadigmer til hjelp for brukeren
- Innskrevne paradigmer (mest for VD, men kan også brukes for NDS)
- Homonyme entrier
Hva er målet med ordboksarbeidet?
Sitat fra møte 23.8.11:
- ordbøkene er nyttige for folk flest
- vise kombinasjonen leksikografi/morfologi
- vi kan samarbeide med de leksikografiske miljøene
- vi trenger transferleksikon for MT
Genererte ordformsorbøker (VD) vs. online-analyse-ordbøker (NDS) vs. Apertium-ordbøker (webdict)
- Apertium-ordbøkene (webdict) inneholder bare grunnform og er smX-nob/fin og
motsatt veg - VD inneholder genererte ordformer og er smX-nob. De kan lastes ned, og
fungerer offline, men er avhengige av et ordboksprogram, f.eks. Macdict eller Stardict. - NDS analyseres online med analyser-dict-gt-desc.xsft, og genereres med
generator-dict-gt-norm.xsft
Leksikonfiler
Entryene er delt inn i filer etter POS. For sme er det ei fil other_smenob.xml med flere ordklasser.
Flerordsuttrykk
- Man kan legge til ord som bare er ord nr 2 i faste uttrykk, f.eks.
hiluid háluid, med hele uttrykket som eksempel. - Flerordsuttrykk som har annen mening enn hvert enkeltord har, bør man legge
ordet i mwe-fila. Hvis uttrykkene skal bøyes, kan det lages statiske paradigmer.
Entryenes struktur
<e> nivå i xml
De som er med i dictionary er merket med usage="vd" for sme og usage="dict" for sma. Enkelte entryer er også merket med kildehenvisning, f.eks. src="nj" (fra Jernsletten), src="sk" (Statens Kartverk), src="gt" (Giellatekno), src="fad" (Fra forvaltningsordbokprosjektet). Default er src="gt".
Meningsgrupper <mg> i xml
Man skiller mellom synonymer og meningsgrupper. Synonymer har samme <mg> (meaning group / meningsgruppe) og samme <tg> (translation group / oversettelsesgruppe). Hvis en entry har flere betydninger, så skilles disse som forskjellige <mg>.
<e src="nj" usage="vd">
<lg>
<l pos="N">sudja</l>
<lc>sujat</lc>
</lg>
<mg>
<tg>
<t pos="N">årsak</t>
<t pos="N">grunn</t>
</tg>
</mg>
<mg>
<tg>
<t pos="N">skyld</t>
</tg>
</mg>
</e>
Oversettelsesgrupper <tg> i xml
Elementet <mg> inneholder en eller flere <tg> (oversettelsesgruppe eller translation group) som igjen kan inneholde:
<t> - et ord
<e usage="vd">
<lg>
<l pos="N">ristoabbá</l>
</lg>
<mg>
<tg>
<t pos="N">gudsøster</t>
</tg>
</mg>
</e>
<t> - en frase
<e usage="vd">
<lg>
<l pos="N">áššu</l>
</lg>
<mg>
<tg>
<t dict="yes" pos="N">glødende vedstykke</t>
</tg>
</mg>
</e>
<te> - en forklaring. En forklaring er en setning som forklarer betydningen av et ord, men som ikke kan brukes i for eksempel en oversettelse. Denne brukes KUN hvis <t> ikke kan brukes.
<e usage="vd">
<lg>
<l pos="N">boaššobealle</l>
</lg>
<mg>
<tg>
<te>den side som vender mot boaššu, det vil si den innerste delen av telt, gamme eller hus</te>
</tg>
</mg>
Bruk av <re> (restriksjon) i xml
- <re> gir restriksjon for oversettelsen. Oversettelsen vest har
restriksjonen om klesplagg, dvs at oversettelsen gjelder klesplagg, og ikke himmelretning.
<mg>
<tg>
<re>om klesplagg</re>
<t pos="N">vest</t>
</tg>
</mg>
- <re> kan også brukes for å markere kasusbetydning, f.ek.s bevegelse til.
- for stedsnavn angir den kommune eller fylke
Bruk av <style> i xml (ikke implementert)
Lemmaet har ikke paradigme:pg="no" i xml (gjelder bare VD)
Bruk av v1, v2 osv. i lexc (gjelder bare VD)
- Ett lemma kan ha flere normative skrivemåter. I fst merkes disse med
felles lemma, men skilles ved hjelp av taggene v1, v2 osv:- tunealla+v1: tunealla
- tunealla+v2: tunnealla
- tunealla+v1: tunealla
- Til ordboksfilene legges kun det lemmaet som er valgt som felles lemma i fst.
I tillegg må man merke hvor mange v-merkinger den har i fst. Dette gjøres ved å legge attributten vmax="" til <l>:
<lg>
<l pos="g3" vmax="2">tunealla</l>
</lg>
- Ved hjelp av v1, v2 taggene, kan man sortere ordformene til riktig oppslagsord
(tunealla vs. tunnealla) og presentere reine miniparadigmer.
Bruk av lsub i xml (gjelder bare VD)
Elementet lsub legges til i <lg> for vanlige ikke-normative skrivemåter.
<e usage="vd">
<lg>
<l pos="N">balloŋŋa</l>
<lsub extrapage="yes" pos="N">balluvdna</lsub>
<!!-- extrapage="yes" er default -->
<!!-- the extrapage attribute is now obsolete when v1,v2 is implemented:-->
<!!-- 1. lsub is alway extrapage="no" (no need of the extrapage attribute anymore)-->
<!!-- 2. in the pair v1-v2, one lemma is the entry in the dict and the other is generated automatically, "lsub with extrapage="yes" so to say -->
</lg>
<mg>
<tg>
<t pos="N">ballong</t>
</tg>
</mg>
</e>
<lg>
<l pos="N">kantuvra</l>
<lsub extrapage="no" pos="N">kántuvra</lsub>
</lg>
Bruk av l_ref i xml (gjelder bare VD)
Elementet l_ref legges til i <lg> for å vise til ander lemmaer som kan være
- vise til det lemmaet som bør brukes i følge termordlister etc. I slike
tilfeller merkes kun det lemmaet som man vil vise fra, og ikke det lemmaet som man viser til:
<lg>
<l pos="N">giehtagiella</l>
<l_ref>seavagiella_n</l_ref>
</lg>
- gjøre brukeren oppmerksom på at det er en annen semantisk inndeling på samisk
enn på oversettingsspråket. F.eks. vai vs. dahje, eller dudno vs. din. I slike tilfeller merkes begge lemmaene med l_ref:
<lg>
<l pos="cc">dahje</l>
<l_ref>vai_cc</l_ref>
</lg>
og
<lg>
<l pos="cc">vai</l>
<l_ref>dahje_cc</l_ref>
</lg>
Evt. bruk av flere typer referanser - dette er tanker, og er ikke implementert
Initialt i <mg>:
- <syn lemmaID="buohccebiila" /> → vise til eit synonym
- <ant lemmaID=""> ↛ vise til eit antonym
- <hyponym> ↓ vise til eit meir spesifikt ord
- <hypernym> ↑ vise til eit meir overordna ord
- <obs> vær obs på dette (bajimussii -> bajimusas) !!
Eksempler
Man kan legge inn kildetilvisning som attributt for x og xt, f.eks. hvis ordet
<x src="S.B. Johansen 2010: Sárá beaivegirji s. 21">... dakkár ilgadis olmmošlágan filbmasivdnádus, mii lea eambbo robohtalágan go olbmolágan.</x>
Generere paradigme eller ikke (gjelder bare VD)
Noen av filene er statiske og noen blir det generert paradigmer av. Det er filer
I de andre filene er det POS-merkinga som avgjør om det blir generert paradigme
Generere paradigmer (gjelder bare VD)
Alle entryene må være leksikalisert i norm-fst. Hvis ikke, vil de ikke bli
Det må ikke være noen homonyme entryer (lemma + POS + type + subtype + ... annen
For å unngå at dict-fila blir for stor, kan man vurdere hvilke bøyningsformer
Filer for generering (gjelder bare VD)
sme-filer for generering:
nounActor_smenob.xml nounCommon_smenob.xml nounG3_smenob.xml nounProper_smenob.xml nounRevProper_smenob.xml nounProperPl_smenob.xml adjective_smenob.xml verb_smenob.xml pronIndef_smenob.xml num_smenob.xml
sma-filer for generering:
a_smanob.xml n_smanob.xml v_smanob.xml num_smanob.xml pronIndef_smanob.xml prop_smanob.xml propPl_smanob.xml
Filer med statiske (innskrevne) paradigmer (mest for VD, men kan også brukes for NDS)
Her kan man velge hvilket grunnord de bøyde formene peker til. F.eks. når det
I entryene for de flekterte formene, blir det en entry for hver sideform.
Det må ikke være noen homonyme entryer (lemma + POS) innafor eller på tvers av
<l pos="pron" type="dem" nr="sg">dat</l> vs <l pos="pron" type="dem" nr="pl">dat</l> og <l pos="pron" type="pers" nr="sg">dat</l>
Dette må også tas hensyn til i lemma_ref, f.eks.
<lemma_ref lemmaID="dat_pron_pers_pl">dat</lemma_ref>
sme-filer med innskrevne paradigmer:
adjstatpar_smenob.xml div_statisk_smenob.xml verbNeg_smenob.xml verbCop_smenob.xml verbSupNeg_smenob.xml pronDem_smenob.xml pronPers_smenob.xml pronRec_smenob.xml pronRefl_smenob.xml pronRel_smenob.xml
sma-filer med innskrevne paradigmer:
misc_stat_smanob.xml pronPers_stat_smanob.xml pronRec_stat_smanob.xml pronRefl_stat_smanob.xml pronRel_stat_smanob.xml vCop_stat_smanob.xml vNeg_stat_smanob.xml
Andre filer
sme-filer:
adverb_smenob.xml mwe_smenob.xml other_stat_smenob.xml
sma-filer:
adv_smanob.xml i_smanob.xml multiword_smanob.xml pcle_smanob.xml po_smanob.xml pr_smanob.xml
Genererte miniparadigmer til hjelp for brukeren
Miniparadigmene i leksikonoppslaget er hjelp for brukeren. De vil variere fra
Use/NGminip og Allegro i lexc
Ved å legge til +Use/NGminip i lexc, kan man velge bort en del bøyningsformer
substantiv:
Substantiv kan få attributten illpl="no" hvis den ikke er så høvelig å
| Bøyning | Eksempel |
|---|---|
| viessu | |
| Sg+Gen | viesu (ikke Allegro) |
| Sg+Ill | vissui |
| Pl+Ill | viesuide (ikke hvis illpl="no" ) |
propernouns sme - sg:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Norga | Norge |
| Sg+Gen | X bokte | Norgga bokte | via Norge |
| Sg+Ill | - | Norgii | til Norge |
| Sg+Loc | - | Norggas | i/fra Norge |
propernouns sme - pl:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Iččát | Ingøy |
| Pl+Gen | X bokte | Iččáid bokte | via Ingøy |
| Pl+Ill | - | Iččáide | til Ingøy |
| Pl+Loc | - | Iččáin | i/fra Ingøy |
propernouns sma - sg:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Nöörje | Norge |
| Sg+Gen | X baaktoe | Nöörjen baaktoe | via Norge |
| Sg+Ill | - | Nöörjese | til Norge |
| Sg+Ine | - | Nöörjesne | i/på Norge |
| Sg+Ela | - | Nöörjeste | fra Norge |
propernouns sma - pl:
| Bøyning | Kontekst | Eksempel | Oversettelse |
|---|---|---|---|
| - | - | Bealjehkh | Sylan |
| Pl+Gen | X baaktoe | Bealjehki baaktoe | via Sylan |
| Pl+Ill | - | Bealjehkidie | til Sylan |
| Pl+Ine | - | Bealjehkinie | i/på Sylan |
| Pl+Ela | - | Bealjehkijstie | fra Sylan |
verb sme:
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| context: "mun" | boahtit | |
| Ind+Prs+Sg1 | (odne mun) X | (odne mun) boađán |
| Ind+Prt+Sg1 | (ikte mun) X | (ikte mun) bohten |
| Ind+Prs+ConNeg | (in) X | (in) boađe |
For verb som det ikke er naturlig med menneskelig subjekt for:
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| - | context: "dat" | ciellat |
| Ind+Prs+Pl3 | (Plural) X | (Plural) cillet |
| Ind+Prt+Sg3 | (ikte dat) X | (ikte dat) cielai |
| Ind+Prs+ConNeg | (ii) X | (ii) ciela |
For verb som bare brukes i Sg3 (vær-verb):
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| - | context: "upers" | bieggat |
| Ind+Prs+Sg3 | (odne) X | (odne) bieggá |
| Ind+Prt+Sg3 | (ikte) X | (ikte) biekkai |
| Ind+Prs+ConNeg | (ii) X | (ii) biekka |
For resiproke verb :
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| - | context: "sii" | deaivvadit |
| Ind+Prs+Pl3 | (odne sii) X | (odne sii) deaivvadit |
| Ind+Prt+Pl3 | (ikte sii) X | (ikte sii) deaivvadedje |
| Ind+Prs+ConNeg | (eai) X | (eai) deaivvat |
verb sma:
| Bøyning | Kontekst | Eksempel |
|---|---|---|
| Inf | - | båetedh |
| Ind+Prs+Sg1 | (daan biejjien manne) X | (daan biejjien manne) båatam |
| Ind+Prs+Sg3 | (daan biejjien dïhte) X | (daan biejjien dïhte) båata |
| Ind+Prs+Pl3 | (daan biejjien dat) X | (daan biejjien dat) båetieh |
| Ind+Prt+Sg1 | (jååktan manne) X | (jååktan manne) böötim båetiejim |
| Ind+Prs+ConNeg | (ij) X | (ij) båetieh |
| PrfPrc | (lea) X | (lea) båateme |
| Ger | (lea) X | (lea) båetieminie |
| VGen | X | båetien |
adjektiver:
Ved å legge til +Use/NGminip i fst, kan man velge bort en del bøyningsformer når man ikke vil presentere alle i miniparadigmet. Dette er ikke minst aktuelt for adjektiver.
| Bøyning | Uten +Use/NGminip | Med +Use/NGminip |
|---|---|---|
| A+Sg+Nom | heittot | heittot |
| A+Attr | heittogis heittohis (bivttas) | heittogis (bivttas) |
| A+Pl+Nom | heittogat heittohat | heittogat |
| A+Comp+Attr | heittogit heittogut heittoget heittogat heittohit heittohut heittohet heittohat | heittoget heittogat |
| A+Comp+Sg+Nom | heittogit heittogut heittoget heittogeabbo heittogat heittogabbo heittohit heittohut heittohet heittoheabbo heittohat heittohabbo | heittogeabbo heittogabbo |
| A+Superl+Sg+Nom | heittogeamos heittogamos heittoheamos heittohamos | heittogeamos heittogamos |
For adjektiver har vi lagt til kontekst til attributtformen bare for sme. Det er merket i leksikonet hvilken kontekst som skal brukes, f.eks. context: "olmmoš". Hvis context="", så vil det ikke bli oppgitt attributtform.
| Bøyning | Kontekst bare for sme | Eksempel |
|---|---|---|
| - | context: "báddi" | guhkki |
| A+Attr | X (báddi) | guhkes (báddi) |
| A+Pl+Nom | - | guhkit |
| A+Comp+Attr | - | guhkit |
| A+Comp+Sg+Nom | - | guhkit |
| A+Superl+Sg+Nom | - | guhkimus |
numeraler:
| Bøyning | Kontekst bare for sme | Eksempel |
|---|---|---|
| - | context: "gápmagat" | guokte |
| Num+Pl+Nom | X (gápmagat) | guovttit (gápmagat) |
| Num+Pl+Gen | X (gápmagiid) | guvttiid (gápmagiid) |
indef pron:
(samme miniparadigme som for substantiver)
| Bøyning | Eksempel |
|---|---|
| - | muhtun |
| Sg+Gen | muhtuma |
| Sg+Ill | muhtumii |
| Pl+Ill | muhtumiidda |
Innskrevne paradigmer (mest for VD, men kan også brukes for NDS)
pronomener:
Singular for seg: Sg+Akk Sg+Gen Sg+Ill Sg+Loc Sg+Com Ess Plural for seg: Pl+Akk Pl+Gen Pl+Ill Pl+Loc Pl+Com Ess
negasjonsverb:
Sg1 Sg2 Sg3 Du1 Du2 Du3 Pl1 Pl2 Pl3
Homonyme entrier
Ikke-systematisk homonymi - eksempel fra sma
Systematisk homonymi - ekesmpler fra sme
| Nom | Gen | norsk | norm-fst-analyse |
|---|---|---|---|
| lohkki | lohki | lokk | lohkki+N+Sg+Nom |
| lohkki | lohkki | lesar | lohkki+N+NomAg+Sg+Nom |
Her må den ene merkes med tag (actor) i genereringa fra norm-fst. Med denne tagen kan de unngår man homonymi i dict. I xml-filene:
1.
<e src="nj" usage="vd">
<lg>
<l pos="N">lohkki</l>
</lg>
<mg>
<tg>
<t pos="N">lokk</t>
2.
<e src="nj" usage="vd">
<lg>
<l pos="N" type="NomAg">lohkki</l>
</lg>
<mg>
<tg>
<t pos="N">leser</t>
En annen systematisk homonymi:
| Nom | Gen | norsk | norm-fst-analyse |
|---|---|---|---|
| beassi | beasi | reir | beassi+N+Sg+Nom |
| beassi | beassi | never | beassi+N+G3+Sg+Nom |
Vi har følgende tagger for substantiver:
| tagger | fil |
|---|---|
| N+NomAg | - |
| N | - |
| N+G3 | - |
| N+G7 | - |
| N+Prop | - |

