dictionarywork
Contents:
- Hva er målet med ordboksarbeidet?
- Genererte ordformsorbøker (VD) vs. online-analyse-ordbøker (NDS) vs. Apertium-ordbøker (webdict)
- Leksikonfiler
- Flerordsuttrykk
-
Entryenes struktur
- <e> nivå i xml
- Meningsgrupper <mg> i xml
- Oversettelsesgrupper <tg> i xml
- Bruk av <re> (restriksjon) i xml
- Bruk av <style> i xml (ikke implementert)
- Lemmaet har ikke paradigme:pg="no" i xml (gjelder bare VD)
- Bruk av v1, v2 osv. i lexc (gjelder bare VD)
- Bruk av lsub i xml (gjelder bare VD)
- Bruk av l_ref i xml (gjelder bare VD)
- Evt. bruk av flere typer referanser - dette er tanker, og er ikke implementert
- Eksempler
- Generere paradigme eller ikke (gjelder bare VD)
- Genererte miniparadigmer til hjelp for brukeren
- Innskrevne paradigmer (mest for VD, men kan også brukes for NDS)
- Homonyme entrier
Hva er målet med ordboksarbeidet?
Sitat fra møte 23.8.11:
- ordbøkene er nyttige for folk flest
- vise kombinasjonen leksikografi/morfologi
- vi kan samarbeide med de leksikografiske miljøene
- vi trenger transferleksikon for MT
Genererte ordformsorbøker (VD) vs. online-analyse-ordbøker (NDS) vs. Apertium-ordbøker (webdict)
- Apertium-ordbøkene (webdict) inneholder bare grunnform og er smX-nob/fin og
- VD inneholder genererte ordformer og er smX-nob. De kan lastes ned, og
- NDS analyseres online med analyser-dict-gt-desc.xsft, og genereres med
Leksikonfiler
Entryene er delt inn i filer etter POS. For sme er det ei fil other_smenob.xml med flere ordklasser.
Flerordsuttrykk
- Man kan legge til ord som bare er ord nr 2 i faste uttrykk, f.eks.
- Flerordsuttrykk som har annen mening enn hvert enkeltord har, bør man legge
Entryenes struktur
<e> nivå i xml
De som er med i dictionary er merket med usage="vd" for sme og usage="dict" for sma. Enkelte entryer er også merket med kildehenvisning, f.eks. src="nj" (fra Jernsletten), src="sk" (Statens Kartverk), src="gt" (Giellatekno), src="fad" (Fra forvaltningsordbokprosjektet). Default er src="gt".
Meningsgrupper <mg> i xml
Man skiller mellom synonymer og meningsgrupper. Synonymer har samme <mg> (meaning group / meningsgruppe) og samme <tg> (translation group / oversettelsesgruppe). Hvis en entry har flere betydninger, så skilles disse som forskjellige <mg>.
<e src="nj" usage="vd"> <lg> <l pos="N">sudja</l> <lc>sujat</lc> </lg> <mg> <tg> <t pos="N">årsak</t> <t pos="N">grunn</t> </tg> </mg> <mg> <tg> <t pos="N">skyld</t> </tg> </mg> </e>
Oversettelsesgrupper <tg> i xml
Elementet <mg> inneholder en eller flere <tg> (oversettelsesgruppe eller translation group) som igjen kan inneholde:
<t> - et ord
<e usage="vd"> <lg> <l pos="N">ristoabbá</l> </lg> <mg> <tg> <t pos="N">gudsøster</t> </tg> </mg> </e>
<t> - en frase
<e usage="vd"> <lg> <l pos="N">áššu</l> </lg> <mg> <tg> <t dict="yes" pos="N">glødende vedstykke</t> </tg> </mg> </e>
<te> - en forklaring. En forklaring er en setning som forklarer betydningen av et ord, men som ikke kan brukes i for eksempel en oversettelse. Denne brukes KUN hvis <t> ikke kan brukes.
<e usage="vd"> <lg> <l pos="N">boaššobealle</l> </lg> <mg> <tg> <te>den side som vender mot boaššu, det vil si den innerste delen av telt, gamme eller hus</te> </tg> </mg>
Bruk av <re> (restriksjon) i xml
- <re> gir restriksjon for oversettelsen. Oversettelsen vest har
<mg> <tg> <re>om klesplagg</re> <t pos="N">vest</t> </tg> </mg>
- <re> kan også brukes for å markere kasusbetydning, f.ek.s bevegelse til.
- for stedsnavn angir den kommune eller fylke
Bruk av <style> i xml (ikke implementert)
Lemmaet har ikke paradigme:pg="no" i xml (gjelder bare VD)
Bruk av v1, v2 osv. i lexc (gjelder bare VD)
- Ett lemma kan ha flere normative skrivemåter. I fst merkes disse med
- tunealla+v1: tunealla
- tunealla+v2: tunnealla
- tunealla+v1: tunealla
- Til ordboksfilene legges kun det lemmaet som er valgt som felles lemma i fst.
<lg> <l pos="g3" vmax="2">tunealla</l> </lg>
- Ved hjelp av v1, v2 taggene, kan man sortere ordformene til riktig oppslagsord
Bruk av lsub i xml (gjelder bare VD)
Elementet lsub legges til i <lg> for vanlige ikke-normative skrivemåter.
<e usage="vd"> <lg> <l pos="N">balloŋŋa</l> <lsub extrapage="yes" pos="N">balluvdna</lsub> <!!-- extrapage="yes" er default --> <!!-- the extrapage attribute is now obsolete when v1,v2 is implemented:--> <!!-- 1. lsub is alway extrapage="no" (no need of the extrapage attribute anymore)--> <!!-- 2. in the pair v1-v2, one lemma is the entry in the dict and the other is generated automatically, "lsub with extrapage="yes" so to say --> </lg> <mg> <tg> <t pos="N">ballong</t> </tg> </mg> </e> <lg> <l pos="N">kantuvra</l> <lsub extrapage="no" pos="N">kántuvra</lsub> </lg>
Bruk av l_ref i xml (gjelder bare VD)
Elementet l_ref legges til i <lg> for å vise til ander lemmaer som kan være
- vise til det lemmaet som bør brukes i følge termordlister etc. I slike
<lg> <l pos="N">giehtagiella</l> <l_ref>seavagiella_n</l_ref> </lg>
- gjøre brukeren oppmerksom på at det er en annen semantisk inndeling på samisk
<lg> <l pos="cc">dahje</l> <l_ref>vai_cc</l_ref> </lg> og <lg> <l pos="cc">vai</l> <l_ref>dahje_cc</l_ref> </lg>
Evt. bruk av flere typer referanser - dette er tanker, og er ikke implementert
Initialt i <mg>:
- <syn lemmaID="buohccebiila" /> → vise til eit synonym
- <ant lemmaID=""> ↛ vise til eit antonym
- <hyponym> ↓ vise til eit meir spesifikt ord
- <hypernym> ↑ vise til eit meir overordna ord
- <obs> vær obs på dette (bajimussii -> bajimusas) !!
Eksempler
Man kan legge inn kildetilvisning som attributt for x og xt, f.eks. hvis ordet
<x src="S.B. Johansen 2010: Sárá beaivegirji s. 21">... dakkár ilgadis olmmošlágan filbmasivdnádus, mii lea eambbo robohtalágan go olbmolágan.</x>
Generere paradigme eller ikke (gjelder bare VD)
Noen av filene er statiske og noen blir det generert paradigmer av. Det er filer
I de andre filene er det POS-merkinga som avgjør om det blir generert paradigme
Generere paradigmer (gjelder bare VD)
Alle entryene må være leksikalisert i norm-fst. Hvis ikke, vil de ikke bli
Det må ikke være noen homonyme entryer (lemma + POS + type + subtype + ... annen
For å unngå at dict-fila blir for stor, kan man vurdere hvilke bøyningsformer
Filer for generering (gjelder bare VD)
sme-filer for generering:
nounActor_smenob.xml nounCommon_smenob.xml nounG3_smenob.xml nounProper_smenob.xml nounRevProper_smenob.xml nounProperPl_smenob.xml adjective_smenob.xml verb_smenob.xml pronIndef_smenob.xml num_smenob.xml
sma-filer for generering:
a_smanob.xml n_smanob.xml v_smanob.xml num_smanob.xml pronIndef_smanob.xml prop_smanob.xml propPl_smanob.xml
Filer med statiske (innskrevne) paradigmer (mest for VD, men kan også brukes for NDS)
Her kan man velge hvilket grunnord de bøyde formene peker til. F.eks. når det
I entryene for de flekterte formene, blir det en entry for hver sideform.
Det må ikke være noen homonyme entryer (lemma + POS) innafor eller på tvers av
<l pos="pron" type="dem" nr="sg">dat</l> vs <l pos="pron" type="dem" nr="pl">dat</l> og <l pos="pron" type="pers" nr="sg">dat</l>
Dette må også tas hensyn til i lemma_ref, f.eks.
<lemma_ref lemmaID="dat_pron_pers_pl">dat</lemma_ref>
sme-filer med innskrevne paradigmer:
adjstatpar_smenob.xml div_statisk_smenob.xml verbNeg_smenob.xml verbCop_smenob.xml verbSupNeg_smenob.xml pronDem_smenob.xml pronPers_smenob.xml pronRec_smenob.xml pronRefl_smenob.xml pronRel_smenob.xml
sma-filer med innskrevne paradigmer:
misc_stat_smanob.xml pronPers_stat_smanob.xml pronRec_stat_smanob.xml pronRefl_stat_smanob.xml pronRel_stat_smanob.xml vCop_stat_smanob.xml vNeg_stat_smanob.xml
Andre filer
sme-filer:
adverb_smenob.xml mwe_smenob.xml other_stat_smenob.xml
sma-filer:
adv_smanob.xml i_smanob.xml multiword_smanob.xml pcle_smanob.xml po_smanob.xml pr_smanob.xml
Genererte miniparadigmer til hjelp for brukeren
Miniparadigmene i leksikonoppslaget er hjelp for brukeren. De vil variere fra
Use/NGminip og Allegro i lexc
Ved å legge til +Use/NGminip i lexc, kan man velge bort en del bøyningsformer
substantiv:
Substantiv kan få attributten illpl="no" hvis den ikke er så høvelig å
Bøyning | Eksempel |
---|---|
viessu | |
Sg+Gen | viesu (ikke Allegro) |
Sg+Ill | vissui |
Pl+Ill | viesuide (ikke hvis illpl="no" ) |
propernouns sme - sg:
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Norga | Norge |
Sg+Gen | X bokte | Norgga bokte | via Norge |
Sg+Ill | - | Norgii | til Norge |
Sg+Loc | - | Norggas | i/fra Norge |
propernouns sme - pl:
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Iččát | Ingøy |
Pl+Gen | X bokte | Iččáid bokte | via Ingøy |
Pl+Ill | - | Iččáide | til Ingøy |
Pl+Loc | - | Iččáin | i/fra Ingøy |
propernouns sma - sg:
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Nöörje | Norge |
Sg+Gen | X baaktoe | Nöörjen baaktoe | via Norge |
Sg+Ill | - | Nöörjese | til Norge |
Sg+Ine | - | Nöörjesne | i/på Norge |
Sg+Ela | - | Nöörjeste | fra Norge |
propernouns sma - pl:
Bøyning | Kontekst | Eksempel | Oversettelse |
---|---|---|---|
- | - | Bealjehkh | Sylan |
Pl+Gen | X baaktoe | Bealjehki baaktoe | via Sylan |
Pl+Ill | - | Bealjehkidie | til Sylan |
Pl+Ine | - | Bealjehkinie | i/på Sylan |
Pl+Ela | - | Bealjehkijstie | fra Sylan |
verb sme:
Bøyning | Kontekst | Eksempel |
---|---|---|
context: "mun" | boahtit | |
Ind+Prs+Sg1 | (odne mun) X | (odne mun) boađán |
Ind+Prt+Sg1 | (ikte mun) X | (ikte mun) bohten |
Ind+Prs+ConNeg | (in) X | (in) boađe |
For verb som det ikke er naturlig med menneskelig subjekt for:
Bøyning | Kontekst | Eksempel |
---|---|---|
- | context: "dat" | ciellat |
Ind+Prs+Pl3 | (Plural) X | (Plural) cillet |
Ind+Prt+Sg3 | (ikte dat) X | (ikte dat) cielai |
Ind+Prs+ConNeg | (ii) X | (ii) ciela |
For verb som bare brukes i Sg3 (vær-verb):
Bøyning | Kontekst | Eksempel |
---|---|---|
- | context: "upers" | bieggat |
Ind+Prs+Sg3 | (odne) X | (odne) bieggá |
Ind+Prt+Sg3 | (ikte) X | (ikte) biekkai |
Ind+Prs+ConNeg | (ii) X | (ii) biekka |
For resiproke verb :
Bøyning | Kontekst | Eksempel |
---|---|---|
- | context: "sii" | deaivvadit |
Ind+Prs+Pl3 | (odne sii) X | (odne sii) deaivvadit |
Ind+Prt+Pl3 | (ikte sii) X | (ikte sii) deaivvadedje |
Ind+Prs+ConNeg | (eai) X | (eai) deaivvat |
verb sma:
Bøyning | Kontekst | Eksempel |
---|---|---|
Inf | - | båetedh |
Ind+Prs+Sg1 | (daan biejjien manne) X | (daan biejjien manne) båatam |
Ind+Prs+Sg3 | (daan biejjien dïhte) X | (daan biejjien dïhte) båata |
Ind+Prs+Pl3 | (daan biejjien dat) X | (daan biejjien dat) båetieh |
Ind+Prt+Sg1 | (jååktan manne) X | (jååktan manne) böötim båetiejim |
Ind+Prs+ConNeg | (ij) X | (ij) båetieh |
PrfPrc | (lea) X | (lea) båateme |
Ger | (lea) X | (lea) båetieminie |
VGen | X | båetien |
adjektiver:
Ved å legge til +Use/NGminip i fst, kan man velge bort en del bøyningsformer når man ikke vil presentere alle i miniparadigmet. Dette er ikke minst aktuelt for adjektiver.
Bøyning | Uten +Use/NGminip | Med +Use/NGminip |
---|---|---|
A+Sg+Nom | heittot | heittot |
A+Attr | heittogis heittohis (bivttas) | heittogis (bivttas) |
A+Pl+Nom | heittogat heittohat | heittogat |
A+Comp+Attr | heittogit heittogut heittoget heittogat heittohit heittohut heittohet heittohat | heittoget heittogat |
A+Comp+Sg+Nom | heittogit heittogut heittoget heittogeabbo heittogat heittogabbo heittohit heittohut heittohet heittoheabbo heittohat heittohabbo | heittogeabbo heittogabbo |
A+Superl+Sg+Nom | heittogeamos heittogamos heittoheamos heittohamos | heittogeamos heittogamos |
For adjektiver har vi lagt til kontekst til attributtformen bare for sme. Det er merket i leksikonet hvilken kontekst som skal brukes, f.eks. context: "olmmoš". Hvis context="", så vil det ikke bli oppgitt attributtform.
Bøyning | Kontekst bare for sme | Eksempel |
---|---|---|
- | context: "báddi" | guhkki |
A+Attr | X (báddi) | guhkes (báddi) |
A+Pl+Nom | - | guhkit |
A+Comp+Attr | - | guhkit |
A+Comp+Sg+Nom | - | guhkit |
A+Superl+Sg+Nom | - | guhkimus |
numeraler:
Bøyning | Kontekst bare for sme | Eksempel |
---|---|---|
- | context: "gápmagat" | guokte |
Num+Pl+Nom | X (gápmagat) | guovttit (gápmagat) |
Num+Pl+Gen | X (gápmagiid) | guvttiid (gápmagiid) |
indef pron:
(samme miniparadigme som for substantiver)
Bøyning | Eksempel |
---|---|
- | muhtun |
Sg+Gen | muhtuma |
Sg+Ill | muhtumii |
Pl+Ill | muhtumiidda |
Innskrevne paradigmer (mest for VD, men kan også brukes for NDS)
pronomener:
Singular for seg: Sg+Akk Sg+Gen Sg+Ill Sg+Loc Sg+Com Ess Plural for seg: Pl+Akk Pl+Gen Pl+Ill Pl+Loc Pl+Com Ess
negasjonsverb:
Sg1 Sg2 Sg3 Du1 Du2 Du3 Pl1 Pl2 Pl3
Homonyme entrier
Ikke-systematisk homonymi - eksempel fra sma
Systematisk homonymi - ekesmpler fra sme
Nom | Gen | norsk | norm-fst-analyse |
---|---|---|---|
lohkki | lohki | lokk | lohkki+N+Sg+Nom |
lohkki | lohkki | lesar | lohkki+N+NomAg+Sg+Nom |
Her må den ene merkes med tag (actor) i genereringa fra norm-fst. Med denne tagen kan de unngår man homonymi i dict. I xml-filene:
1. <e src="nj" usage="vd"> <lg> <l pos="N">lohkki</l> </lg> <mg> <tg> <t pos="N">lokk</t> 2. <e src="nj" usage="vd"> <lg> <l pos="N" type="NomAg">lohkki</l> </lg> <mg> <tg> <t pos="N">leser</t>
En annen systematisk homonymi:
Nom | Gen | norsk | norm-fst-analyse |
---|---|---|---|
beassi | beasi | reir | beassi+N+Sg+Nom |
beassi | beassi | never | beassi+N+G3+Sg+Nom |
Vi har følgende tagger for substantiver:
tagger | fil |
---|---|
N+NomAg | - |
N | - |
N+G3 | - |
N+G7 | - |
N+Prop | - |