Diskusjon Om Morfologisk InfoI Analysen_20150319
Diskusjonen startet på møte 19. mars 2015.
Morfologisk informasjon i korpusanalysen
Status i dag: mye informasjon blir fjerna
Vi vil ta vare på mer informasjon
- om derivasjon
- om både dynamiske og leksikaliserte samansetjingar/avleiingar
Saker:
- kva gjer vi i lookup2cg? Avklart på separat møte, vi hiv ut all lingv. pros.
- korleis skal taggane for leksikaliserte ord sjå ut?
- kva er eit lemma?
Spørsmål:
- vil vi ha kopling til rotlemma?
- kor stor del av den morfologiske historia vil vi ta vare på?
- kva vil vi koda?
- kva slags "syntaks" vil vi ha for taggane for morf.historia?
Fordeler med leksikalisering:
- ordbøker og MT
- prioritering av forslag i stavekontrollen (de leksikaliserte kommer først)
- mulighet for å legge til semantiske tagger uavhengig av derivasjonstype
- estetiske (reint syntaktiske) lesingar i syntaktisk analyse
Alternativer:
- Bruke kompleks analyse istedenfor leksikalisering
- Legge til tagger om derivasjon til dagens analyse. I dag har vi en slik i sme: +NomAg
- Ta vare på kompleks analyse som underlesning
- Legge til definerte underlesninger i et skript, mellom FST og cg3
1. Bruke kompleks analyse istedenfor leksikalisering:
En både-og-løsning vil kunne kreve to disambigueringsfiler
2. Legge til tagger:
Vi har i dag dette for NomAg for å løse homonymi
vuovdi = selger vuovdi vuovdi+N+NomAg+Sg+Nom <= info i tagg til det leksikaliserte lemmaet vuovdi vuovdit+V+TV+Der/NomAg+N+Sg+Nom <= kompleks analyse
pga av homonymi med vuovdi+N = skog som har ulikt bøyningsparadigme
For derivasjonen Der/NomAct har vi det ikke
vuovdin vuovdin+N+Sg+Nom <== +NomAct ville være fordel for disambiguering av Acc vs Gen vuovdin vuovdit+V+TV+Der/NomAct+N+Sg+Nom
3. Ta vare på kompleks analyse som underlesning
4. Legge til definerte underlesninger i et skript, mellom FST og cg3
"<vuovdin>" "vuovdin" N NomAct Sg Nom "vuovdit" V TV "<ealli>" "ealli" N NomAg Sg Nom Sem/Ani "eallit" V IV
$ echo čorgejeaddji | hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv -f "<čorgejeaddji>" "čorgejeaddji" N NomAg Sem/Hum Sg Nom "čorgejeaddji" Der/NomAg N Sg Nom "čorget" V TV
Konsekvensar for ulike applikasjonar/komponentar:
- CG (disambiguering) - må tilpasses ny lookup2cg
- ordbøker / Oahpa osv
- MT
- korp
- grammatikkontroll
- talesyntese(?)
Eksempler:
sme$ usme borahahtti - (ordboka: spiselig A) borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+PrsPrc borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom borahahtti borahit+V+TV+Der/ahtti+V+TV+PrsPrc borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom borahahtti borahahtti+A+Attr borahahtti borahahtti+A+Sg+Nom borahahtti borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+PrsPrc borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Imprt+Du2 borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Gen borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Acc borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom borahahtti borahit+V+TV+Der/ahtti+V+TV+PrsPrc borahahtti borahit+V+TV+Der/ahtti+V+TV+Imprt+Du2 borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Gen borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Acc borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom borahahtti borahahtti+A+Attr borahahtti borahahtti+A+Sg+Nom => A = PrsPrc 'borahit/borrat' borahahtti borahahtti+A+Sg+Gen borahahtti borahahtti+A+Sg+Acc $ usmj nuorttal nuorttal+Adv + nuorttal nuorttal+Po nuorttal nuorttal+Pr nuorttalappo nuorttalabbo+A+Comp+Pl+Nom nuorttalappo nuorttalabbo+A+Comp+Sg+Gen nuorttalappot nuorttalabbo+A+Comp+Der/at+Adv nuorttalappot nuorttalappot+Adv - subst->komp->adj->adv $ usme geahppaseappot geahpas+A+Comp+Der/at+Adv geahppaseappot geahppaseappot+Adv <== denne vinner i dis.cg3
Bz 1308:
Spesielt gjelder det verb på -lit (i parantes er mulig analyse som FST ikke gir idag):
- oaidnalit oaidnalit+V+IV+Inf (oaidnit V Der/lit)
- náitalit náitalit+V+IV+Inf (náitit V Der/lit)
- heaitalit heaitalit+V+TV+Inf (heaitit V Der/lit)
- álgalit álgalit+V+IV+Inf (álgit V Der/lit)
- riidalit riidalit+V+IV+Inf (riidit V Der/lit)
Men også verb på -šit:
- bealkkašit bealkkašit+V+TV+Inf (bealkit V Der/šit)
- vávjjašit vávjjašit+V+TV+Inf (vávjit V Der/šit)