Meeting2018-03-20-MWE

Møte om MWE 20.3.2018

Feilskrivne fleirordsuttrykk (manglande mellomrom)

Korleis skal vi handtera (feilskrivingar av) fleirordsuttrykk, og særleg dei som ikkje er ekte fleirordsuttrykk, men der vi ynskjer analyse av kvart enkelt ord?

Utgangspunkt: analysen og leksikonoppføringa av viđa jagi vs *viđajagi vs viđa + jagi

Fyrst;

viđajagi+Err/Lex:viđajagi adv ;

Deretter:

viđa% jagi+Err/Orth:viđajagi adv ;
viđa% jagi:viđa% jagi adv ;

Problemet med den siste over er at vi då får berre adv-analysen av viđa jagi, istf analysen av kvart enkeltord.

Løysinga er å koda slike feilskrivne fleirordsuttrykk slik:

< {viđa} "@P.Pmatch.Backtrack@" { jagi}> adv-time ;
viđa% jagi+Err/MissingSpace:viđa∑#jagi adv-time ;

Tilsvarande for sma: daen biejjien (korrekt) vs daenbiejjien (feil). Dette kan fangast opp på denne måten for òg å få opp korrekt analyse av enkeltorda når uttrykket er skrive som to separate ord:

< {daen} "@P.Pmatch.Backtrack@"       { biejjien}> adv ;
   daen% biejjen+Err/MissingSpace:daen∑#biejjien adv ;

Korrekt måte å tagge leksikalsierte feilskrevne MWE uttrykk på

Frå sme/root.lexc:

@P.Pmatch.Backtrack@
Used on single-token analyses; tell hfst-tokenise/pmatch to backtrack by reanalysing the substrings before and after this point in the form (to find combinations of shorter analyses that would otherwise be missed)

Eksisterande bruk av det symbolet:

< {Guovdageainnu} "@P.Pmatch.Backtrack@" { suohka} n:"n9" "+MWE":0 > LONDON-org ;
gii@P.Pmatch.Backtrack@% nu+MWE+Pron+Indef+Sg+Nom:gii@P.Pmatch.Backtrack@% nu # ;

MWE-taggen

+MWE
MultiWord Expression, blir brukt av gamal (perl-basert) preprocess og i MT til å analysera fleirordsuttrykk som eitt token. Dvs at andre leksikaliserte fleirordsuttrykk utan denne taggen blir ikkje analyserte som fleirordsuttrykk. Med ny tokenisering (basert på hfst-tokenise) vil alle leksikaliserte fleirordsuttrykk bli analyserte som det, uavhengig av +MWE -taggen.
viđa% jagi+MWE:viđa% jagi adv ;

Eksempel på +MWE for MT:

Sámegiela% ja% sámi% girjjálašvuođa% mastergrádaoahppu+MWE+CmpNP/None:Sáme#giela% ja% sámi% girjjálašvuođa% master#gráda#oahppu MARJA-U-obj ;

Fra Gïelegaaltije: Propernoun

Peedagogihke-psykologihke% viehkie+MWE:Peedagogihke-psykologihke%  viehk N_IE; ! «Collection:Dååhkesjahteme_skole» «Education:pedagogisk-psykologisk tjeneste»

LIA-materiale

Det blir no lagt inn med +Err/Lex:

meieri+Err/Lex+Sem/Org:meieri STAHTA ;  !LIA
medleamma+Err/Lex+Sem/Hum:medleam'ma GOAHTI-A ;  !LIA
øyeblihkka+Err/Lex+Sem/Time:øyeblihkka GOAHTI-A ; !LIA
teve+Err/Lex+Sem/Dummytag:teve STAHTA ;  !LIA

nittensyvogtredve+Num+Sg+Nom+Err/Lex:nittensyvogtredve K ; !LIA
tredve+Num+Sg+Nom+Err/Lex:tredve K ; !LIA
syvogtredve+Num+Sg+Nom+Err/Lex:syvogtredve K ; !LIA
førti+Num+Sg+Nom+Err/Lex:førti K ; !LIA

Det er ei ok løysing inntil vidare.