MT Forklaring
Oversikt over filene
smecg.nor.cg
sme.nor.dict
cg-regler for semantisk disambiguering er inde i sme.nor.dict (søg på fx P1=)
Problemet er konteksterne. Der var heldigvis ofte bare nor target og sme i 0-kontekst, og det går sådan set fint for +1/-1 kontekster også, og jeg har endda håndteret mange LINKs som omskrivning til tal-kontekster.
Men der er et problem - formalismen er lavet til dependens-træer (D=daughter GD=granddaughter, H=head, GM=grandmother), og de er ikke brugt i cglex. I stedet er der *-kontekster og BARRIER i cglex. Jeg kan muligvis tilføje * i formalismen, men hvis det kombinere med LINK og BARRIER bliver det svært. Løsningen må, for mig at se, snarere være at omskrive disse relativ få steder til dependens, fx D=(<H> @OBJ) for et humant objekt i et verbumsopslag, i stedet for *1 (<H> @OBJ BARRIER CLB OR V). Kan I prøve at se, om og i hvilken grad det er muligt, i sme.nor.dict filen?
Der er nogle enkelte uregelmæssigheder, jeg har udskrevet i toppen af .dict filen, hvor en cglex-regel syntes at gå efter en oversættelse, der slet ikke var i cgdix. Muligvis pga af et matching-problem i mit script. Men der er tale om ret få tilfælde, som i måske kan klare ved inspektion i filen.
En sidste ting: Normalt har jeg altid en POS for et .dict opslag (som _POS efter lemma), men cgdix havde entries uden POS, som så er blevet til _X. Er det korrekt gættet, at sme-input alligevel HAR en POS? Fordi så kan den evt. benyttes, eller også må MT-kernen slå op i dict med _X, når den ikke kan finde en "tilladt" ordklasse i input (N, A, ADV, V, PRON?)
replace_patternsE.txt
replace_patternsE.txt er en liste af de pardefs der forekom i cgdix i forbindelse med oversættelsesopslag (replace_patternsE). Min idé er at erstatte disse med en replace/insert-opskrift i sme.nor.dict:
[from->to], der kan være flere end én: [sg_m_RL_f__n] [pl->sg][n->n±m]
'±' bliver til ' ' (space) i output, tomrum er bare et beskyttet tegn i .dict-formatet. Af samme grund er der '=' alle de steder i ord og lemmata, hvor i har mellemrum inde i ordet.
Kan I færdiggøre og/eller kommentere omskrivningerne i pardef-filen?
Understreg
Uden [...] kan_... tilhæfting efter konteksterne forresten
Teoretisk kan jeg også bare videresende pardefs til output, og så kan
Morfologisk generering
Morfologisk generering havde jeg tænkt mig skulle laves i et script
Pipeline
input -> analyse -> lexicon&transfer -> cg(MOVE) -> generator
Det er cg-format, der skal komme ud af det
Min idé var sådan set, at bruge pardef'ene som en opskrift for at lave
Men hvis I hellere vil det, kan jeg også bare "parkere"