Linguist Meeting2016-10-13
Møte om samansetjingar i språka våre
- samansetjingar og leksikonet FirstComponent - kva skal vi ha der, og kvifor?
- taggar for kortformer (-joh- for johka, -kultur- for kultuvra,
- samansetjingsrestriksjonar: taggar vs leksikqon
- skal vi ha same restriksjonar i norm-analysatoren som i stavekontrollen?
- skal vi ha same restriksjonar i norm-analysatoren som i stavekontrollen?
- kva er rett samansetjingsform? Attr, kort, SgNom, SgGen, PlNom, PlGen?
- Hyph-tagger
- feilanalyse (Err/SpaceCmp)
- lingvistiske stammer i compounding.lexc: LEXICON Prefixes, gir sammensetning
- flytte til stems?
- hva skal leksikonet inneholde? bør være samme i alle språk
- flytte til stems?
Her er alle dei opne Bz-meldingane eg har funne som handlar om samansetjingar:
- Bug 2153 - Cmp#+Der/lágan
- Bug 2154 - Cmp bør ha konsistente tagger
- Bug 1599 - cmp-form from generated cmps
- Bug 2213 - sammensetning av enstavelses navn fungerer ikke likt
- Bug 2099 - Proper compounds
- Bug 1490 - First part of Ani+Ani/Anipart-compound should be akk/gen
- Bug 2159 - Behandling av klitika og underlesninger i CG (om HFST)
Kategoriar:
- tagg-spørsmål
- kompat. (sjå eige punkt)
- tagg for kortform
- hyph-taggar
- kompat. (sjå eige punkt)
- tekniske tema
- hfst vs xerox
- preprocess vs ap-preprocess (=hfst-proc)
- mwe-disamb + mwe-split
- hfst vs xerox
- kompatibilitet mellom språk
- leksikonstruktur
- FirstComponent
- MiddleNouns og tilsvarande
- Prefixes
- FirstComponent
- analyse
- feilanalyse
- kva er rett sms-tagging/form for kvart språk?
- feilanalyse
Tekniske tema
hfst vs xerox
xfst vs. hfst
stavekontrollen har to typar avgrensingar:
- form: +CmpN/* - SgGen, SgNom, osb
- posisjon +CmpNP/* - First, Last, Prefix, None, Only, ...
Dei normative analsyatorane avgrensar med leksikon og +Err-taggar.
Både form- og posisjonstaggane blir konvertert til flaggdiakritika. Dei finst
Denne operasjonen krasjar på Xerox.
Hastigheit
Denne hfst-konfigurasjonen er den raskaste, i snitt ca 2,5 gonger Xerox:
$ ./configure --with-hfst --without-xfst --enable-reversed-intersect --enable-alignment --with-backend-format=foma
Normativitet
Alle -norm-fst-ar bortsett frå med Xerox skal ha same oppførsel som stavekontrollane,
Sjur legg inn endringane som trengst.
Vi vil ha møte for å diskutera normativitet for samansetjingar:
- torsdag 20.10. kl 10.00
- hvem sier hva om sma-sammensetninger
- korpus
- oversikt
- hvem sier hva om sma-sammensetninger
mwe-disamb + mwe-split
Dán illu boddui lei son čiŋadan sámi gávttiin , ja dasa lassin lei son ivdnehahttán vuovttaid alit fiskadin , nugo juo Álttá ivnnit leat . "<illu boddui>" "illuboddu" N Sem/Time Sg Ill Err/SpaceCmp <W:0> @ADVL> MAP:16752 &msyn-compound #2->2 ADD:8933:compound msyn-compound "illuboddu" N Sem/Time Sg Ill <W:0> @ADVL> MAP:16752 &SUGGEST #2->2 COPY:8935:compound illuboddu+N+Sg+Ill illuboddui ; "boddu" N Sem/Time Sg Ill <W:0> "<boddui>" ; "illu" N Sem/Perc-emo Sg Nom <W:0> "<illu>" :
Analyse for samansetjingsfeil bør vi køyre gjennom heile korpuset, for dels å sjå
preprocess vs ap-preprocess (=hfst-proc)
- Hos oss (grammatikkontroll): hfst-tokenize (eit supersett av xfst-formalismen)
- I Apertium: hfst-proc
Sjur har meir sans for gramktrl-klitikonhandsaming enn det som blir gjort i
Plan framover:
- Få Kevin til å få hfst-oppdateringane inn i hfst-github
- Oppdatere hfst lokalt hos oss
- Setje opp pipeline og analysere korpus