Meeting_2017-04-25
Møte om bug 2377
Til stede: Sjur, Ciprian, Trond, Thomas, Linda, Lene
Saksliste:
- Taggambiguitet
- Dobbelttagga POS-taggar
- Semtaggar og kompileringstid
- Generelt om kompileringstid
Taggambiguitet
Det er problemtatisk for Korp at det er ambiguitet mellom en del tagger. F.eks. er søkefunksjonen som er mest brukervennlig, er å søke etter "inneholder Nom" som .*Nom.* eller .*Ess.*
Taggene:
- Actio Ess, Actio Nom, Actio Loc, Action Com osv (ambigiøst med Ess, Nom) => Actioess, Actionom, Actioloc, Actiocom
- NomAg (ambigiøst med Nom) => Nmag
- VGen => Vgen
Vedtak: endra taggane i Korp (og berre der). Endra taggar: sjå over.
Eksempel på hva som er bra i CG:
- CG regler som slår (og skal slå) både ved Actio Loc og Loc
- verb valens med Actio Loc og Loc
Eksempel på hva som er dårlig i CG:
- CG regler som slår til på Ess og treffer både verb (Actio Ess) og substantiv Ess
Problematisk:
- Nom og NomAg er begge substantiver
- Mulig streng +N+NomAg+Sg+Nom
Vi endrar ingen ting i lexc eller CG (i alle fall ikkje no).
Dobbelttagga POS-taggar
Dobbeltagga POS (NN, VV, etc) - heller prefiks?
Vedtak:
- Ex/N, Ex/A, Ex/V, ...
- Ex = "tidlegare" "/" som i derivasjonskonvensjonen vår, og deretter original
- Resultatet blir at vi får apertiumtaggen direkte: <ex_n> etc.
- Ex = "tidlegare" "/" som i derivasjonskonvensjonen vår, og deretter original
Semtaggar og kompileringstid
Taggane blir endra:
- I functions.cg3
- I disambigation.cg3
- CG frå giella til apertium: map semtag med liten forbokstav
- Her bør vi heller gjere for CG som vi gjer for fst
- ha automatisk overgang frå t.d. +Sem/Hum til <sem_hum>, for alle taggar
- deretter, i ei separat fil, endre <a> til <adj> osb.
- Her bør vi heller gjere for CG som vi gjer for fst
Eit undersett av dei genererte taggane, nemleg dei semantiske taggane,
Det vil gjera det slik at ein ikkje treng å byggja semtagg-lista og regexar baserte på den om ein ikkje vil, og berre når det kjem ny versjon i svn vil ein byggja desse på nytt.
Generelt om kompileringstid
Grammatikkontroll-config:
./configure --with-hfst --without-xfst --enable-grammarchecker --enable-tokenisers --enable-alignment --enable-reversed-intersect --enable-morpher
Tek under 13 min for Sjur (utan twolc-kompilering)
Apertium-config:
./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect --enable-apertium --with-backend-format=foma
Tek ca 11 min for Sjur.
Optimalisering:
--with-backend-format=foma
Tvingar Hfst til å bruka eit uvekta fst-format, som igjen gjer at Foma blir brukt til kompileringa der det er mogleg. Både Foma og mangel på vektar gjer at det går raskare.
NB!!! Om ein endrar backend-format, MÅ ein køyra make clean fyrste