Meeting_2017-04-25

Møte om bug 2377

Til stede: Sjur, Ciprian, Trond, Thomas, Linda, Lene

Saksliste:

  • Taggambiguitet
  • Dobbelttagga POS-taggar
  • Semtaggar og kompileringstid
  • Generelt om kompileringstid

Taggambiguitet

Det er problemtatisk for Korp at det er ambiguitet mellom en del tagger. F.eks. er søkefunksjonen som er mest brukervennlig, er å søke etter "inneholder Nom" som .*Nom.* eller .*Ess.*

Taggene:

  • Actio Ess, Actio Nom, Actio Loc, Action Com osv (ambigiøst med Ess, Nom) => Actioess, Actionom, Actioloc, Actiocom
  • NomAg (ambigiøst med Nom) => Nmag
  • VGen => Vgen

Vedtak: endra taggane i Korp (og berre der). Endra taggar: sjå over.

Eksempel på hva som er bra i CG:

  • CG regler som slår (og skal slå) både ved Actio Loc og Loc
  • verb valens med Actio Loc og Loc

Eksempel på hva som er dårlig i CG:

  • CG regler som slår til på Ess og treffer både verb (Actio Ess) og substantiv Ess

Problematisk:

  • Nom og NomAg er begge substantiver
    • Mulig streng +N+NomAg+Sg+Nom

Vi endrar ingen ting i lexc eller CG (i alle fall ikkje no).

Dobbelttagga POS-taggar

Dobbeltagga POS (NN, VV, etc) - heller prefiks?

Vedtak:

  • Ex/N, Ex/A, Ex/V, ...
    • Ex = "tidlegare" "/" som i derivasjonskonvensjonen vår, og deretter original ("tidlegare") ordklasse
    • Resultatet blir at vi får apertiumtaggen direkte: <ex_n> etc.

Semtaggar og kompileringstid

Taggane blir endra:

  • I functions.cg3
  • I disambigation.cg3
  • CG frå giella til apertium: map semtag med liten forbokstav
    • Her bør vi heller gjere for CG som vi gjer for fst
    • ha automatisk overgang frå t.d. +Sem/Hum til <sem_hum>, for alle taggar
    • deretter, i ei separat fil, endre <a> til <adj> osb.

Eit undersett av dei genererte taggane, nemleg dei semantiske taggane, bir drege ut, og lista skal heretter bli lagra i svn + ein opsjon som gjer at ein kan slå av bygginga av semtagg-lista.

Det vil gjera det slik at ein ikkje treng å byggja semtagg-lista og regexar baserte på den om ein ikkje vil, og berre når det kjem ny versjon i svn vil ein byggja desse på nytt.

Generelt om kompileringstid

Grammatikkontroll-config:

./configure --with-hfst --without-xfst --enable-grammarchecker --enable-tokenisers --enable-alignment --enable-reversed-intersect --enable-morpher

Tek under 13 min for Sjur (utan twolc-kompilering)

Apertium-config:

./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect --enable-apertium --with-backend-format=foma

Tek ca 11 min for Sjur.

Optimalisering:

--with-backend-format=foma

Tvingar Hfst til å bruka eit uvekta fst-format, som igjen gjer at Foma blir brukt til kompileringa der det er mogleg. Både Foma og mangel på vektar gjer at det går raskare.

NB!!! Om ein endrar backend-format, ein køyra make clean fyrste gongen, for å unngå feilmeldingar pga fst-ar av ulikt format.