Meeting_2014-11-04
Saksliste Sjur og Trond 4.11.14.
Saker:
- Nyinfra for sme
- Forrest
- Korpusinnsamling
- Bugzilla
- hfst
- oppsummering av tts-betatestinga
- cg-taggar og apertium (russisk)
Nyinfra for sme
Vi vil ha - kva står att?
Lokaliserte taggar:
src/analyser-nob-desc.xfst src/analyser-nob-norm.xfst
Konverteringa er definert i src/tagsets/nob.regex.
if WANT_MORPHOLOGY GT_ANALYSERS_XFST+= analyser-nob-desc.xfst \ analyser-nob-norm.xfst endif # WANT_MORPHOLOGY if WANT_GENERATION GT_GENERATORS_XFST+=generator-nob-desc.xfst \ generator-nob-norm.xfst endif # WANT_GENERATION
NB! Språkkoden i fst-namnet og i tagsetfila må vera den same.
Namnet -nob- refererer dermed til språket på
Konklusjon: er vi klare til å flytta?
Ciprian har problem med vislcg3, Sjur legg inn støtte for å slå av
Forrest
Korleis går det?
- kløyv gtuit-forrest i to likt Divvun
- bygg ut gtuit til å vera fleirspråkleg slik Divvun er det
- lag felles techdoc
Tidsplan: Denne/neste veke.
Korpusinnsamling
jf. siste referat om romanar/oversyn.
Bugzilla
Betre politikk for prioritering:
- Den som meldar inn buggen set alvorlegheitsgrad
- (feature request ... blocker).
- Så kan sjølvsagt
- (feature request ... blocker).
- Trond/Sjur/eigaren set prioritet
- (P1 ... P5)
- (P1 ... P5)
- Vi tar prioriteringane alvorleg, og lar det
bug 1363, derivasjonar, hash og twol-reglar
Trond skriv ein meir konkret kommentar.
hfst
Kjappare no? Lookup er mykje kjappare i 3.8.1 enn i 3.8.0. Ingen andre
Oppsummering av tts-betatestinga
På ein skala frå 1 til 5 (best), vart røystene vurdert slik:
MOS-samandrag: Divvun/UiT: Acapela: MOS norsk kvinnestemme: 3,71 3,71 MOS samisk kvinnestemme: 3,68 3,68 MOS norsk mannsstemme: 3,76 3,76 MOS samisk mannsstemme: 3,61 3,62
Andre ting:
- testen var ei nyttig røynsle, bra å ta med vidare.
- viktig å sjekka kor lang tid det tek å gjennomføra testen
- vi har no referansemateriale for framtidige eigne tts-system
cg-taggar og apertium (russisk)
- Situasjonen var: langs/rus: +N i fst, n i cg
- Trond endra til: langs/rus: +N i fst, n N i cg
Vi vil ikkje ha manuelle endringar, vi vil ha automatisk konvertering.
Frå IRC/#hfst:
[09:59am] spectre: TinoDidriksen, would it be hard to write a program or option for vislcg3 that reads a grammar file and outputs a list of tags/symbols and sets ? [10:04am] TinoDidriksen: spectre, that'd be trivial... [10:07am] spectre: and how about a program that rewrites them ? [10:07am] spectre: e.g. we'd like to make the CGs work with >1 tagset [10:08am] spectre: the first step is to get rid of inline sets [10:08am] TinoDidriksen: Just include the separate tagsets. [10:09am] spectre: ugh [10:09am] spectre: that's hideous [10:09am] spectre: sjnomos, --^ [10:09am] TinoDidriksen: Have 2+ parent grammars that include the tagset and independent rules. That's how you'd do it in XML as well. [10:09am] spectre: in the FSTs we have relabelling scripts [10:10am] TinoDidriksen: That's an option. [10:11am] spectre: i have an awful python script for relabelling the sámi CG [10:11am] spectre: but it just lowercases everything with some mangling [10:11am] TinoDidriksen: I just don't understand why you put this into the FSTs or CGs. Why isnt this a filter program in the chain? [10:11am] spectre: tagsets are shitty [10:11am] spectre: filter programs don't work [10:13am] TinoDidriksen: If you can relabel them mechanically, I don't see how a filter is impossible. [10:13am] spectre: you can't relabel them fully automatically [10:14am] spectre: there are always holes [10:15am] TinoDidriksen: Are the conversions 1:1? That'd be easy to add to CG. [10:15am] spectre: many:many [10:17am] TinoDidriksen: Hm. Well, I will make CG-3 dump single tags. How do you want sets dumped? Their whole definition, or just names, or what? [10:18am] spectre: whole definition
Konklusjon: Vi vil ha russisk fungerande både i nyinfra og i Apertium,
Genererte tagsetfiler blir ikkje ignorerte.
Det gjeld:
? sme/tools/mt/apertium/tagsets/apertium.relabel ? sme/tools/mt/apertium/tagsets/apertiumtags.txt
Filer som:
? src/morphology/stems/smi-propernouns.lexc ? src/morphology/stems/smi-sme-propernouns.lexc
er gamle og skal slettast.