Meeting_2014-08-04
Møte Sjur og Trond 4.8.2014
Saker
- Fst-basert preprocessor
- Liten fyrstebokstav ved namn i smj
- inituppercase-testing
- est-nob-est
- Smi-propernouns
- sme-L2
- Bugzilla
- Zulu
- FAD-sma/smj
- Clarino-registrering
- Kamera på møterommet
- Stavekontroll
- Antti-møtet
- Hausten
Fst-basert preprocessor
... med hfst-pmatch.
Frå Mike:
> Jeg jobber fremdeles med å få frem en fin output fra hfst-pmatch verktøyet. > Det har enda vært litt mer problemer med selve hfst-pmatch2fst verktøyet slik > at det ikke fungerte som det skal. Sam hadde endret noe slik at jeg ikke fikk > kompilere enkle pmatch regler til binær hfst format som f.eks.: > > Define UnknownWord Alpha+ EndTag(UnknownWord) ; > Define SamiWord @bin"analyser-gt-desc.hfst" EndTag(SamiWord) ; > Define Word LC(Deliminator) [SamiWord | UnknownWord] RC(Deliminator) ; > > Dessuten har jeg bedt Sam en gang til og ba ham om å dokumentere mulighetene > med pmatch regler. Nå er hfst-pmatch2fst fremdeles ikke dokumentert og jeg > vet ikke hva slags syntaks jeg kan bruke for skrive pmatch regler for å nå > det som ønskes. > > Det samme gjelder for selve hfst-pmatch.cc koden, som er dårlig dokumentert > og mye kode. Jeg vet hva som må gjøres, og vet hvor det omtrent skal gjøres, > men jeg sliter enda mye med hvordan det skal gjøres på en hfst-aktig måte. > Ting som hfst-alfabet og hvordan en transducer traverseres til å finne > matches forstår jeg ikke enda. Jeg har bedt Sam til å forklare.
Sjur pratar med Krister og Sam om i kor stor grad hfst-pmatch kan nyttast
Den gamle preprosessoren
# my $quotations = quotemeta("«»‹›“”„‘’‚´`'\""); # original my $quotations = quotemeta("«»‹›“”„‘’‚`'\""); # Skolt Sami fix without ... # ... ACUTE ACCENT as delimiter
Men allikevel får vi nytt ord foran ACUTE ACCENT:
echo "a´a" | preprocess a ´a
Trond og Ciprian ser på dette.
Liten fyrstebokstav ved namn i smj
$ usmj oslo oslo Oslo+N+Prop+Plc+Pl+Nom $ usme oslo oslo oslo +? $ husmj oslo oslo oslo+? inf $ husme oslo oslo oslo+? inf
Dette er med andre ord xfst vs. hfst-xfst, dessverre.
Det kan vere ulikt oppsett av flagg som gjer det.
Sjur pratar med Tomi, Trond fylgjer opp.
inituppercase-testing
Trond har laga kyrillisk dummy-fil for inituppercase.regex for alle kyrilliske
est-nob-est
Teiknsettsproblema er no ordna. Ingen har gjort noko med xml-formatteringa
Arbeid framover:
- Trond lagar abstrakt (pseudokode-)utkast til konverteringa.
- Sjur eller andre lagar perlfil.
Smi-propernouns
Vi vil endra strukturen slik at alle genererte filer blir lagt i ein separat
Sjur gjer dette.
sme-L2
Gamalt referat:
- Nye makefiler
- Nye kjeldefiler, merka -L2. Trond sjekkar inn kopiar av eksisterande filer,
- Merk at sme-phon.twolc får nytt namn: sme-phon-L1.twolc, og at L2-fila
- ny verdi for overføringsscriptet gammal-til-ny, til sme-phon-L1.twolc
Trond sjekkar inn og Sjur sjekkar. Vi skriv dokumentasjon.
Dette er delvis feil, det vi vil ha er:
- Parallel L2-bygging
- ingen L1-filer har L1 i namnet
- alle og berre L2-filene har L2 i namnet
- L2-bygginga byggjer berre analyser-oahpa-gt-desc
Implementering:
- svn-kopi frå branches/error-fst til langs/sme/.../...L2.lexc (Trond)
- L2-bygging (Sjur)
Bugzilla
141 buggar er opne. Vi bør ha ein ny dugnad, etter at Sandra er inne i rutinane.
Ein Bugzilla-dugnadsdag over to dagar: 20.-21.8.
Zulu
Trond har vorte invitert til Pretoria. Før siste halve november eller etter
Trond skriv til Pretoria og høyrer meir om innhaldet ved besøket, kva dei vil
FAD-sma/smj
Trond: Sjå etter folk og parallelltekst. Morsmål ikkje eit krav.
Clarino-registrering
Vi skal/bør registrera ressursane våre. Bergen har spurt om (meta)data.
Kamera på møterommet
Vi tar eit møte med Kyrre Soleng via Lync el. tilsvarande.
Stavekontroll
Lansering/oppdatering i haust:
PLX
Oppdateringar for smj og sma. Krev at PLX-konverteringa er flytta over i ny
HFST
Fleire ting må gjerast/på plass:
- debugga hfst-ospell
- Sjur må laga LO 3.6.-utgåve med hfst-støtte for Mac (krav frå Voikko-utvikl.)
- Voikko må få LO 4.1.-utgåve med hfst-støtte for Windows
- alle OS må få LO 4.2+ med hfst-støtte
- identifisera kva for LO-versjon som fekk støtte for kvart språk, legg til i
Funksjonalitet/portabilitet for alle språk
$LANG.oxt er ein realitet for LibreOffice 4.1, men ikkje eldre og nyare
- Kor er oxt-fila?
- I $GTLANG/tools/spellcheckers/fstbased/hfst/
- I $GTLANG/tools/spellcheckers/fstbased/hfst/
- og kor legg vi henne ut?
- i divvun.no/static_files/oxts/
- i divvun.no/static_files/oxts/
- kva er namneskjemaet?
-
fi_LO-voikko-3.6-32b-win.oxt = språk_oxtnamn-LOminversjon-bittheit_OS
- filnamnet blir generert automatisk
-
fi_LO-voikko-3.6-32b-win.oxt = språk_oxtnamn-LOminversjon-bittheit_OS
- og kva skriv vi til folk for å forklare korleis dei skal teste henne?
- last ned LO 4.1 (for tilfellet)
- last ned oxt-fil
- dobbeltklikk oxt-fil, følg instruksjonane
- skriv tekst, marker teksten som rett språk og test stavekontrollen
- last ned LO 4.1 (for tilfellet)
Språk som fungerer med LO 4.1 (ABC i språkmenyen):
- myv
- est
- fao
- fin
- kca
- kpv
- mrh
- mrj
- mjd
- mdf
- yrk
- nio
- nob
- olo
- sjd
- sma
- sme
- smj
- sms
- som
- udm
- vep
- vro
- zul (?)
Forslagsmekanismen fungerer ikkje stabilt, LO heng (og ev. heile maskina!) når
Fungerer ikkje:
- lat
- liv
- smn (lexc)
- tat (lexc)
Antti-møta
Trond
Oppsummering:
cree-pr først når LO-speller fungerer suuri kuva periaatteet cc junker lippulaiva 10 demoa niille, jotka nappaavat canada first total: 50 + 50 + 50 mill, niin, että Canada on maailman ykkønen? Meidän hakemus: 5+5+5 millioona per projekti
Sjur
- vi lanserer ikkje cree i LO før alt fungerer og vi har ein betaverson
- Sjur jobbar vidare med LO-voikko slik at det funkar på Antti si maskin
- vi fann ein Unicode-bug på servaren i Edmonton
Hausten
- Prof2: L Borin - v37, D Meurer - v38+39
- nye stavekontrollar
- fleire ting som vi ikkje rakk å sjå på