Meeting_2017-09-15
Sjur og Trond-møte 15.9. 2017
Saksliste
- Grammatikkontroll-dokumentasjon
- TTS
- Möterommet
- Korpusinnsamling- og möte
- Neste divvunveke
- Bz
Grammatikkontroll-dokumentasjon
- installer divvun-gramcheck via github (problem, berre delvis løyst i lag
- konfigurer med linja i grammarchecker.cg3
- kompiler
- korleis installere cg-mode i emacs og teste den
Prosjektdokumentasjon i techdoc/proof/gramcheck/, jf nettsida:
Trond legg inn notatar her langs vegen, Sjur dokumenterer når støvet har lagt seg.
Vi vil generalisere det grafiske testgrensesnittet til fleire språk.
TTS
TTS på sidene våre
- vi vil ha TTS på sidene våre (jf. MT på giellatekno.uit.no)
- TTS-lim-inn-tekst (BÁ har skrivekurs) - finst på Acapella sine sider, men:
- berre den eine røysta tilgjengeleg
- kan ikkje regulera lesefart
- vi må sjølv kunna demonstrera vårt eige produkt
- berre den eine røysta tilgjengeleg
- Framover: TTS i NDS og TTS i icall (vi er ikkje der enno)
Installering
- det var problematisk med installering på studentmaskiner
Trond skriv e-post til BÁ og Sjur.
Android og iPhone
Kan inkludera stemmene våre i appar, kan ikkje brukast i Siri osb. Det er
Møterommet
Korleis kan vi få saka vidare?
-
Sjur reinteiknar notatane våre + forklaringar
- Trond tar det vidare på universitetet
Sjur har eit utkast om 14 dagar.
Korpusinnsamling og -møte
Liste over ting å følgje opp:
- tråling (Børre) + også forhandle om å få .doc i staden for .pdf
- pdf-henting (Giellatekno)
- Sametinget og kontraktar
- konvertering (oppfølgjingsmøte om aktuelle problem)
- parallellisering
- språkattkjenning
- Vi treng å evaluere (ny) programvare,
- Alternativ til text_cat: jf. lysark frå Dublin + Jauhiainen x2
- Trond diskuterer dette med Ciprian
- Vi treng å evaluere (ny) programvare,
Trond diskuterer med Gt, Sjur med Divvun, vi tar møte over nettet
Neste divvunveke
- Første veka i oktober (2.10.-6.10)
- Neste divvunveke ssv. 44 eller 45.
- Trond diskuterer med ungararane om Divvun-evaluering, om FinUgReVita-folket kan kome hit.
Bz
Vi følgjer opp dei opne Bz-ane.
Andre saker
Eenaresamisk stavekontrolltesting
Det er tre alternativ for modularisert testing av stavekontrollen
multiple byggekatalogar
smn/src smn/src/devtools/ smn/bygg/stavekontroll/ (a) <--- den vanlege smn/bygg/stavekontroll-modifisert/ (b) <-- ein variant ... ad lib smn/bygg/stavekontroll-modifisert_med_dato/ (c) <-- ein variant ... ad lib smn/bygg/mt (ikkje poeng her) lik kjelde, ulik config
Skilnaden ligg ikkje i konfigureringa, men i kjeldefilene.
I dette tilfellet:
- tools/speller/fstbased/desktop/hfst(a)
- tools/speller/fstbased/desktop/hfst(b) (t.d. utan framleggstilpasnin)
Denne passar best der skilnaden er i config-oppsettet, og ikkje der
Multiple smn-katalogar
Sjekke ut fleire smn-katalogar:
- smn_a
- smn_b
Dette kan ikkje sjekke inn ulike kjeldefiler (dei vil overstyre kvarandre), men
Ulike greiner
i $HOME:
svn co http://gtsvn.uit.no/langtech/branches/langs/smn branches/langs/smn_a
Denne er best der skilnaden er i kjeldefilene, her kan eg ha fleire parallelle kjeldefiler,
Trond prøver seg fram.
Munchs skrik
Jf. http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2401
Denne har vorte liggande.
Trond har 3 framlegg (jf. buggen), Sjur kjem med eit fjerde, og skriv i Bz.
Kompilering av sme
Dette er ei feilmelding, som har vore der ein del dagar
Resten av møtereferatet er debugging
HINTRSCT generator-raw-gt-desc.tmp1.hfst /usr/local/bin/hfst-compose-intersect: warning: Found output multi-char symbols ("any") in transducer in file <stdin> which are not found on the input tapes of transducers in file phonology/sme-phon.rev.hfst.
Den liknar på tilsvarande feil i Apertium.
Her er det ein reell feil.
Spörmsål:
- Har vi det berre for sme (svar: vi har den ikkje i sma)
- Har vi noko symptom ut over feilmeldinga?
- Har vi ei tilsvarande feilmelding for xfst?
- Får brukarar med eldre hfst-kompilator same feil?
- Korleis ser symbolet "any" ut?
- Kva gjev kommandoen "print symbols"
hfst:
arc symbols actually seen in transducer: ... £, §, ©, «, «7, , ®, °, ±, ², ³, ´, ¶, ·, ¹, », »7, ¼, ½, ¾, ¿, Á, Ä, Å, Æ, Ç, É, Í, Ò, Ó, Ö, Ø, Ü, Þ, à, á, â, ã, ä, å, æ, ç, è, é, ê, ë, í, î, ï, ð, ñ, ò, ó, ô, õ, ö, ø, ù, ú, û, ü, ý, Č, č, Đ, đ, ł, Ŋ, ŋ, ō, Š, š, Ŧ, ŧ, Ž, ž, ́, ̈, ̌, ·, ‐, ‒, –, —, ―, ‘, ’, “, ”, „, •, …, ‹, ›, €, √, ≈, ◊, ●, ❡,
root.lexc 14.9.:
tf-hsl-m0016:sme ttr000$ grep any src/morphology/root.lexc ! (at your option) any later version. The GNU General Public License !! be used alone, but can appear in any position !! If unmarked, any position goes. !! # any untagged word is pronounced with SME orthographic conventions
xfst 14.9. og 15.9.:
- -rw-r--r-- 1 ttr000 1907360568 4147443 14 sep 13: 09 src/analyser-gt-desc.xfst (ingen any i sigma)
- -rw-r--r-- 1 ttr000 1907360568 4209186 15 sep 12: 20 src/analyser-gt-desc.xfst (any i sigm)
14.9.
Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z ž " " ! %" # $ "%" & ' ( ) * + +A +ABBR +ACR +Acc +Actio +Adv
15.9.
xfst[1]: print sigma Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a any á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z
Med tidsvindauget på plass (23 timar) fann Sjur feilen, og den skuldige (seg sjølv : -) ):
Modified: trunk/langs/sme/src/morphology/root.lexc =================================================================== --- trunk/langs/sme/src/morphology/root.lexc 2017-09-14 14:57:10 UTC (rev 157050) +++ trunk/langs/sme/src/morphology/root.lexc 2017-09-14 16:59:44 UTC (rev 157051) @@ -326,6 +326,8 @@ +Cmp/Hyph !!≈ * __@CODE@__ - on dynamic compounds that have a hyphen +Cmp/NoHyph !!≈ * __@CODE@__ - On compounds that COULD have had a hyphen (and usually have), but doesn't +Cmp/SoftHyph !!≈ * __@CODE@__ - Tags compounds containing SOFT HYPHENS (U+00AD) + +Cmp/Cit !!≈ * __@CODE@__ - Tags citation compounds, which can in principle + cover any word. Requires a hyphen.