meeting-2009-09-08
TTS-arbeidsplan
Prioritering:
- Preprosessering
- Ispedd andre ting
Lingvistikk
- tekst-til-ipa (fonologiske reglar) - forbetringar
- modell av samisk prosodi (diskuter med Patrik)
- forbetringar av taggaren for å matsje prosodimodellen
- Diskutere prosodi med Helsingfors
- Snakk med Patrik om kva vi vil ha
Preprosessering
Konvertering av ulike slags forkorta uttrykk til rein tekst, som deretter kan
- arabiske tal: sme-num.txt
-
cd gtsvn/gt/sme/src/
-
xfst -e "read lexc sme-num.txt"
-
up
-
234
-
http://www.stanford.edu/~laurik/fsmbook/examples/NumbersToNumerals.html
-
cd gtsvn/gt/sme/src/
- romartal: ser ut til at det ikkje er dekka
- det finst fst-ar ferdig for romartal til arabisk
-
http://dingo.sbs.arizona.edu/~sandiway/ling538-08/lecture18.pdf
- det finst fst-ar ferdig for romartal til arabisk
- forkortingar: ikkje dekka
- datoar: delvis dekka
- common/src/num.txt gjev datotagging
- Neste skritt er dato-til-ord (ikkje gjort)
- B-Á: skriv oppsett for dato-til-ord, som vi kan formalisere ut i frå
- common/src/num.txt gjev datotagging
- klokkeslett: clock-sme.lexc 12: 35 -> ord
- titlar: ikkje dekka (er ikkje dette forkortingar? ja, truleg)
- ukjende namn, inkl namn med boktavar som ligg utanfor dei nordiske alfabeta
Kasusbøying av taluttrykk som del av ein kasusbøygd frase/NP
cd gtsvn/gt/common/src/ xfst -e "read lexc num.txt" save num.fst lookup num.fst 12.12.1234
Andre talformat
6,50 seks-femti kuus-ja-viiskymmentä 12 23 23 77644000 => 77 64 40 00 linjetelefon initial 2, 3, 6, 7, 8 95500234 => 955 00 234 mobil initial 4, 5, 9 12345678 => 12 345 678,- NOK/€ 12.345.678 => 12 345 678,- NOK/€
fst for desse og andre talformat
Arbeidsoppgåver
Børre:
- Sett opp dokumentasjonsinfrastruktur for tts
B-Á ser på:
- eksisterande kode:
- gt/common/src/num.txt
- gt/sme/src/sme-num.txt
- gt/common/src/num.txt
- kompiler og vurder og sjekk om det finst andre ting også
- fsmbook.com
- skriv kvasikode på det som manglar
- skriv preprosesserings-dokumentasjon inn i doku-ramma
B-Á, T, S:
- skriv automatar ut i frå kvasikode
Informantar
- Mannleg røyst -- Per K. Hætta?
- B-Á: snakk med han / NRK?
Samarbeid
- Sjur, deretter alle.
Andre samiske språk?
I kor stor grad skal vi ha med dei andre språka frå starten av
- Preprosessering på sma, smj parallelt med sme-arbeidet
- Først gjere sme (prøve og feile)
- Deretter gjere sma, smj (før vi gløymer korleis vi gjorde sme)
- Først gjere sme (prøve og feile)
- Ferdige opptak av alle tre språk
- Lage tekstar
- Finne folk til å lese inn
- Lage tekstar
- Tekst-til-IPA
-
Berit Ánne, Thomas, Patrik, Trond, Bruce, lulesame (mest mogleg Bruce)
-
Berit Ánne, Thomas, Patrik, Trond, Ove, sørsame (mest mogleg Ove)
- Manuelt setje inn pausemerke i tekstane til lydbanda
-
Berit Ánne, Thomas, Patrik, Trond, Bruce, lulesame (mest mogleg Bruce)