meeting-2009-09-08

TTS-arbeidsplan

Prioritering:

  1. Preprosessering
  2. Ispedd andre ting

Lingvistikk

  • tekst-til-ipa (fonologiske reglar) - forbetringar
  • modell av samisk prosodi (diskuter med Patrik)
  • forbetringar av taggaren for å matsje prosodimodellen
  • Diskutere prosodi med Helsingfors
  • Snakk med Patrik om kva vi vil ha

Preprosessering

Konvertering av ulike slags forkorta uttrykk til rein tekst, som deretter kan konverterast til ein fonologisk streng.

  • arabiske tal: sme-num.txt
  • romartal: ser ut til at det ikkje er dekka
  • forkortingar: ikkje dekka
  • datoar: delvis dekka
    • common/src/num.txt gjev datotagging
    • Neste skritt er dato-til-ord (ikkje gjort)
    • B-Á: skriv oppsett for dato-til-ord, som vi kan formalisere ut i frå
  • klokkeslett: clock-sme.lexc 12: 35 -> ord
  • titlar: ikkje dekka (er ikkje dette forkortingar? ja, truleg)
  • ukjende namn, inkl namn med boktavar som ligg utanfor dei nordiske alfabeta

Kasusbøying av taluttrykk som del av ein kasusbøygd frase/NP

cd gtsvn/gt/common/src/
xfst -e "read lexc num.txt"
save num.fst
lookup num.fst
12.12.1234

Andre talformat

6,50  seks-femti kuus-ja-viiskymmentä
12 23 23 

77644000 => 77 64 40 00 linjetelefon initial 2, 3, 6, 7, 8
95500234 => 955 00 234 mobil initial 4, 5, 9
12345678 => 12 345 678,- NOK/€
12.345.678 => 12 345 678,- NOK/€

fst for desse og andre talformat

Arbeidsoppgåver

Børre:

  • Sett opp dokumentasjonsinfrastruktur for tts

B-Á ser på:

  • eksisterande kode:
    • gt/common/src/num.txt
    • gt/sme/src/sme-num.txt
  • kompiler og vurder og sjekk om det finst andre ting også
  • fsmbook.com
  • skriv kvasikode på det som manglar
  • skriv preprosesserings-dokumentasjon inn i doku-ramma

B-Á, T, S:

  • skriv automatar ut i frå kvasikode

Informantar

  • Mannleg røyst -- Per K. Hætta?
    • B-Á: snakk med han / NRK?

Samarbeid

Ta kontakt med Helsingfors univ.

  • Sjur, deretter alle.

Andre samiske språk?

I kor stor grad skal vi ha med dei andre språka frå starten av

  • Preprosessering på sma, smj parallelt med sme-arbeidet
    • Først gjere sme (prøve og feile)
    • Deretter gjere sma, smj (før vi gløymer korleis vi gjorde sme)
  • Ferdige opptak av alle tre språk
    • Lage tekstar
    • Finne folk til å lese inn
  • Tekst-til-IPA
    • Berit Ánne, Thomas, Patrik, Trond, Bruce, lulesame (mest mogleg Bruce)
    • Berit Ánne, Thomas, Patrik, Trond, Ove, sørsame (mest mogleg Ove)
    • Manuelt setje inn pausemerke i tekstane til lydbanda