meeting-2011-05-30
Talesyntese
Norsk minitalesyntese
Bør bli inkludert for å få rimeleg god opplesing av norske sitat og andre norske tekstfragment og norske namn inne i samiske tekstar.
- språkgjenkjenning <==== VI? Ja (hm, det vi har er perl-basert, funkar ikkje i ein runtime på ein PC)
- integrera norsk ort2fon
- vi treng eit passande korpus
- finst det ferdige ressursar for alt bortsett frå opptak? -> språkbanken
- kva då med integreringa med resten av systemet? den norske ort2ipa-delen burde kunna vera ein svart boks
Testverkty
- få verkty for å produsera syntese frå H.fors? Ev. få dei til å generera stemmen for oss
Dette treng vi for å sjekka at alle dei ulike delane av preprossesseringa blir rett.
- pause og ytringsfinale endringar framfor pause (t.d. t vs h av '-id')
- talordskonvertering til tekst:
- svært kontekstavhengig: 2-3 - 'to-til-tre', 'to minus tre' eller '(dei tapte) to tre'?
- kan med fordel bruka disambiguering før tal-til-tekst-konvertering
- svært kontekstavhengig: 2-3 - 'to-til-tre', 'to minus tre' eller '(dei tapte) to tre'?
Preprosessering, forslag til oppbygging med fst + cg:
- morfologisk analyse
- disambiguering (m.a. kasus på tal, rett grunnform (korte vs lange vokalar andre enn a), osb)
- må gje berre ein analyse til slutt, slik at vi berre har éin analyse å generera ut i frå
- må handtera ukjende ord "rimeleg", dvs slik at vi får ein sannsynleg analyse
- heilt ukjende ord: berre sleppa dei gjennom, og lata ein generell tekst-til-IPA-konverterar gjera alt
- ukjende ord med noko som liknar kasusending: regelbaset konvertering av endinga
- heilt ukjende ord: berre sleppa dei gjennom, og lata ein generell tekst-til-IPA-konverterar gjera alt
- må gje berre ein analyse til slutt, slik at vi berre har éin analyse å generera ut i frå
- (konvertera alle forkorta uttrykk til tekst med basis i analysert versjon)
- generera IPA frå grunnform + analyse (her kan vi truleg gå rett frå forkorta uttrykk og sifferuttrykk til IPA)
Tilgang til grunnform (via generering) vil rydda opp mykje når det gjeld vokal- og konsonantlengde.
Ein annan fordel med modellen over: den genererande transduceren kan gå frå leksikalsk abstrakt form (lexc lower) til ein IPA-twolc, som gjer at vi har tilgang til visse lengdesymbol og andre diakritika som elles forsvinn i transducerkompileringa. Det vil gjera det lettare for oss å skriva gode IPA-reglar
Ein tredje fordel er at ved å tagga ulike dialektvariantar (t.d. Loc/s vs Loc/n) og velja ein av dei i genereringa kan vi lata syntesen produsera ulike (morfologiske) dialektformer. Dersom ein i tillegg kan variera ulike parameter i HMM-syntesen, burde det vera råd å heilt syntetisera dei viktigaste dialektane ut i frå ein syntese. Eit interessant sp.m. i alle fall - og kan gjera syntesen til eit forskingsverkty for dialektforskarane: )
Ukjende ord: må handterast for seg både ved analyse og generering/ipa-konvertering. Obs! Norske ord med samiske kasusendingar (namn og in situ-lån)
Kor kjem pausesymbol, prosodimarkørar m.m. inn i modellen? Truleg som ein del av disambigueringa - siste VISLCG3 kan leggja til heile kohortar (og lemma?), slik at vi kan skyta inn (abstrakte) symbol for å markera ulike prosodiske element, som deretter kan konverterast (via genereringa) til passande IPA-symbol.