meeting-2011-05-30

Talesyntese

Norsk minitalesyntese

Bør bli inkludert for å få rimeleg god opplesing av norske sitat og andre norske tekstfragment og norske namn inne i samiske tekstar.

  • språkgjenkjenning <==== VI? Ja (hm, det vi har er perl-basert, funkar ikkje i ein runtime på ein PC)
  • integrera norsk ort2fon
  • vi treng eit passande korpus
  • finst det ferdige ressursar for alt bortsett frå opptak? -> språkbanken
    • kva då med integreringa med resten av systemet? den norske ort2ipa-delen burde kunna vera ein svart boks

Testverkty

  • få verkty for å produsera syntese frå H.fors? Ev. få dei til å generera stemmen for oss

Dette treng vi for å sjekka at alle dei ulike delane av preprossesseringa blir rett.

  • pause og ytringsfinale endringar framfor pause (t.d. t vs h av '-id')
  • talordskonvertering til tekst:
    • svært kontekstavhengig: 2-3 - 'to-til-tre', 'to minus tre' eller '(dei tapte) to tre'?
    • kan med fordel bruka disambiguering før tal-til-tekst-konvertering

Preprosessering, forslag til oppbygging med fst + cg:

  1. morfologisk analyse
  2. disambiguering (m.a. kasus på tal, rett grunnform (korte vs lange vokalar andre enn a), osb)
    1. må gje berre ein analyse til slutt, slik at vi berre har éin analyse å generera ut i frå
    2. må handtera ukjende ord "rimeleg", dvs slik at vi får ein sannsynleg analyse
      1. heilt ukjende ord: berre sleppa dei gjennom, og lata ein generell tekst-til-IPA-konverterar gjera alt
      2. ukjende ord med noko som liknar kasusending: regelbaset konvertering av endinga
  3. (konvertera alle forkorta uttrykk til tekst med basis i analysert versjon)
  4. generera IPA frå grunnform + analyse (her kan vi truleg gå rett frå forkorta uttrykk og sifferuttrykk til IPA)

Tilgang til grunnform (via generering) vil rydda opp mykje når det gjeld vokal- og konsonantlengde.

Ein annan fordel med modellen over: den genererande transduceren kan gå frå leksikalsk abstrakt form (lexc lower) til ein IPA-twolc, som gjer at vi har tilgang til visse lengdesymbol og andre diakritika som elles forsvinn i transducerkompileringa. Det vil gjera det lettare for oss å skriva gode IPA-reglar

Ein tredje fordel er at ved å tagga ulike dialektvariantar (t.d. Loc/s vs Loc/n) og velja ein av dei i genereringa kan vi lata syntesen produsera ulike (morfologiske) dialektformer. Dersom ein i tillegg kan variera ulike parameter i HMM-syntesen, burde det vera råd å heilt syntetisera dei viktigaste dialektane ut i frå ein syntese. Eit interessant sp.m. i alle fall - og kan gjera syntesen til eit forskingsverkty for dialektforskarane: )

Ukjende ord: må handterast for seg både ved analyse og generering/ipa-konvertering. Obs! Norske ord med samiske kasusendingar (namn og in situ-lån)

Kor kjem pausesymbol, prosodimarkørar m.m. inn i modellen? Truleg som ein del av disambigueringa - siste VISLCG3 kan leggja til heile kohortar (og lemma?), slik at vi kan skyta inn (abstrakte) symbol for å markera ulike prosodiske element, som deretter kan konverterast (via genereringa) til passande IPA-symbol.