meeting-2012-02-08
Talesynteseprosjektet
Tilstede:
- Sjur Nørstebø Moshagen
- Joseph Fjellgren
- Tomi Pieski
- Børre Gaup,
- Berit Anne Bals Baal (via iChat)
- Lisa Monica Aslaksen.
Sted: Alta
Talesyntese
Oppsummering over arbeid hittil
- Opptak av mannlig og kvinnelig stemme - Ferdigstilt
- Mer enn 2,5 timer tale pr stemme, og mer enn nok setninger
- Sendt prøver til Helsingfors Universitet, de har godkjent kvaliteten
- Jobbet med fonologiske regler for å lage IPA-transkripsjon. Fungererer stort
- Vi har allerede konvertering fra tall til tekst, nemlig dato, klokkeslett og enkelttall.
Videre jobb
- Rette tekstene, slik at de samsvarer med det som faktisk ble lest opp
- Dele lydmaterialet, slik at det er en fil per setning.
- Dele tekstmaterialet tilsvarende, med samme filnavn som for lydfilene
- gjøre ferdig preprosessering:
- Klargjøre akronymer og forkortelser for lydskrift
- konvertere dato og andre talluttrykk til tekst
- Klargjøre akronymer og forkortelser for lydskrift
- transkribere tekst til IPA med preprosesseringsmodulene
- Rette på transkripsjon der det er nødvendig
En underleverandør syr dette sammen til en pakke som kan lastes ned og brukes
Sjur har begynt å lage en kravspesifikasjon.
Prosjektleder sørger for at tidsfrister og lignende holdes.
Prosjektet har blitt finansiert av restpenger fra Divvun og har blitt jobbet med
Tidsfrist for ferdigstilling: slutten av 2012
- Mye arbeid med kravspesifikasjon og anbudsrunder gjenstår.
- Få en avtale med en leverandør til sommeren.
- Berit Annes del blir ferdig i løpet av i år.
- Finne underleverandør og få alt på plass vil ta mest tid.
Preprosessering
Det meste er enkelt, og allerede på plass. Problemområder som krever mer avanserte løsninger er:
- disambiguering av lengdeopposisjoner som ikke kan avledes direkte av ortografien.
- identifisering av kasus ved talluttrykk der kasus ikke er uttrykt i ortografien
Det finnes to alternativ:
Regelbasert preprosessering
Bruke constraint grammar for å velge rett lengde på vokal:
- Transduser tar vanlig tekst inn, og lager morfologisk analyse
- analysen gis til constraint grammar for å disambiguere innkommende tekst.
- Resultatet herfra sendes inn i en ny transduser som lager IPA.
Fordeler:
- vi får korrekt håndtering av lengde i alle situasjoner
- vi kan bruke CG til å legge til mer informasjon som gir bedre prosodi
Ulemper:
- et mer komplekst system
- avstanden mellom ortografiske inndata og IPA-utdata er stor, vi risikerer at
- håndteringen av ukjente ord kan bli mer problematisk
Statistisk preprosessering
- all konvertering til IPA skjer i en transduser, inkl. konvertering fra tall til tekst
- ved flertydige konverteringer disambiguerer man med en statistisk modell
- modellen krever at den trenes på et manuelt disambiguert korpus
Fordeler:
- relativt enkelt oppsett
- det er en enkel sti fra ortografiske inndata til IPA-tekst, som vil gjøre systemet
Ulemper:
- den statistiske modellen vil av og til ta feil, og vi vil få feilsyntese (det
- det finnes ikke rom for å bygge ut syntesen med mer avansert modulering av
Tekniske krav
- eksisterende ressurser skal brukes så langt som mulig
- mest mulig åpen kildekode
- HFST som transduser-teknologi
- kun binære bibliotek i runtime-pakken - ikke Perl eller andre skript-språk
- ... som betyr at segmentering, preprosessering og inndeling i setninger må
- ... som betyr at segmentering, preprosessering og inndeling i setninger må