meeting-2010-11-11
TTS-møte
- handteringa av ukjende ord
- handteringa av namn og in-situ-lån frå norsk/svensk/finsk
- lengre sitat eller metatekst på majoritetsspråket inni ein samisk tekst (vil vi ha ein stemme som kan lesa slike tekstbitar med ein akseptabel uttale? eg trur det, og det krev arbeid)
- Tomi: expansion of abbreviations and numeral expressions
Tomi's work needs to be done only when the Divvun II work is done (the release is in only 4 weeks), but if time permits before that.
Handteringa av ukjende ord
Det finst ingen ukjende ord. Alt blir konvertert direkte frå løpande tekst til IPA, utan leksikon.
Burde vi bruka leksikonet? Nokre fordelar:
- uttaledistinksjonar som ikkje kjem fram i ortografien (visse geminat, vokallengde i fyrste staving) kan lettare handterast ved å byggja rett på nedsida av leksikonet/oppsida av twolc
- unnataksuttale ved namn osb kan kodast rett i leksikonet
- ved å skilja mellom kjende (leksikaliserte) og ukjende ord kan vi tilpassa handteringa av dei ukjende betre(?)
Steps to compile a lexicon-based text2IPA transducer:
- compile lexical transducer
- remove upper (analysis) side
- compile twolc transducer
- compose the two - interim result: lexical transducer with digraphs (X1 etc)
- compose this lexical transducer with an adjusted text2ipa transducer, where the X1's are used to guide the ipa rules
Handteringa av namn og in-situ-lån frå norsk/svensk/finsk
- når det står Berit, så les ein /beerit/ med norsk uttale
- tilsvarande for svensk og finsk for samar derifrå
- "Bergen" vil få norsk uttale i Noreg, og finsk uttale i Finland, truleg svensk uttale i Sverige.
- vi bør prøva å fylja etablert uttale, dvs bruka majoritetsspråket for ikkje-samiske namn
Svensk
Vi behandlar svensk som norsk, dvs med norsk uttale (dei er så like).
Finsk
- korte stavingar (norsk 'Kari' vs finsk 'Kari')
- meir artikulert uttale av /r/, andre fonem?
Eigentleg irrelevant - teksten bestemmer:
- nen-namn: Korhonen i gen.: Korhonena vs Korhosa
- det beste: innstilling for å velja den eine eller andre uttalen
- så lenge ein les opp tekst, er det teksten som bestemmer bøyinga av slike ord
- det beste: innstilling for å velja den eine eller andre uttalen
- kan vera relevant dersom teksten er syntetisert (maskinomsetjing, dialogsystem)
Lengre sitat eller metatekst på majoritetsspråket inni ein samisk tekst
Vi treng ein stemme som kan lesa slike tekstbitar med ein akseptabel uttale. Ideelt sett burde vi ha ein stemme pr majoritetsspråk, men det blir for mykje no. Så vi prøver å få til ein ok uttale med utgangspunkt i dei norske stemmene.
Den kvinnelege røysta har ein del vane med å prata svensk. Det kunne vera aktuelt å prøva å gjera opptak med svensk òg, dersom ho er villig.
Det er mogleg at den mannlege røysta kan finsk. Tilsvarande spørsmål til han.
Vi treng:
- norske (ev. sv og fi) tekstar
- norsk (sv, fi) tekst2ipa-reglar
- slike reglar bør det vera mogleg å finna anten på nettet eller i litteraturen
Expansion of abbreviations and numeral expressions
Abbreviations
jna. - ja nu ain
These should be expanded to their full text equivalent.
Numbers
- (covert) case handling
- genitive only (accusative is like nominative)
- but genitive is used in front of other cases (ill, loc)
- genitive only (accusative is like nominative)
Explicit case (123: s) should be easy
Acronyms
NRK: s
Covert cases do not have separate pronounciation? An : a to mark genitive is not compulsatory, so leaving it out is fine.
They need to be expanded letter by letter, and the last letter is case inflected as explicitly marked.
Longer acronyms are treated like words as long as there is a reasonable syllable structure (beware cases like RSFU, which does NOT have a syllable structure, and is thus pronounced letter by letter).
Disambiguation
Still open: where and how to fit disambiguation into the processing pipeline.