meeting-2013-09-09

TTS-møte

Saker:

  • (over)lange vokalar (og konsonantar)
  • Trykkplassering
  • andre problemsekvensar
  • fonetisk leksikon - innhald
  • andre saker
  • Neste møte

(over)lange vokalar (og konsonantar)

Forslag til pseudokode:

([^X]) X X => $1 X :
where X in (e i o u y m n ...);

Gjenta ad lib

TILTAK:

  • omformulera pseudokoden til xfst-kode (Sjur)

Trykkplassering

Problem: både manglande generering og feilplassering av trykk.

Feilplasseringar:

  • trykkplassering ved trestava takter før ordgrense - ordgrensa er ikkje synleg for regelen, og han lagar ei einstava tak rett før ordgrensa
    • gask#gas^ka#oap^me#gea^va^han^vi^đá kˈɑsk#kˌɑsː.kɑ#ˌŏɑp.me#kˌeæ.vɑ.hˌɑnː.vi.ðɑː
    • Áil^lo^haš-rohk^ke^vi^đá ˈɑːjl.lo.hɑʃ-rˌohː.ke.vi.ðɑː

Døme på feil trykkplassering utan ordgrense:

bo^ra^dan^bod^du	pˈo.rɑː.ðˌɑn.bodː.tu
bo^ra^dan#bod^du	pˈo.rɑː.ðˌɑn#pˌodː.tu
vs:
bo^ra^dan#bod^du	pˈo.rɑː.ðɑn#pˌodː.tu:  <== korrekt

Trykkplassering ved derivasjonar

háldda+hus+laš - ingen sekundærtrykk!!!

Regel ved derivasjonar: ingen trykk ved derivasjonar på éi staving. Slike derivasjonar får sekundærtrykk ved bøying som gjev dei to stavingar, og dei dannar då ein ny fot. Derivasjonar på to stavingar startar alltid ein ny fot/ei ny takt.

For å få til dette må vi ha symbola for bøyings- og derivasjonsgrenser tilgjengelege for ipa-konverteringa.

  • ord med trykkmønster 1-2-0, dvs sekundærtrykk rett etter hovudtrykk:
    • samiske arveord ((historisk) samansette ord med einstava fyresteledd):
      • máilbmi, mielbealde, oambealli
    • låneord med trykk i andre staving:
      • kapihtal, musihkar

TILTAK:

  • leggja til derivasjonsgrenser (og bøyingsgrenser) i tts-fst-en (Sjur)
  • skriva om trykkplasseringsreglane til å ta omsyn til derivasjonsgrenser ()
  • skriva om trykkplasseringsreglane til å ta omsyn til etterfylgjande ordgrense (Sjur)

andre problemsekvensar

  • bindestrek blir ikkje fjerna
  • manglande final lang vokal: boddu -> pˌodː.tuː

TILTAK:

  • ser på desse

fonetisk leksikon - innhald

  • ikkje låneord (dvs ord med "feil" ortografi)
    • kva med norske, svenske og finske namn? Andre namn?
  • ikkje bindestreksord
  • ikkje arabiske og romerske tal

TILTAK:

  • Sjur spør Acapela meir om låneord og namn.

Andre saker

  • Ikkje høyrt noko frå Patrik enno
  • ... men det er ok for SD at han jobbar i prosjektet
  • forkortingar som er underforstått kasusbøygde (dvs med kasus i tale) men der kasus ikkje blir uttrrykt i skrift. Typisk b. i tidsuttrykk, men kanskje andre òg. Slike forkortingar må identifiserast, og vi må finna ei løysing på korleis dei kan konverterast korrekt til ipa, dvs. slik at den ekspanderte forma har rett kasus.

Døme:

Guovvamánu 4.-6.b. --> Guovvamánu njealját beaivvis guđát beaivái
Sáhtát go boahtit guovvamánu 4. beaivvi --> njealját (+Nom)
Sáhtát go boahtit 4. --> sáhtát go boahtit njealjádis? (+Lok)
Mii fertet geargat 4. --> geargat njealjádii (+Ill) = ferdig til den fjerde (pres.)
                      --> geargat njealjádis (+Lok) = ferdig (på) den fjerde (pret.)

Kva for ein av dei to siste over vil kunna variera. Default blir valt etter tempus slik det er indikert over. Default kan overstyrast ved å skriva ut kasus eksplisitt på talet:

4.:i
4.:s

TILTAK:

  • vi må sjekka at vi har korpus som gjer det mogleg å identifisera rett kasus for eit statistisk system
    • blir kasus tagga ved talord? Sjur spør Trond og Lene

Neste møte

Onsdag kl. 9.30 - med Joseph?