170327

Samest meeting 27.03.2017

Participants: Heiki, Heli, Jaak, Jack, Sjur, Trond

Agenda:

  • ICALL
    • status
    • papers
  • FSTs
    • status
    • papers
  • MT
    • status
    • papers
  • documentation
  • Next meeting

ICALL

  • status - no progress
  • papers - in progress (paper about Võro Oahpa to Nodalida workshop)

FSTs

Status

  • est: Jaak has been fixing bugs.
  • vro: Sulev is separating adjectives from nouns.

Tag mismatch between languages:

fin:
minä        minä+Pron+Pers+Sg1+Nom

sme:
mon         mun+Pron+Pers+Sg1+Nom

est:
mina        mina+Pron+Pers+Emph+Sg1+Nom
ma          mina+Pron+Pers+Sg1+Nom

exp-est:
mina        mina+Pron+Sg+Nom+Emph
ma          mina+Pron+Pers+Sg+Nom
    echo mina | huest
mina    mi+N+Sg+Ess     0,000000
mina    mi+N+Sg+Gen#na+Adv      0,000000
mina    mi+N+Sg+Nom#na+Adv      0,000000
mina    mina+N+Sg+Gen   0,000000
mina    mina+N+Sg+Nom   0,000000
mina    mina+N+Sg+Par   0,000000
mina    mina+Pron+Pers+Emph+Sg1+Nom     0,000000

Should be fixed in fst/lexc or somewhere else? (we'll find out what Tiina thinks of it)

Currently in apertium:

echo 'mina' | apertium -d . est-fin-morph
^mina/mina<prn><pers><p1><sg><nom><use_ng>
echo 'ma' | apertium -d . est-fin-morph
^ma/mina<prn><pers><p1><sg><nom>

experiment-langs/est:
echo 'mina' | hfst-lookup analyser-gt-desc.hfstol 
> mina        mina+N+Sg+Gen        0,000000
mina        mina+N+Sg+Nom        0,000000
mina        mina+N+Sg+Par        0,000000
mina        mina+Pron+Sg+Nom+Emph        0,000000

tag reordering script: experiment-langs/est/filters/reorder-tags.est.xfscript

MT

status

http://gtweb.uit.no/tolkimine

The webpage is still down (Trond to look into this)

Input:

1        KUS JAAKKO ON?
2        Jaakko ja Mari on aias. Ilm on täna hea, on väga sooja. Aga eile oli väga külma! Siis nad ei #tohtima mängida väljas. Jaakko ja Mari #pidama väga #mängima, nad mängivad alati ühes aias suure maja ees.
3         Jaakko on väike poiss ja ta on kuus aastat vana. Väike tüdruk on ta  õed, ta on viis aastat vana. Jaakkol on väike koer, ka koer on nüüd  aias. Koerast on meeldivat mängida nende kahe lapsega. Koer on väga  õnnelik nüüd.
4        kas On ka Maril koer? Ei, Maril ei ole koera, tal on kass. Aga kass on majas, kass on magamas.

Output:

1        #MISSÄ ON *JAMES?
2         *James ja *Mary on aidassa. Tänään ovat erittäin kaunis sää, on  erittäin lämmin. Entä eilen oli erittäin kylmä! He eivät saaneet siis  välissä pelata. *James ja *Mary pitävät pelata, he pelaavat alati mukana  aidassa, mikä sijaitsee ison talon edessä.
3        *James ovat #pikku poika ja hän on kuuden-vuotias. #Pikku tyttö on #hän  sisar, hän on viiden-vuotias. *Jamesil ovat pieni koira, myös koira on  aidassa. Koiralle tykkää lapsien kanssa pelata. Koira on nyt erittäin  iloinen.
4         *Maryl onko myös koira? Ei, *Maryl ei ole koiraa, hänellä on kissa. Entä kissa on talossa, hän nukkuu.

It was created by apertium-fin-est configure 0.1.0, which was generated by GNU Autoconf 2.69. Invocation command line was

  $ ./configure --with-lang1=/Users/ttr000/main/langs/fin/tools/mt/apertium --with-lang2=/Users/ttr000/main/langs/est/tools/mt/apertium

Compounds not working

echo "Tämä on pöytätapahtuma"|apertium -d. fin-est
See on laud juhtumus

echo "Tämä on pöytätapahtuma"|apertium -d. fin-sme
Dát lea beavdi dáhpáhus

echo "Dat lea beavdedáhpahus"|apertium -d. sme-nob
Det er en bordhendelse

echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn
Tot lii pevditábáhtus

The answer to this is probably found in different treatments of compounds in the different languages.

These are the first steps for fin-est translation: cat modes/fin-est.mode

      
     hfst-proc --weight-classes 1 -w -e  '/home/hkaalep/apertium/apertium-fin-est/fin-est.automorf.hfst' |  cg-proc -w -1 -n  '/home/hkaalep/apertium/apertium-fin-est/fin-est.rlx.bin' | 
    apertium-pretransfer   <-- this substitutes + with space
    | lt-proc -b '/home/hkaalep/apertium/apertium-fin-est/fin-est.autobil.bin'

Lexical selection

    <e r="RL"><p><l>yritys<s    n="n"/></l><r>katse<s    n="n"/></r></p></e>
==> <e       ><p><l>yritys<s    n="n"/></l><r>üritus<s   n="n"/></r></p></e>
==> <e       ><p><l>tapahtuma<s n="n"/></l><r>üritus<s   n="n"/></r></p></e>
    <e r="RL"><p><l>yritys<s    n="n"/></l><r>ettevõte<s n="n"/></r></p></e>
    <e       ><p><l>tapahtuma<s n="n"/></l><r>juhtumus<s n="n"/></r></p></e>

    <e       ><p><l>tapaus<s    n="n"/></l><r>juhtum<s n="n"/></r></p></e>
    <e r="RL"><p><l>tapahtuma<s n="n"/></l><r>juhtumus<s n="n"/></r></p></e>

    <e><p><l>äiti<s n="n"/></l><r>ema<s n="n"/></r></p></e>
     <e><p><l>emo<s  n="n"/></l><r>ema<s  n="n"/></r></p></e>  this is for .lrx file
    

cat apertium-fin-est.fin-est.dix|cut -d">" -f4-|cut -d"<" -f1|sort|uniq -c|sort -nr|l

Three conclusions:

  1. most (much) of the work can/should be done in the bidix, and does not need to go to .lrx
  2. There is much to be done in bidix
  3. As for .lrx, we still have no examples (!)
    <e><p><l>typerys<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
    <e><p><l>pöljä<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
    <e><p><l>nuija<s n="n"/></l><r>idioot<s n="n"/></r></p></e>  <=====
    <e><p><l>idiootti<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
    <e><p><l>toope<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
    <e><p><l>tollo<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
    <e><p><l>nynnerö<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
    <e><p><l>nörtti<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
    <e><p><l>dorka<s n="n"/></l><r>idioot<s n="n"/></r></p></e>

What we get for idioot is nuija, perhaps not the first choice.

   9 typerys
   8 huijari
   7 hakea
   7 aukko
   6 pieni
   6 hölmö
   5 vapaa
   5 valtava
   5 usein
   5 tuhoisa
   5 runsaasti
   5 pahantekijä
   5 oma
   5 nopeasti
   5 merkittävä
   5 loppu
   5 laittaa
   5 kohta
   5 kihara
   5 kamala
   5 iloinen
   5 huomaamaton
   4 ymmärrettävä
   4 yli
   4 yhteensopimattomuus
   4 yhdessä
   4 vanhanaikainen
   4 tupsu
   4 tunteeton
   4 toistuva
   4 tarpeettomasti
   4 tahditon
   4 sopimattomuus
   4 siunata
   4 selkeys
   4 sattua
   4 rosvo
   4 roska
   4 puute
   4 palkkio
   4 paha
   4 omaelämäkerrallinen
   4 oleva
   4 niukka
   4 nerokas
   4 luomi
   4 lumoava
   4 luiseva
   4 laittomasti
   4 köyhyys
   4 käsittämätön

===

   9 õudne
   9 idioot
   8 kohutav
   7 tänavaprostituut
   7 puupea
   7 pannkook
   6 ümber
   6 vanaisa
   6 täpselt
   6 suurepärane
   6 lustlik
   6 kui
   6 koos
   6 kaitse
   6 enne
   5 üles
   5 üle
   5 üks
   5 ära
   5 või
   5 vanaema
   5 ullike
   5 tüdruk
   5 tundetu
   5 tugev
   5 tualettruum
   5 tobu
   5 siis
   5 semu
   5 sarnane
   5 saatanlik
   5 ring
   5 rikkus
   5 rahumeelne
   5 loll
   5 küürakas
   5 külg
   5 kroon
   5 kohanemine
   5 issi
   4 õnnelik
   4 viimane
   4 vastik
   4 vastane
   4 vahva
   4 tutt
   4 tore
   4 tee
   4 tagasi
   4 suupiste
   4 seal
tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn
Tot lii pevditábáhtus

tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-postchunk
^Tot<prn><dem><sg><nom>$  ^leđe<vblex><indic><pres><p3><sg>$  ^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$^.<sent>$

tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-interchunk3
apertium-interchunk:  Rule 1  Prn<NP><@SUBJ^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$   ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$   ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$

tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-interchunk2
^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$   ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$   ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$

tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-interchunk1
^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$   ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$   ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$

tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-chunker
apertium-transfer:  Rule 1  Dat<prn><dem><sg><nom><@SUBJ^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$   ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$   ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$

tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-biltrans
^Dat<prn><dem><sg><nom><@SUBJ→>/Tot<prn><dem><sg><nom><@SUBJ→>$   ^leat<vblex><iv><indic><pres><p3><sg><@+FMAINV>/leđe<vblex><indic><pres><p3><sg><@+FMAINV>$   ^beavdi<n><sem_furn><cmp_sgnom><cmp>/pevdi<n><sem_furn><cmp_sgnom><cmp>$   ^dáhpáhus<n><sem_event><sg><nom><@←SPRED>/tábáhtus<n><sem_event><sg><nom><@←SPRED>$^.<sent>/.<sent>$

tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-morph
^Dat/dat<prn><dem><pl><nom>/dat<prn><dem><sg><nom>$   ^lea/leat<vblex><iv><indic><pres><p3><sg>$   ^beavdedáhpahus/beavdi<n><cmp_sgnom><cmp>+dáhpáhus<n><sem_event><sg><nom>/beavdi<n><cmp_sgnom><cmp>+dáhpáhus<n><sg><nom>/beavdi<n><sem_furn><cmp_sgnom><cmp>+dáhpáhus<n><sem_event><sg><nom>/beavdi<n><sem_furn><cmp_sgnom><cmp>+dáhpáhus<n><sg><nom>$^./.<sent>$

Papers

  1. Find some useful aspect of the mt system
    1. externally: for users
    2. internally: it told us something about something
  2. Write about it

Are these two questions related in any way?

  1. What is the biggest problem in an est<->fin MT system
  2. What is the biggest lingustic difference between est and fin?

One problem: possessive suffixes to pers pronouns;

  1. move to the front of the noun phrase
    challenge: where is the front anyway
  2. is the translation a pers pronoun, or "oma"?
    this presupposes an analysis of the reflexive binding in the fin sentence you have to find the person of the finite verb; currently it works if the verb is somewhere before the pronoun...
  
 e "Pekka pesi autonsa."|apertium -d. fin-est
#Mats pesi oma autod.

Also: autosi -> su autod

H-J and Trond to meet

Documentation

Links:

/lang/common/MorphologicalTags.html

Võro meetings are here: http://giellatekno.uit.no/ped/vro-oahpa.html A relative link? /ped/vro-oahpa.html

The samest documentation page is here: http://giellatekno.uit.no/ped/samest/Samest.html

Add a link to experiment-langs/est/ as well.

Heli will do that.

Next meeting

Monday, April 10, 11:00 Norwegian time