170327
Samest meeting 27.03.2017
Agenda:
- ICALL
- status
- papers
- status
- FSTs
- status
- papers
- status
- MT
- status
- papers
- status
- documentation
- Next meeting
ICALL
- status - no progress
- papers - in progress (paper about Võro Oahpa to Nodalida workshop)
FSTs
Status
- est: Jaak has been fixing bugs.
- vro: Sulev is separating adjectives from nouns.
Tag mismatch between languages:
fin: minä minä+Pron+Pers+Sg1+Nom sme: mon mun+Pron+Pers+Sg1+Nom est: mina mina+Pron+Pers+Emph+Sg1+Nom ma mina+Pron+Pers+Sg1+Nom exp-est: mina mina+Pron+Sg+Nom+Emph ma mina+Pron+Pers+Sg+Nom
echo mina | huest mina mi+N+Sg+Ess 0,000000 mina mi+N+Sg+Gen#na+Adv 0,000000 mina mi+N+Sg+Nom#na+Adv 0,000000 mina mina+N+Sg+Gen 0,000000 mina mina+N+Sg+Nom 0,000000 mina mina+N+Sg+Par 0,000000 mina mina+Pron+Pers+Emph+Sg1+Nom 0,000000
Should be fixed in fst/lexc or somewhere else?
Currently in apertium:
echo 'mina' | apertium -d . est-fin-morph ^mina/mina<prn><pers><p1><sg><nom><use_ng> echo 'ma' | apertium -d . est-fin-morph ^ma/mina<prn><pers><p1><sg><nom> experiment-langs/est: echo 'mina' | hfst-lookup analyser-gt-desc.hfstol > mina mina+N+Sg+Gen 0,000000 mina mina+N+Sg+Nom 0,000000 mina mina+N+Sg+Par 0,000000 mina mina+Pron+Sg+Nom+Emph 0,000000
tag reordering script:
MT
status
The webpage is still down (Trond to look into this)
Input:
1 KUS JAAKKO ON? 2 Jaakko ja Mari on aias. Ilm on täna hea, on väga sooja. Aga eile oli väga külma! Siis nad ei #tohtima mängida väljas. Jaakko ja Mari #pidama väga #mängima, nad mängivad alati ühes aias suure maja ees. 3 Jaakko on väike poiss ja ta on kuus aastat vana. Väike tüdruk on ta õed, ta on viis aastat vana. Jaakkol on väike koer, ka koer on nüüd aias. Koerast on meeldivat mängida nende kahe lapsega. Koer on väga õnnelik nüüd. 4 kas On ka Maril koer? Ei, Maril ei ole koera, tal on kass. Aga kass on majas, kass on magamas.
Output:
1 #MISSÄ ON *JAMES? 2 *James ja *Mary on aidassa. Tänään ovat erittäin kaunis sää, on erittäin lämmin. Entä eilen oli erittäin kylmä! He eivät saaneet siis välissä pelata. *James ja *Mary pitävät pelata, he pelaavat alati mukana aidassa, mikä sijaitsee ison talon edessä. 3 *James ovat #pikku poika ja hän on kuuden-vuotias. #Pikku tyttö on #hän sisar, hän on viiden-vuotias. *Jamesil ovat pieni koira, myös koira on aidassa. Koiralle tykkää lapsien kanssa pelata. Koira on nyt erittäin iloinen. 4 *Maryl onko myös koira? Ei, *Maryl ei ole koiraa, hänellä on kissa. Entä kissa on talossa, hän nukkuu.
It was created by apertium-fin-est configure 0.1.0, which was
$ ./configure --with-lang1=/Users/ttr000/main/langs/fin/tools/mt/apertium --with-lang2=/Users/ttr000/main/langs/est/tools/mt/apertium
Compounds not working
echo "Tämä on pöytätapahtuma"|apertium -d. fin-est See on laud juhtumus echo "Tämä on pöytätapahtuma"|apertium -d. fin-sme Dát lea beavdi dáhpáhus echo "Dat lea beavdedáhpahus"|apertium -d. sme-nob Det er en bordhendelse echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn Tot lii pevditábáhtus
The answer to this is probably found in different treatments of
These are the first steps for fin-est translation:
hfst-proc --weight-classes 1 -w -e '/home/hkaalep/apertium/apertium-fin-est/fin-est.automorf.hfst' | cg-proc -w -1 -n '/home/hkaalep/apertium/apertium-fin-est/fin-est.rlx.bin' | apertium-pretransfer <-- this substitutes + with space | lt-proc -b '/home/hkaalep/apertium/apertium-fin-est/fin-est.autobil.bin'
Lexical selection
<e r="RL"><p><l>yritys<s n="n"/></l><r>katse<s n="n"/></r></p></e> ==> <e ><p><l>yritys<s n="n"/></l><r>üritus<s n="n"/></r></p></e> ==> <e ><p><l>tapahtuma<s n="n"/></l><r>üritus<s n="n"/></r></p></e> <e r="RL"><p><l>yritys<s n="n"/></l><r>ettevõte<s n="n"/></r></p></e> <e ><p><l>tapahtuma<s n="n"/></l><r>juhtumus<s n="n"/></r></p></e> <e ><p><l>tapaus<s n="n"/></l><r>juhtum<s n="n"/></r></p></e> <e r="RL"><p><l>tapahtuma<s n="n"/></l><r>juhtumus<s n="n"/></r></p></e> <e><p><l>äiti<s n="n"/></l><r>ema<s n="n"/></r></p></e> <e><p><l>emo<s n="n"/></l><r>ema<s n="n"/></r></p></e> this is for .lrx file
cat apertium-fin-est.fin-est.dix|cut -d">" -f4-|cut -d"<" -f1|sort|uniq -c|sort -nr|l
Three conclusions:
- most (much) of the work can/should be done in the bidix, and does not need to go to .lrx
- There is much to be done in bidix
- As for .lrx, we still have no examples (!)
<e><p><l>typerys<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <e><p><l>pöljä<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <e><p><l>nuija<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <===== <e><p><l>idiootti<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <e><p><l>toope<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <e><p><l>tollo<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <e><p><l>nynnerö<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <e><p><l>nörtti<s n="n"/></l><r>idioot<s n="n"/></r></p></e> <e><p><l>dorka<s n="n"/></l><r>idioot<s n="n"/></r></p></e>
What we get for idioot is nuija, perhaps not the first choice.
9 typerys 8 huijari 7 hakea 7 aukko 6 pieni 6 hölmö 5 vapaa 5 valtava 5 usein 5 tuhoisa 5 runsaasti 5 pahantekijä 5 oma 5 nopeasti 5 merkittävä 5 loppu 5 laittaa 5 kohta 5 kihara 5 kamala 5 iloinen 5 huomaamaton 4 ymmärrettävä 4 yli 4 yhteensopimattomuus 4 yhdessä 4 vanhanaikainen 4 tupsu 4 tunteeton 4 toistuva 4 tarpeettomasti 4 tahditon 4 sopimattomuus 4 siunata 4 selkeys 4 sattua 4 rosvo 4 roska 4 puute 4 palkkio 4 paha 4 omaelämäkerrallinen 4 oleva 4 niukka 4 nerokas 4 luomi 4 lumoava 4 luiseva 4 laittomasti 4 köyhyys 4 käsittämätön === 9 õudne 9 idioot 8 kohutav 7 tänavaprostituut 7 puupea 7 pannkook 6 ümber 6 vanaisa 6 täpselt 6 suurepärane 6 lustlik 6 kui 6 koos 6 kaitse 6 enne 5 üles 5 üle 5 üks 5 ära 5 või 5 vanaema 5 ullike 5 tüdruk 5 tundetu 5 tugev 5 tualettruum 5 tobu 5 siis 5 semu 5 sarnane 5 saatanlik 5 ring 5 rikkus 5 rahumeelne 5 loll 5 küürakas 5 külg 5 kroon 5 kohanemine 5 issi 4 õnnelik 4 viimane 4 vastik 4 vastane 4 vahva 4 tutt 4 tore 4 tee 4 tagasi 4 suupiste 4 seal
tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn Tot lii pevditábáhtus tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-postchunk ^Tot<prn><dem><sg><nom>$ ^leđe<vblex><indic><pres><p3><sg>$ ^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$^.<sent>$ tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-interchunk3 apertium-interchunk: Rule 1 Prn<NP><@SUBJ^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$ ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$ ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$ tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-interchunk2 ^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$ ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$ ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$ tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-interchunk1 ^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$ ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$ ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$ tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-chunker apertium-transfer: Rule 1 Dat<prn><dem><sg><nom><@SUBJ^Prn<NP><@SUBJ→><dem>{^tot<prn><dem><sg><nom>$}$ ^mainverb<SV><@+FMAINV>{^leđe<vblex><indic><pres><p3><sg>$}$ ^nc_n<NP><@←SPRED>{^pevdi<n><cmp_sgnom><cmp>+tábáhtus<n><sg><nom>$}$^sent<SENT>{^.<sent>$}$ tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-biltrans ^Dat<prn><dem><sg><nom><@SUBJ→>/Tot<prn><dem><sg><nom><@SUBJ→>$ ^leat<vblex><iv><indic><pres><p3><sg><@+FMAINV>/leđe<vblex><indic><pres><p3><sg><@+FMAINV>$ ^beavdi<n><sem_furn><cmp_sgnom><cmp>/pevdi<n><sem_furn><cmp_sgnom><cmp>$ ^dáhpáhus<n><sem_event><sg><nom><@←SPRED>/tábáhtus<n><sem_event><sg><nom><@←SPRED>$^.<sent>/.<sent>$ tf-hsl-m0016:apertium-sme-smn ttr000$ echo "Dat lea beavdedáhpahus"|apertium -d. sme-smn-morph ^Dat/dat<prn><dem><pl><nom>/dat<prn><dem><sg><nom>$ ^lea/leat<vblex><iv><indic><pres><p3><sg>$ ^beavdedáhpahus/beavdi<n><cmp_sgnom><cmp>+dáhpáhus<n><sem_event><sg><nom>/beavdi<n><cmp_sgnom><cmp>+dáhpáhus<n><sg><nom>/beavdi<n><sem_furn><cmp_sgnom><cmp>+dáhpáhus<n><sem_event><sg><nom>/beavdi<n><sem_furn><cmp_sgnom><cmp>+dáhpáhus<n><sg><nom>$^./.<sent>$
Papers
- Find some useful aspect of the mt system
- externally: for users
- internally: it told us something about something
- externally: for users
- Write about it
Are these two questions related in any way?
- What is the biggest problem in an est<->fin MT system
- What is the biggest lingustic difference between est and fin?
One problem: possessive suffixes to pers pronouns;
- move to the front of the noun phrase
- is the translation a pers pronoun, or "oma"?
e "Pekka pesi autonsa."|apertium -d. fin-est #Mats pesi oma autod. Also: autosi -> su autod
H-J and Trond to meet
Documentation
Links:
- Presently: https://giellalt.uit.no/lang/est/EstonianDocumentation.html
- Should be: /lang/est/EstonianDocumentation.html
- Can also be a relative link: ../EstonianDocumentation.html
/lang/common/MorphologicalTags.html
Võro meetings are here: http://giellatekno.uit.no/ped/vro-oahpa.html
The samest documentation page is here: http://giellatekno.uit.no/ped/samest/Samest.html
Add a link to experiment-langs/est/ as well.
Heli will do that.
Next meeting
Monday, April 10, 11:00 Norwegian time