160112
Møte om MT, 12.1.16
Saker:
- status
- framover
- oversettingstest
Status
Referat nederst på denne sida.
Lulesamisk:
- bidix-forbetringar
- frekvensssortering av bidix
- oppdatera normering
- retting av tagger og lemmaer i sme, fjerning av dubletter etc.
- frekvensssortering av bidix
- starta å se på transferreglar
- det vil være en fordel å fjerne mange ordpar fra bidix, slike som lar seg generere direkte
Sørsamisk:
- sett på derivasjoner og resiproke pronomener med Maja
- lagt til 15.000 sme navn til bidix
- retta sme iv/tv i bidix
Felles
- byggja opp ei samling transferreglar som er like for fleire samiske språk
- slepp laus derivasjonar og samansetjing i Apertium fordi det er så mykje likt
- Lene har jobba med å harmonisera samansetjingstaggar og -mekanismar mellom
- Vi prøver å få til faste møter med Francis for å diskutere gode praksiser for transferregler
Framover
- derivasjoner fra kildespråk til målspråk
- sammensetninger fra kildespråk til målspråk
- tilpassing av lexc-tagger til MT
- fra ett ord til multiword expressions, og motsatt veg - hva og hvordan
- bidix
- transferregler
- lexc
- bidix
- hva andre enn Maja og Sandra kan gjøre i MT og lexc-koden
- testing (regression og pending)
- domene vi skal konsentrere oss om
- milepæler i forhold systemets brukbarhet
- faglige mål i 2016 (i forhold til NFR-prosjektet)
- forskningsspørsmål
Oversettingstest
- For smn, smj, sma
- antall ord: 5119, 5186, 5063
- missing ord: 667, 1196, 892
- ikke genererbare ord: 138, 1487, 312
Fra sme-smj:
95 #liehket<vblex><indic><pres><p3><sg> 38 #liehket<vblex><indic><pres><p3><pl> 37 #ij<vblex><neg><indic><pres><p3><sg> 25 #liehket<vblex><indic><conneg> 23 #aj<adv> 18 #bargge<n><nomag><pl><gen> 17 #máhttet<vblex><indic><pres><p3><sg> 13 #liehket<vblex><cond><pres><p3><sg> 12 #ij<vblex><neg><indic><pres><p3><pl> 12 #divna<prn><ind><pl><nom> 11 #sáddit<vblex><der_passl><vblex><iv><indic><pret><p3><pl> 11 #liehket<vblex><indic><pret><p3><pl> 11 #ij<vblex><neg><indic><p3><sg> 10 #liehket<vblex><indic><pret><p3><sg> 10 #boahtet<vblex><prfprc> 9 #sáddit<vblex><der_passl><vblex><iv><prfprc> 9 #máhttet<vblex><prfprc> 8 #gatjálvis<n><cmp_sgnom><cmp> 8 #galggat<vblex><indic><pres><p3><sg> 8 #bielle<n><sg><ela> 7 #máhttet<vblex><imprt><conneg> 7 #mij<prn><rel><sg><acc> 7 #liehket<vblex><prfprc> 7 #ij<vblex><neg><indic><pret><p3><pl> 7 #iesj<prn><ref><gen><px3sg> 6 #ålggo<n><cmp_sggen><cmp> 6 #vaddet<vblex><inf> 6 #prosjækta<n><cmp_sgnom><cmp> 6 #iesj<prn><ref><gen><px3pl> 6 #gájbbedit<vblex><indic><pres><p3><sg> 6 #guhti<prn><rel><pl><nom> 6 #fábmo<n><sg><ill>