160112

Møte om MT, 12.1.16

Sjur, Trond, Lene

Saker:

  • status
  • framover
  • oversettingstest

Status

Har prøvd å ha felles møte med Maja og Sandra, Maja var sjuk, så de to møtene handla om lulesamisk (Sandra, Lene, Trond).

Referat nederst på denne sida.

Lulesamisk:

  • bidix-forbetringar
    • frekvensssortering av bidix
    • oppdatera normering
    • retting av tagger og lemmaer i sme, fjerning av dubletter etc.
  • starta å se på transferreglar
  • det vil være en fordel å fjerne mange ordpar fra bidix, slike som lar seg generere direkte

Sørsamisk:

  • sett på derivasjoner og resiproke pronomener med Maja
  • lagt til 15.000 sme navn til bidix
  • retta sme iv/tv i bidix

Felles

  • byggja opp ei samling transferreglar som er like for fleire samiske språk for å sjå kva som kan overførast mellom språka (like namn, like variabelnamn)
  • slepp laus derivasjonar og samansetjing i Apertium fordi det er så mykje likt
  • Lene har jobba med å harmonisera samansetjingstaggar og -mekanismar mellom språka
  • Vi prøver å få til faste møter med Francis for å diskutere gode praksiser for transferregler

Framover

MT-veke i Tromsø: i forlenginga av konferanseveka, dvs 8.-12.2. (kanskje ikkje heile veka). Temaer (noe av dette kan også tas over felles hangout):

  • derivasjoner fra kildespråk til målspråk
  • sammensetninger fra kildespråk til målspråk
  • tilpassing av lexc-tagger til MT
  • fra ett ord til multiword expressions, og motsatt veg - hva og hvordan
    • bidix
    • transferregler
    • lexc
  • hva andre enn Maja og Sandra kan gjøre i MT og lexc-koden
  • testing (regression og pending)
  • domene vi skal konsentrere oss om
  • milepæler i forhold systemets brukbarhet
  • faglige mål i 2016 (i forhold til NFR-prosjektet)
  • forskningsspørsmål

Oversettingstest

Tekst er Klemetti blog

  • For smn, smj, sma
  • antall ord: 5119, 5186, 5063
  • missing ord: 667, 1196, 892
  • ikke genererbare ord: 138, 1487, 312

Fra sme-smj:


  95 #liehket<vblex><indic><pres><p3><sg>
  38 #liehket<vblex><indic><pres><p3><pl>
  37 #ij<vblex><neg><indic><pres><p3><sg>
  25 #liehket<vblex><indic><conneg>
  23 #aj<adv>
  18 #bargge<n><nomag><pl><gen>
  17 #máhttet<vblex><indic><pres><p3><sg>
  13 #liehket<vblex><cond><pres><p3><sg>
  12 #ij<vblex><neg><indic><pres><p3><pl>
  12 #divna<prn><ind><pl><nom>
  11 #sáddit<vblex><der_passl><vblex><iv><indic><pret><p3><pl>
  11 #liehket<vblex><indic><pret><p3><pl>
  11 #ij<vblex><neg><indic><p3><sg>
  10 #liehket<vblex><indic><pret><p3><sg>
  10 #boahtet<vblex><prfprc>
   9 #sáddit<vblex><der_passl><vblex><iv><prfprc>
   9 #máhttet<vblex><prfprc>
   8 #gatjálvis<n><cmp_sgnom><cmp>
   8 #galggat<vblex><indic><pres><p3><sg>
   8 #bielle<n><sg><ela>
   7 #máhttet<vblex><imprt><conneg>
   7 #mij<prn><rel><sg><acc>
   7 #liehket<vblex><prfprc>
   7 #ij<vblex><neg><indic><pret><p3><pl>
   7 #iesj<prn><ref><gen><px3sg>
   6 #ålggo<n><cmp_sggen><cmp>
   6 #vaddet<vblex><inf>
   6 #prosjækta<n><cmp_sgnom><cmp>
   6 #iesj<prn><ref><gen><px3pl>
   6 #gájbbedit<vblex><indic><pres><p3><sg>
   6 #guhti<prn><rel><pl><nom>
   6 #fábmo<n><sg><ill>