170113

Møte 13. januar 2017

Hangouts: Kevin, Lene, Trond

Saker:

  • Lansering
  • Planlegge fram mot lansering
    • Forbedre html-løsninga
    • Linke til jorgal
  • Oppdatere plan
  • Lingvistikk

Lansering 26-27.1.17

  • Ta kontakt med media på forkant (Lene, Trond)
    • Sagat, Nordlys, Ávvir, Finnmark Dagblad, NRK Sápmi
  • Få tatt bilder

Planlegge fram mot lansering

Forbedre html-løysing

Lokalisering

https://gtweb.uit.no/jorgal må bli lokalisert

(alle iso-kodene må bli språk)

Vi lagar ei lokaliseringsside under techdoc/mt/smenob/Lokalisering.jspwiki

Alle språknamna skal vere på: nob, sme, fin, sma, smn, smj, eng

For folk som vil lokalisera til lule/enare/sørsamisk osb.: http: //wiki.apertium.org/wiki/Html-tools#Quick_and_easy

Om-sida skal endres (Lene, Trond):

https: //raw.githubusercontent.com/goavki/apertium-html-tools/websiteTranslationGiellatekno/assets/strings/eng.json

"What_Is_Apertium": "<p>Apertium is a <b>free/open-source machine translation platform</b>, initially aimed at related-language pairs but expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides</p> <ol> <li>a language-independent machine translation engine</li> <li>tools to manage the linguistic data necessary to build a machine translation system for a given language pair and</li> <li>linguistic data for a growing number of language pairs.</li> </ol> <p>Apertium welcomes new developers: if you think you can improve the engine or the tools, or develop linguistic data for us, do not hesitate to <a data-toggle='modal' data-target='#contactModal' data-text='Help_Improve' data-keyboard='true' data-dismiss='modal' style='cursor: pointer'>contact us</a>.</p>",

Grensesnitt

Skilnaden mellom kvit og grå (aktiv / ikkje-aktiv) er for liten. Kevin ser på det.

Planen no er:

  • Kjeldespråk: Nordsamisk
  • Målspråk:
    • Norsk, finsk, enare- , lule-, sørsamisk

Menyen slik: Nordsamisk oversett Norsk, finsk, enare- , lule-, sørsamisk

Menyane

Dagens meny:

  • om-menyen
  • språknavn oversettes (Lene, Trond)
  • Hvor mange lokaliseringsspråk
    • samme som vi oversetter til-fra pluss engelsk (Lene, Trond)
  • Last ned
    • tilbyr i dag heile apertium-kjeldekoden
  • Dokumentasjon
    • gjev i dag apertium-wikien
  • Ta kontakt
    • Gjev i dag info om irc

Vi vil heller ha:

  • Om-menyen
    • Om dei som har laga det lingvistiske innhaldet
    • må få ny tekst (Lene, Trond)
  • For utviklarar (tidlegare "Dokumentasjon")
    • teknisk dokumentasjon
    • try this at home (vil vi tilby "last ned"?)
    • Ta kontakt-lenkja tar vi inn under utviklarar
  • Fant du en feil?
    • Denne bør ha ei e-postlenkje til giellatekno@uit.no

Logging

  • av ukjende ord
  • bruksmønster i UI, språkpar
  • personvernpolicy

Ny url:

  • mt.uit.no (hvis vi ikke får, så translation.uit.no ?)
  • dagens: gtweb.uit.no/jorgal

Omsetjing av nettsider

Er det forbetringspotensiale her?

  • bug på lapinkansa.fi (må skrolla langt ned), ev. andre CSS-bugs
  • men Apertium-pipelinen treng ei overhaling for å handtera formatering *korrekt*, dette er ei større oppgåva (ein del C++-arbeid, krev nokon som kjenner pipelinen godt)

Oppgåve for oss:

  • Lag ei liste over nettsider som ikkje fungerer
  • Deretter vurderer vi

Omsetjing av dokument

Dette virkar ofte ikkje (systematiser dette)

  • Lene: virker for .txt men ikke for .docx
  • Trond: Systemet seier at .docx og .odt fungerer, men ingen ting blir lasta ned

Googlebarheit for sidene våre

Vi må

  1. ha meta-ord på omsetjingssidene
  2. lenkje til desse sidene frå:
    1. wikipedia?
    2. andre internsider, med passande lenkjetekst («oversetting samisk norsk»)

Linke til jorgal

Legg inn referanse til jorgal, på

  • våre sider (Lene, Trond)
  • ulike NSR (Lene)
  • Wikipedia (Trond)
  • UiT (Lene)
  • Finsk sameting etc. (Trond)

Oppdatere planen

/mt/smenob/NorthSaamiNorwegianMachineTranslation.html

( Lene) gjør dette på grunnlag av dette møtereferatet

Lingvistikk

se apertium-sme-nob/translations-test.html

Dekningsgrad

Børre samle inn NRK-tekster fra nett (Trond)

Leksikal selection

  • legg inn eksempler i pendingtest, hvis du ikke fikser med en gang (eksempel regr test)
    • rabas: åpen/ledig, t.d.
  • fulle setninger
  • regression vs pending (Lene)

Behandling av acr

  • Bestemt/ubestemt er ok, men tillegg av artikkel er eit problem. Vi treng ein tagg <acr> i apertium-nob slik at vi skal sleppe ubestemt artikkel, slik at vi kan generere akronyma. eks. NRL (NBR)
Best:
NBR n acr til NRL n acr

Feil:
  <e lm="NRL"><par n="Nn"/><par n="Rr"/><par n="Ll"/><par n="PC__n"/></e>
Korrekt:
<e lm="NRL">       <i>NRL</i><par n="Wikipedia__np"/></e>

<e>NRL<n><acr> → NRL<np>
<e>NRL<n><acr> → NRL<n><acr> <!-- legg til i nob.dix -->
  <e lm="NRL"><i>NRL</i><par n="km__n"/></e>

tf-hsl-m0016:apertium-nob ttr000$ grep NRK apertium-nob.nob.dix 
  <e lm="NRK"><par n="Nn"/><par n="Rr"/><par n="Kk"/><par n="PC__n"/></e>
<e lm="NRK">       <i>NRK</i><par n="Wikipedia__np"/></e>
<e lm="NRK Sápmi"> <i>NRK<b/>Sápmi</i><par n="Aasen__np"/></e>


<pardef n="km__n">
  <e>       <re>.?</re><p><l></l>          <r><s n="n"/><s n="acr"/></r></p></e>
</pardef>
<pardef n="km_no-cp__n" c="Note: gives form a dot iff lemma has a dot,                                                                                                   
                     don't include a final dot in the individual entries">
  <e>       <re>.?</re><p><l></l>          <r><s n="n"/><s n="acr"/></r></p><par n="'s_case\Ø_no-cp"/></e>
</pardef>

  <e lm="km">            <i>km</i><par n="VM__n"/></e>

Adverb, ordrekkefølge

finne eksempler og sortere i typer

Dáppe ii leat nu ollu diet vierru.
Her ikke det er så mye denne skikken. #t3x?

Die lea hui dehálaš seammaláganvuohta. @>A
Der er det svært ei viktig likhet. # er ikkje dette chunking? større chunk i t1x

Dat ii leat nu ahte go mii dáppe ávvudat juovllaid, 
Det er ikke slik at når vi feirer her julen,  (=> julen her) #t3x?

Er det kanskje ein slik skilnad:

  • mii ávvudat juovllaid dáppe = vi feirer julen her
  • mii dáppe ávvudat juovllaid = vi her feirer julen

Vi bør tagge adverbene forskjellig i sme-syntaksen, <dsf>

  • tids/steds adverbial
  • måtesadverbial

Propernoun

  • dynamiske propernoun må endres i sme, (Lene skriver bz) Davvi-Oslo

Innsetting av pro

  • innsetting av pro (t4x), forbedre Bedre med for få innsettinger enn for mange

Defness

  • eks: søke om erstatningen
  • t1x: vi kan bruke både lister av semantiske tagger, lister av substantiver og verbet (i liste)

Innsetting av artikler

  • Ubestemt artikkel blir lagt til i t4x

25% en pleiemedarbeiderstilling (en helgstilling) (ikkje en etter modifiserer)

Derivasjoner

Kevin legger inn NomAct og NomAg

Overskrifter

Vi må forbedre behandlinga av overskrifter

  • partisipp, ikkje Sg1 (Duoguštan vuodjinkoartta = Jeg beslaglegger sertifikatet)
  • utan ubestemt artikkel (Kulturbálkkašupmi 2016 - En kulturpris 2016)
  • ikke punktum