170113
Møte 13. januar 2017
Hangouts: Kevin, Lene, Trond
Saker:
- Lansering
- Planlegge fram mot lansering
- Forbedre html-løsninga
- Linke til jorgal
- Forbedre html-løsninga
- Oppdatere plan
- Lingvistikk
Lansering 26-27.1.17
- Ta kontakt med media på forkant (Lene, Trond)
- Sagat, Nordlys, Ávvir, Finnmark Dagblad, NRK Sápmi
- Sagat, Nordlys, Ávvir, Finnmark Dagblad, NRK Sápmi
- Få tatt bilder
Planlegge fram mot lansering
Forbedre html-løysing
Lokalisering
https://gtweb.uit.no/jorgal må bli lokalisert
(alle iso-kodene må bli språk)
Vi lagar ei lokaliseringsside under
Alle språknamna skal vere på:
For folk som vil lokalisera til lule/enare/sørsamisk osb.:
Om-sida skal endres (Lene, Trond):
https: //raw.githubusercontent.com/goavki/apertium-html-tools/websiteTranslationGiellatekno/assets/strings/eng.json
"What_Is_Apertium": "<p>Apertium is a <b>free/open-source machine translation platform</b>, initially aimed at related-language pairs but expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides</p> <ol> <li>a language-independent machine translation engine</li> <li>tools to manage the linguistic data necessary to build a machine translation system for a given language pair and</li> <li>linguistic data for a growing number of language pairs.</li> </ol> <p>Apertium welcomes new developers: if you think you can improve the engine or the tools, or develop linguistic data for us, do not hesitate to <a data-toggle='modal' data-target='#contactModal' data-text='Help_Improve' data-keyboard='true' data-dismiss='modal' style='cursor: pointer'>contact us</a>.</p>",
Grensesnitt
Skilnaden mellom kvit og grå (aktiv / ikkje-aktiv) er for liten. Kevin ser på det.
Planen no er:
- Kjeldespråk: Nordsamisk
- Målspråk:
- Norsk, finsk, enare- , lule-, sørsamisk
Menyen slik:
Menyane
Dagens meny:
- om-menyen
- språknavn oversettes (Lene, Trond)
- Hvor mange lokaliseringsspråk
- samme som vi oversetter til-fra pluss engelsk (Lene, Trond)
- samme som vi oversetter til-fra pluss engelsk (Lene, Trond)
- Last ned
- tilbyr i dag heile apertium-kjeldekoden
- tilbyr i dag heile apertium-kjeldekoden
- Dokumentasjon
- gjev i dag apertium-wikien
- gjev i dag apertium-wikien
- Ta kontakt
- Gjev i dag info om irc
Vi vil heller ha:
- Om-menyen
- Om dei som har laga det lingvistiske innhaldet
- må få ny tekst (Lene, Trond)
- Om dei som har laga det lingvistiske innhaldet
- For utviklarar (tidlegare "Dokumentasjon")
- teknisk dokumentasjon
- try this at home (vil vi tilby "last ned"?)
- Ta kontakt-lenkja tar vi inn under utviklarar
- teknisk dokumentasjon
- Fant du en feil?
- Denne bør ha ei e-postlenkje til giellatekno@uit.no
Logging
- av ukjende ord
- bruksmønster i UI, språkpar
- personvernpolicy
Ny url:
- mt.uit.no (hvis vi ikke får, så translation.uit.no ?)
- dagens: gtweb.uit.no/jorgal
Omsetjing av nettsider
- bug på lapinkansa.fi (må skrolla langt ned), ev. andre CSS-bugs
- men Apertium-pipelinen treng ei overhaling for å handtera formatering *korrekt*, dette er ei større oppgåva (ein del C++-arbeid, krev nokon som kjenner pipelinen godt)
Oppgåve for oss:
- Lag ei liste over nettsider som ikkje fungerer
- Deretter vurderer vi
Omsetjing av dokument
- Lene: virker for .txt men ikke for .docx
- Trond: Systemet seier at .docx og .odt fungerer, men ingen ting blir lasta ned
Googlebarheit for sidene våre
Vi må
- ha meta-ord på omsetjingssidene
- lenkje til desse sidene frå:
- wikipedia?
- andre internsider, med passande lenkjetekst («oversetting samisk norsk»)
- wikipedia?
Linke til jorgal
Legg inn referanse til jorgal, på
- våre sider (Lene, Trond)
- ulike NSR (Lene)
- Wikipedia (Trond)
- UiT (Lene)
- Finsk sameting etc. (Trond)
Oppdatere planen
/mt/smenob/NorthSaamiNorwegianMachineTranslation.html
( Lene) gjør dette på grunnlag av dette møtereferatet
Lingvistikk
se
Dekningsgrad
Leksikal selection
- legg inn eksempler i pendingtest, hvis du ikke fikser med en gang (eksempel regr test)
- rabas: åpen/ledig, t.d.
- rabas: åpen/ledig, t.d.
- fulle setninger
- regression vs pending (Lene)
Behandling av acr
- Bestemt/ubestemt er ok, men tillegg av artikkel er eit problem. Vi treng ein tagg <acr> i apertium-nob slik at vi skal sleppe ubestemt artikkel, slik at vi kan generere akronyma.
Best: NBR n acr til NRL n acr Feil: <e lm="NRL"><par n="Nn"/><par n="Rr"/><par n="Ll"/><par n="PC__n"/></e> Korrekt: <e lm="NRL"> <i>NRL</i><par n="Wikipedia__np"/></e> <e>NRL<n><acr> → NRL<np> <e>NRL<n><acr> → NRL<n><acr> <!-- legg til i nob.dix --> <e lm="NRL"><i>NRL</i><par n="km__n"/></e> tf-hsl-m0016:apertium-nob ttr000$ grep NRK apertium-nob.nob.dix <e lm="NRK"><par n="Nn"/><par n="Rr"/><par n="Kk"/><par n="PC__n"/></e> <e lm="NRK"> <i>NRK</i><par n="Wikipedia__np"/></e> <e lm="NRK Sápmi"> <i>NRK<b/>Sápmi</i><par n="Aasen__np"/></e> <pardef n="km__n"> <e> <re>.?</re><p><l></l> <r><s n="n"/><s n="acr"/></r></p></e> </pardef> <pardef n="km_no-cp__n" c="Note: gives form a dot iff lemma has a dot, don't include a final dot in the individual entries"> <e> <re>.?</re><p><l></l> <r><s n="n"/><s n="acr"/></r></p><par n="'s_case\Ø_no-cp"/></e> </pardef> <e lm="km"> <i>km</i><par n="VM__n"/></e>
Adverb, ordrekkefølge
Dáppe ii leat nu ollu diet vierru. Her ikke det er så mye denne skikken. #t3x? Die lea hui dehálaš seammaláganvuohta. @>A Der er det svært ei viktig likhet. # er ikkje dette chunking? større chunk i t1x Dat ii leat nu ahte go mii dáppe ávvudat juovllaid, Det er ikke slik at når vi feirer her julen, (=> julen her) #t3x?
Er det kanskje ein slik skilnad:
- mii ávvudat juovllaid dáppe = vi feirer julen her
- mii dáppe ávvudat juovllaid = vi her feirer julen
Vi bør tagge adverbene forskjellig i sme-syntaksen, <dsf>
- tids/steds adverbial
- måtesadverbial
Propernoun
- dynamiske propernoun må endres i sme, (Lene skriver bz)
Innsetting av pro
- innsetting av pro (t4x), forbedre
Defness
- eks: søke om erstatningen
- t1x: vi kan bruke både lister av semantiske tagger, lister av substantiver og verbet (i liste)
Innsetting av artikler
- Ubestemt artikkel blir lagt til i t4x
25% en pleiemedarbeiderstilling (en helgstilling) (ikkje en etter modifiserer)
Derivasjoner
Overskrifter
- partisipp, ikkje Sg1 (Duoguštan vuodjinkoartta = Jeg beslaglegger sertifikatet)
- utan ubestemt artikkel (Kulturbálkkašupmi 2016 - En kulturpris 2016)
- ikke punktum