170927

Møte 27. september 2017

Tilstede: Trond, Chiara, Ciprian, Lene

Saker:

  • Orienteringssaker:
    • LIA Talespråksprosjekt vs. sme-analyse og MT
    • Avslutning Samest
    • Komiprosjekt i Helsingfors
    • Samarbeidet med Edmonton
    • Korp og Unix
  • Dei virtuelle servarane
  • ICALL
  • Korpusarbeid
  • Andre saker

Orienteringssaker:

LIA Talespråksprosjekt vs. sme-analyse og MT

Møte i Oslo der Lene, Øystein og Arnstein var frå UiT, folk frå Tekstlab og Samisk arkiv

Tekstlaben demonstrerte Glossa, for norsk + demo for samisk. Lene demonstrerte analyse i Korp

Tema frå diskusjonen:

  • Notering av ytringsgrense
  • Arbeidsmåte: transkribere - gjennomlese - sende til gt for missing list - rette - lage analyse og MT
  • Deretter integrering i Korp og Glossa

Nytt møte til våren, i Kautokeino.

Avslutning Samest

Trond var på møte i Laulasmaa utanfor Tallinn

Oahpa (Heli) og alt arbeid for vôro fortsetter

Komiprosjekt i Helsingfors

Folka frå Syktyvkar og Freiburgprosjektet ei veke i Helsingfors. Trond og Sjur var der og var med på arbeidet med disambiguering, morfologisk analyse og infrastruktur.

Samarbeidet med Edmonton

Chiara snakka med Antti i går. Han viste de nye funskjonalitetene som de har implementert i itwewina NDS: tre typer paradigmer,

Skal vi også endre paradigmene for samiske språk?

Koden for itwewina på edm-serveren, er nå ganske forskjellig fra vår, og dette kan gi problemer ved oppdatering. Problem som må løses. De ønsker itwewina egen server. De har to online-servere, en for produksjon og en offisiell.

Må vurdere hva Ryan skal gjøre, men arbeidsperioden hans er snart avsluttet. De søker om penger for videre arbeid for Ryan, men det er usikkert. GT må ha diskuter med Ryan om arbeidsfordeling. Nytt møte med Antti i oktober.

  • Vår http://itwewina.oahpa.no/ bør redirigere til Edmonton http://altlab.ualberta.ca/itwewina/, og vi stenger ned vår itwewina på gtweb, men legge lenke til edmonton
  • Vi kan ha ein versjon av itwewina på gtlab for å kunne følge med i utviklinga, og se hva vi evt vil implementere i våre samiske versjoner
  • Vi bør ha eit betre paradigmegrensesnitt for cgi-bin-paradigmet vårt, noe som likner på itwewina-løsninga?

Cree har større paradigme, og deira løysing kan være nyttig for samiske språk. Vårt cgi-paradigme er ikkje bra, vi kan sjå desse i lag.

Vi bør vurdere wsd og wsdl (xml-format), og ikkje perl og php. Denne diskusjonen tar vi etter at vi har rydda opp i servarane, itwewina og dei cgi-uavhengige forrest-sakene.

http: //valks.oahpa.no/detail/myv/rus/максомс.html?no_compounds=true&lemma_match=true&e_node=-6431853225388143696

Korp og Unix

Ciprian har vore i Spania og holdt kurs for phd-studenter. Relevant for oss: Sjå "Unix for lingvistar" som

  • innføring for interesserte i Tromsø
  • kurs som del av Giellatekno + undervisning

Vi bør diskutere dette med Eystein

Dei virtuelle servarane

Problemer med å få alt til å fungere etter omstarter. Stier endres pga oppgraderinger. Ciprian har lagt til symlinker mellom local/bin og user/bin for å unngå problemer framover.

Vanlegvis er oppdateringane våre meir ryddige:

  • Alle med sudo-passord skal vere cc på eposter
  • Alle skal vite om hvem som skal være cc ved henvendelse til Steinar
  • Don't Panic inneheld ein plan for å sjekke etter servaromstart, den må vi følgje
    • Don't Panic bør også inkludere rutiner for epost, osb.

cg-versjonar

  • cg1 = lisp
  • cg2 = conexor = vislcg
  • vislcg3 er et vi bruker

==> Vi kan fjerne vislcg

ICALL

Lene har kontakta Kirsi Paltto. Ho vil ha ein sg -knapp, og har fått det. For mindre endringer i Oahpa bruker vi Heli.

E-skuvla vil gjerne bli inkludert i arbeidet og diskusjoner når vi arbeider med ny kode. Som samarbeidspartnar vil Kirsi kunne påvirke vår ICALL.

Vi bør begynne å arbeide med Konteaksta igjen, så snart Chiara er klar for å det. Det beste ville være at hun arbeider sammen med Heli den første perioden, f.eks. en uke i Torsby?

Vi har møte med Pigga Keskitalo fra Samisk høgskole i dag, og ser kva som kjem ut av det. De planlegger søknad til Norgesuniversitetet.

Korpusarbeid

Risten skal arbeide på onsdager med innsamling. Liste over relevante nettsteder

Samarbeid: Risten, Ciprian, Børre.

Risten dokumenterer arbeidsgangen.

Buggar

Vi bruker dei som er manuelt lagt til.

Det er to buggar:

  1. Ein del tekst forsvinn på norsk etter punktum (Risten kopierte dei inn). Vi kan no sannsynlegvis fikse den.
  2. html:
  3. Ein tredje: Setningsforskyving for pdf-sider

Prioritering, arbeidsgang

  1. Fase 0
    1. Filene på Risten si liste i sommar, fikse dem som er mulig å fikse til Korp
  2. Fase 1
    1. Risten samlar inn ny tekst
    2. Vi forbetrar konvertering og eventuelt reviderer parallellisering
  3. Fase 2
    1. Risten lagar parallellkorpus (parallellisering som "einspråkleg dokument")

Andre saker

Vi bør endre http > https. Må dette taes opp med UiTs url-konsulent? Web Services Description Language (WSDL) instede av cgi/php

Grammatikkontrollen har framleis http://gtweb.uit.no/gc/ men også https://gtweb.uit.no/gc/

Ciprian ser på dette.