190918

Giellateknomøte 18. september

Tilstede: Chiara, Trond, Risten, Lene, Børre (under første sak)

  • Korpusarbeid
  • Preprosessering, forkortingar
  • Nasjonalbiblioteket
  • NoDaLiDa
  • Andre saker?

Korpusarbeid

Engasjement

Ny medarbeidar hit for å få opplæring. 6 mnd i 100%? lågare prosent? Lene har en mulig kandidat på handa, primært for å følgje opp forlaga.

  • bør ha sertifikat/tilgang bil
  • Børre som veileder
  • Lene skriver epost til kandidaten

Fornying av enspråklig Korpus-innhold

Innholdet var sist oppdatert oktober 2018.

Oppdateringa bør forenkles, hvilke hindringer har vi?

  1. Identifisere tekst
  2. Analyse
    1. Analysere de forkjellige filene (dette er kronjobb en gang i uka),
    2. Samle de analyserte filene til grepkorpus (automatisk?)
    3. Kontrollere at analysen fungerer (taggar, ...)
    4. Analysere på nytt
  3. Konvertere til Korp-format
  4. Oppdatere site

TILTAK

  • Chiara oppdatere/lage dokumentasjon for korpusanalyse
  • Chiara finner fram skript for å lage grep-korpus (jf /home/corpus/freecorpus/00_readme.txt på gtweb)
  • Lene sjekker missing, tagger osv.
  • Chiara legger de nye filene i Korp, når vi er enige om det, med semtagger

Tekstar frå rusbound (mari)

Dei treng ein eigen katalog under gtweb, parallelt med boundcorpus.

Fornying av parallelltekster i Korpus

Ikkje i svn = *

orig/
converted/*
tmx/*
prestable/tmx/nob2sme

Arbeidsrutine:

  • Forbetre metadata i orig
  • parallellisere til tmx (tilsvarande convertere til converted)
  • deretter manuelt flytte frå tmx til prestable og sjekke inn.

Så skal dei tospråklege tekstane inn i Korp (dvs. inn i SIKOR).

Vi parallelliserer i tre delar:

Filene ligg i orig

  1. tmx = output (som converted), ikkje i svn
  2. prestable = sjekk inn, konvertere på nytt etter nye CorpusTools, arbeide manuelt. Når vi er nøgd:
  3. Flytt til stable med svn mv

Lene møblerer stable etter mal frå prestable. Vi må deretter få ei rutine for å unngå å parallellisere dei same filene på nytt. CorpusTools må sjekke om fila allereie eksisterer i stable før det parallelliserer nye filer til tmx. Deretter vil Chiara finne det ho treng i stable.

Framlegg: Kan vi legge negative data inn i parallellfila?

Lene legger til i bargovuohki om praktisk parallellseringsarbeid, grunnlagt på diskusjoner på møtet

epub

Børre skriv til Sametinget og ber dei bruke epub i tillegg til dei formata dei har. Mange sametingsrepresentantar vil like det, og for oss vil det vere svært viktig.

Preprosessering

Nordsamisk, parallellisering.

Viss den eine setninga inneheld meir tekst enn den andre ignorerer vi det.

Trond gjør ferdig smi-løsninga for abbriviation, og tester

Tekstprioritering

  • Vent med sametingsprotokollar til vi evt. får epub.
  • Eit mogleg framlegg: Sametingsprotokollar for samediggi.fi (jf. mail)
  • Alt av andre pdf/epub-filer fra 2019 (sjekk at de ikke er tatt)

Nasjonalbiblioteket

Chiara og Trond orienterte.

NoDaLiDa

Tar vi etter kvart (koordinering buss og togbilletter)

Janne

Kjem hit i morgon. Vi har møte med han på fredag, kanskje halv ni og framover?

Klimastreik kl. 9-10.