Meeting_2016-11-16

Korpusmöte 16.11.2016

Áilu, Børre, Ciprian, Trond

Saksliste frå sist

  • Gjennomgang, status
  • Parallelltekst i .txt-format
  • Arbeid

Gjennomgang, status

Lista frå førre møte (sjå kommentarar nedanfor)

  • Følgje opp DG via andre (?) kanalar (Børre)
  • Skrive framlegg til brev frå SD (Sjur)
  • Følgje opp Bz 1551, 1630, 1631 (relevante)
  • Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
  • Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
  • Neste møte: Diskusjon om lista
  • Skániid girji: OCR (Børre)
  • Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.
  • Mail/diskusjon til/med Nasjonalbiblioteket om innsamling (Trond)
  • Følgje opp finsk nasjonalbibliotek
  • Trond snakkar med LB
  • Sjur diskuter med dei i Helsingfors

DG

Børre har prata med DG, ordna med praktiske ting. Dei hadde e-format-bøker som skulle til .epub, måtte OCR-e bøker, og ville deretter sende til oss.

Buggane:

  • Árbbol. bind 1-3 i korpus: Band 1, via DG (Børre)
  • Andre JÁV: (Børre)
  • 1630: Skániid. Bøker kjem frå biblioteket

Det norske nasjonalbiblioteket

Vi får alle dei opne tekstane dei har. Vi legg til side eldre ortografi, og ser på tekstar med gjeldande ortografi. Når vi får dei må vi sjå på kvaliteten av dei, og dra konklusjonar.

Det finske nasjonalbiblioteket

Vi har ca. 130000 ord med 1800-talssamisk, med metadata, og med varierande OCR-kvalitet.

I år vil vi også få OCR-versjonar av Sagai Muitalægje, Nuortanaste, Sami Usteb. Det er mogleg dei har betre kvalitet

Det som må gjerast for å få dette inn i korpuset:

  1. OCR-forbetring ??
  2. mekanisme for automatisk forbetring (perl = ordna regelsett)
  3. manuell gjennomgang
  • Vi må få til det vi gjer i dag betre før vi går inn på historiske tekstar
  • Vi må ha ein plan for ekstern finansiering

Tiltak

  • Skrive framlegg til brev frå SD (Sjur)
  • 1631 (Børre)
  • Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
  • Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
    • Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)
  • Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.
  • Det norske nasjonalbiblioteket
  • Det finske nasjonalbiblioteket
  • Trond snakkar med LB
  • Sjur diskuter med dei i Helsingfors

Parallelltekst i samme fil i .txt-format

Vi har mekanismer for andre filformat.

  1. Áilu legg inn ein versjon av fila i kvar språkmappe, kvar av filene har eiga metadatafil
  2. Børre lagar opplegg for .txt, og Áilu ventar med å prosessere til då.
  3. Áilu

Prioritering av metadata:

  1. årstal
  2. forfattar
  3. tittel
  4. originalspråk

Neste møte

Vi diskuterer dette neste veke når Børre og Sjur er i Tromsø.