Meeting_2016-11-16
Korpusmöte 16.11.2016
Áilu, Børre, Ciprian, Trond
Saksliste frå sist
- Gjennomgang, status
- Parallelltekst i .txt-format
- Arbeid
Gjennomgang, status
Lista frå førre møte (sjå kommentarar nedanfor)
- Følgje opp DG via andre (?) kanalar (Børre)
- Skrive framlegg til brev frå SD (Sjur)
- Følgje opp Bz 1551, 1630, 1631 (relevante)
- Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
- Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
- Neste møte: Diskusjon om lista
- Skániid girji: OCR (Børre)
- Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.
- Mail/diskusjon til/med Nasjonalbiblioteket om innsamling (Trond)
- Følgje opp finsk nasjonalbibliotek
- Trond snakkar med LB
- Sjur diskuter med dei i Helsingfors
DG
Børre har prata med DG, ordna med praktiske ting. Dei hadde e-format-bøker som skulle til .epub, måtte OCR-e bøker, og ville deretter sende til oss.
Buggane:
- Árbbol. bind 1-3 i korpus: Band 1, via DG (Børre)
- Andre JÁV: (Børre)
- 1630: Skániid. Bøker kjem frå biblioteket
Det norske nasjonalbiblioteket
Vi får alle dei opne tekstane dei har. Vi legg til side eldre ortografi, og ser på tekstar med gjeldande ortografi.
Det finske nasjonalbiblioteket
Vi har ca. 130000 ord med 1800-talssamisk, med metadata, og med varierande OCR-kvalitet.
I år vil vi også få OCR-versjonar av Sagai Muitalægje, Nuortanaste, Sami Usteb. Det er mogleg dei
Det som må gjerast for å få dette inn i korpuset:
- OCR-forbetring ??
- mekanisme for automatisk forbetring (perl = ordna regelsett)
- manuell gjennomgang
- Vi må få til det vi gjer i dag betre før vi går inn på historiske tekstar
- Vi må ha ein plan for ekstern finansiering
Tiltak
- Skrive framlegg til brev frå SD (Sjur)
- 1631 (Børre)
- Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
- Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
- Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)
- Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)
- Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.
- Det norske nasjonalbiblioteket
- Det finske nasjonalbiblioteket
- Trond snakkar med LB
- Sjur diskuter med dei i Helsingfors
Parallelltekst i samme fil i .txt-format
Vi har mekanismer for andre filformat.
- Áilu legg inn ein versjon av fila i kvar språkmappe, kvar av filene har eiga metadatafil
- Børre lagar opplegg for .txt, og Áilu ventar med å prosessere til då.
- Áilu
Prioritering av metadata:
- årstal
- forfattar
- tittel
- originalspråk
Neste møte
Vi diskuterer dette neste veke når Børre og Sjur er i Tromsø.