Meeting_2016-11-25
Korpusmöte 25.11.2016
Áilu, Børre, Ciprian, Trond, Sjur
Saksliste
- Gjennomgang, status
- Parallelltekst i .txt-format
- Neste møte
Gjennomgang, status
Tiltalslista frå sist (kommentarar nedanfor)
Skrive framlegg til kontrakt frå SD (Sjur)
1631 (Børre)
Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods
Etter Korp_2016.
Litteratur finansiert av Sametinget
Det norske nasjonalbiblioteket
Det finske nasjonalbiblioteket
Trond snakkar med LB
Tiltakslista
- Skrive framlegg til kontrakt frå SD, UiT/SD, veke 49 (Sjur, Børre)
- 1631 (Børre). til neste møte
- Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre), veke 48
- Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
- Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)
- Litteratur finansiert av Sametinget
- skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette (Veke 49)
- skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette (Veke 49)
- GRC-prosjektet ser på OCR-tekstar når dei kjem inn
- Trond snakkar med LB om svensk tekst (v. 48)
- Parallelltekst i .txt-format
- Rutine: skip line numbers i .xsl (Børre)
Dublering av tekst i same fil
Jf. Bz 2274
<?xml version="1.0" encoding="UTF-8"?><article> <story id="3E6AF368-7769-4786-A33C-EACD78A3102D"> <p class="tittel smånytt">Dásseárvointegreren</p> </story> <story id="19014F7B-3542-43B3-996A-FD81A867FB9B"> <p class="tekst">Sámediggi ja 17 iežá ....duvvot.</p> </story><story id="19014F7B-3542-43B3-996A-FD81A867FB9B"> <p class="tekst">Sámediggi ja 17 iežá ....</p> </story> <story id="3E6AF368-7769-4786-A33C-EACD78A3102D"><p class="tittel smånytt">Dásseárvointegreren</p></story></article>
Prosedyre:
- Viss det i same dokument er to eller fleire identiske story-id-ar:
- kopier dokumentet til katalogen korrektur
- Før inn i xsl: Bruk {første/siste} av dei to nodene med identisk story-id i korpus
- kopier dokumentet til katalogen korrektur
Prosessering i korrektur-katalogen er ei anna sak, men det ser ut til å vere mogleg å bygge korrektur-korpus automatisk.
Tiltak
- (Kartlegge kor mange dokument som har fleire identiske story id-ar)
- Sjekke om det er første eller siste id som gjeld
- Legge inn prosedyre i convert2xml (evt. i xsl-formatet) for å plukke rett versjon til korpus-bruk
- legg inn metadata om at fila kan brukast til korrekt-data
- Legge inn prosedyre for å merke filene til ei mappe korrektur,
Parallelltekst i .txt-format
Eitt txt-dokument med tekst på to eller fleire språk. (jf. tiltakslista ovarfor)
Neste møte
Om to veker, 9.12. kl. 09.30