Meeting_2016-11-25

Korpusmöte 25.11.2016

Áilu, Børre, Ciprian, Trond, Sjur

Saksliste

  • Gjennomgang, status
  • Parallelltekst i .txt-format
  • Neste møte

Gjennomgang, status

Tiltalslista frå sist (kommentarar nedanfor)

Skrive framlegg til kontrakt frå SD (Sjur)

Ikkje noko skjedd

1631 (Børre)

Børre finn ein god måte.

Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)

Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)

Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)

$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods

Etter Korp_2016.

Litteratur finansiert av Sametinget

Politisk vedtak: Dette skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.

Det norske nasjonalbiblioteket

Vi ventar på metadata og tekst

Det finske nasjonalbiblioteket

Vi ventar på tekst, grc-prosjektet ser på dette

Trond snakkar med LB

Nytt forsøk

Tiltakslista

  • Skrive framlegg til kontrakt frå SD, UiT/SD, veke 49 (Sjur, Børre)
  • 1631 (Børre). til neste møte
  • Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre), veke 48
  • Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre) (etter publisering av korp_2016)
  • Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)
  • Litteratur finansiert av Sametinget
    • skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette (Veke 49)
  • GRC-prosjektet ser på OCR-tekstar når dei kjem inn
  • Trond snakkar med LB om svensk tekst (v. 48)
  • Parallelltekst i .txt-format
    • Rutine: skip line numbers i .xsl (Børre)

Dublering av tekst i same fil

Jf. Bz 2274

<?xml version="1.0" encoding="UTF-8"?><article>
    <story id="3E6AF368-7769-4786-A33C-EACD78A3102D">
        <p class="tittel smånytt">Dásseárvointegreren</p>
    </story>
    <story id="19014F7B-3542-43B3-996A-FD81A867FB9B">
        <p class="tekst">Sámediggi ja 17 iežá ....duvvot.</p>
    </story><story id="19014F7B-3542-43B3-996A-FD81A867FB9B">
        <p class="tekst">Sámediggi ja 17 iežá ....</p>
    </story>
    <story id="3E6AF368-7769-4786-A33C-EACD78A3102D"><p class="tittel smånytt">Dásseárvointegreren</p></story></article>

Prosedyre:

  1. Viss det i same dokument er to eller fleire identiske story-id-ar:
    1. kopier dokumentet til katalogen korrektur
    2. Før inn i xsl: Bruk {første/siste} av dei to nodene med identisk story-id i korpus

Prosessering i korrektur-katalogen er ei anna sak, men det ser ut til å vere mogleg å bygge korrektur-korpus automatisk.

Tiltak

  • (Kartlegge kor mange dokument som har fleire identiske story id-ar)
  • Sjekke om det er første eller siste id som gjeld
  • Legge inn prosedyre i convert2xml (evt. i xsl-formatet) for å plukke rett versjon til korpus-bruk
  • legg inn metadata om at fila kan brukast til korrekt-data
  • Legge inn prosedyre for å merke filene til ei mappe korrektur, evt. ha dei i same converted, men med ei ccat-rutine, som tar berre korrekt tekst til korpus, og korrektur-diff til spellertesting

Parallelltekst i .txt-format

Eitt txt-dokument med tekst på to eller fleire språk. (jf. tiltakslista ovarfor)

Neste møte

Om to veker, 9.12. kl. 09.30