Meeting_2016-10-26

Møte om korpus 26.10.2016

Til stades: Áilu, Børre, Ciprian, Lene, Sjur, Trond

Saksliste

  • Innsamling av data,
  • filspesifikk forbetring av konvertering,
  • effektiv forbetring av metadata,
  • parallellisering,
  • prioritering av desse, fordeling av arbeid

Heimeside for korpusforbetring: /ling/corpus_maintenance.html

Jf. også: /tools/tca2.html

Innsamling av data

Det har skjedd lite i det siste. Forlaga er likevel positive.

$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods

Bøker frå DG:

Bøker med kontrakt i orden frå vår side

  • Dei har lovt å sende den litteraturen (skjønnlitteratur og faglitteratur) som vi har gjeve dei kontrakt for
  • Vi har fått ein del av dette
  • Den andre delen står på vent

TILTAK:

  • Børre sender e-post til JHS

Bøker med intern kontrakt med DG med klausul om korpus

For desse trengst det ikkje meir kontakt med forfattarane. Desse er avhengig av samtale mellom oss og SD (sjå nedanfor).

Bøker på andre forlag, eller eldre Davvi Girji, utan kontrakt

Det er visse forfattarar som er positive. For SBJ er det slik at ho har ikkje fått ein kontrakt. Også TR er positiv og har gitt ut flere tekster de siste årene.

Jf. Bz på eit par forfattarar:

  • Bz 1551 Árbbolaččat bind 1-3 i korpus (JÁV)
  • Bz 1630 Tekster fra SG
  • Bz 1631 SBJ sine tekster mangler i korpus

Forlag: CL, Dat, DG før året då SD-kontrakten kom, SG

TILTAK

  • Forfattarar med kontrakt:
    • Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
  • Forfattarar utan kontrakt:
  • Lage liste over forfattar, basert på forlagslister (Áilu, Børre)
  • Diskutere dette på neste møte, og deretter:
    • Følgje opp forfattar for forfattar
    • Blinke ut dei vi elles har kontakt med
    • Lage geografisk baserte lister (Oslo, Tromsø, ...)
    • Snakke
    • Møte opp
  • Skániid girji: Kontakt på nytt (Børre), deretter vurdere OCR

OCR

For evt. OCR-lesing må vi sjå på det, bruke erfaring frå arbeidet med Tesseract tidlegare.

Det nye kontraktregimet mellom SD og forlaga

Politisk er det vedteke at litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. I praksis skjer ikkje dette.

Vi har ikke kontakta Sametinget for å høyre korleis dei sett dette vedtaket ut i live. Vi må følgje opp.

  • Sjur snakkar med Anne-Britt Hætta om dette, i denne veka.

SD og Davvi Girji

Kontrakt mellom dei - utgangspunkt i NRK-kontrakten? Sjur pratar med SD.

  • Sjur pratar med SD.

Innsamling hos institusjonar

Sjur og Børre har prata om at Børre skulle ta ei reise til dei sentrale institusjonane, kanskje før jul.

Nasjonalbiblioteket

  • Skjønnlitteratur som er bunde (SD-kontrakt er det ssv. ikkje hjelp i)
  • Litteratur i det fri
  • Litteratur (i det fri) med tidlegare ortografi

Trond tar kontakt om dette.

Det finske nasjonalbiblioteket

Dei har nordsamiske tekstar

Trond tar kontakt med JPH

Sverige

Vi har henta tekst frå sametinget.se og litt frå sentraladministrasjonen (manuell innsamling til sørsamisk, framfor alt).

Trond snakkar med LB

Tidsskrift

Gába (Lindi, Karasjok), Š (Iđut), Sámis

Gába - http://www.saminissonforum.org/norsk/?page_id=35 Sámis - http://www.samifaga.org/web/index.php?sladja=40&giella1=sam

Filspesifikk forbetring av konvertering

Áilu fjernar: sidenummer, innhaldsliste, bibliografi, tabellar, irrelevante språk i tilfelle dokumentet er parallellspråkleg

To måtar å arbeide på:

  1. mixed-katalog: ei originalfil, genererer t.d. nob og sme
  2. same originalfil i to katalogar, nob og sme, med spesifisert område (dette er det Áilu gjer i dag)

Symbolske lenkjer: Vi gjer det i dag innafor same katalog, jf. boundcorpus/orig/sme/science. Symbolsk lenkje t.d. frå orig/nob til orig/sme har den ulempa at vi risikerer at berre sme- eller berre nob-katalogen blir henta.

Effektiv forbetring av metadata

Vi har 88500 filer.

$GTHOME/gt/script/change_xsl_generic.py

This is a script that changes empty values in a corpus xsl file
Call the program like this: change_xsl.py variable-value-pairs filename
This requires an odd number of args to the script
If a value contains a space, use "-chars around it.
e.g. change_xsl_generic.py sub_name "Ola Nordmann" sub_email ola.nordmann@samediggi.no olaolaheia.html.xsl

Vurdere fil- og katalognamn som kjelde til (halv)automatisk datahausting

  • html har publiseringsdata i eigne metadata, det bør vi kunne hente
    • år, institusjon, (forfattar), osb.
  • filnamn har informasjon
  • katalognamn har informasjon

TILTAK:

  • Ailu, Ciprian, Trond ser på dette i forlenginga av ei morgonsamling i neste veke

Prioriterte kategoriar for metadata:

  1. årstal
  2. originalspråk
  3. forfattarnasjonalitet
  4. forfattarnamn (for- og etternamn)

Korp-felta er desse:

  • tittel: UNDEF
  • år: UNDEF
  • forfatters etternavn: UNDEF
  • domain: administration
  • forfatters fornavn: UNDEF

For administrative tekstar: Sametinget, departementsnamn, kommunenamn. Vi siktar på "det lokale toppdomenet". Sett under etternamn, og la fornamn stå tomt.

  • Viss nasjonalitet = FI og originalspråk NONE, så skal "grepkorpuset" på divvunserveren legge desse filene inn i kategorien sme_fin
  • Viss nasjonalitet = SV og originalspråk NONE, så sme_swe

Forfattarnamn og forfattarkjønn

Forfattarkjønn og forfattars fødselsår er det mogleg å scripte inn. Vi prioriterer ikkje desse to kategoriane no.

Vi kan lage eit sentralt forfattarregister, med relevant metadata, som vi kan scripte inn.

  1. Dra ut ei liste av dagens forfattarnamn i korpus, lage til database
  2. Slå opp samtlege på Wikipedia, automatisk
  3. Samle varianter av navn som står for samme forfatter
  4. Lage ei samla liste så langt som det går, automatisk
  5. Starte med å fylle ut manglar, manuelt

Parallellisering

Grunnlagsarbeid:

  • Kor mange parallellmerka språkpar har vi, og kor mange filpar for kvart par
  • Kor mange vil vi ha i korp (i dag: nob-sme)
  • Vi vil ha så mange parallellkorpora som vi har grunnlag til (?)
  • Moglege språkpar
    • NOB: nob-sme, nob-sma, nob-smj
    • SME: sme-sma, sme-smj, sme-smn, sme-sms
    • FIN: fin-sme, fin-smn, fin-sms
    • SWE: swe-sme, swe-sma, swe-smj (sannsynlegvis for få data) sametinget.se har en del paralleltekster

Sjølve parallelliseringa er lett: parallelise og pickparallelfiles. Køyr med ulike grenseverdiar for lik fillengde

Hva med kvalitetssjekking av selve resultatene?

Hunalign og TCA2 gjev stort sett same resultat. Kvaliteten på output er avhengig av kvaliteten på input (kor parallell input er). TCA2 bruker ankerfil, mens Hunalign ikkje gjer det. Viss Hunalign har like gode resultat som TCA2 bør vi dermed bruke Hunalign.

Gamle todos (parallelliseringa er gjort av Lene, men dette skal videre til korpus/Korp):

  • samiske tall (tekst-parallelisering),
  • SDA-2006 (tekst-parallelisering),
  • Lovtekster (setningsparallelisering)
  • mer info i /admin/giellatekno/150114.html

TILTAK:

  1. Gamle todo (Trond, Ciprian)
  2. Parallelliser eksisterande filpar (Áilu) Kvalitetssikre med pickedparallellfiles og flytt til prestable
  3. Parallellisere alle i prestable med TCA2 og/eller Hunalign (Áilu)
  4. Lage prøve-Korp med alle parallelliserte par (Ciprian)
  5. Samtidig: Kvalitetsvurdere resultatet (det lagar vi detaljert plan for når vi kjem dit, men: )
    1. Vurdere talet på setningar: Sjå på output av filpar som ikkje har omtrent like mange setningar, og sjå manuelt på dei
    2. For filpar med omtrent like mange setningar: Ta stikkprøver og lær av det

Prioritering av desse (og evt. andre) satsingar (prioritere det som

Liste over arbeidsområde:

Overordna prioritering:

  1. Innsamlingsarbeid (dei prioriterte delane av innsamlingsarbeidet)
  2. Korpusarbeid

Detaljert prioritering:

Innsamlingsarbeid

  1. Innsamling av data som kan forsvinne - Børre, Sjur, Áilu
  2. Innsamling av store og/eller lett tilgjengelege data - Børre, Áilu, Trond
  3. Innsamling av vanskeleg tilgjengeleg data - Børre, Trond

Korpusarbeid

  1. parallellisering: Køyre programma - Áilu
  2. metadata - analyse: Ciprian, Børre, Áilu
  3. metadata - arbeid: Áilu
  4. parallellisering - Korp og kvalitetssikring
  5. forbetring av konvertering - Børre, Áilu