Meeting_2016-10-26
Møte om korpus 26.10.2016
Til stades: Áilu, Børre, Ciprian, Lene, Sjur, Trond
Saksliste
- Innsamling av data,
- filspesifikk forbetring av konvertering,
- effektiv forbetring av metadata,
- parallellisering,
- prioritering av desse, fordeling av arbeid
Heimeside for korpusforbetring: /ling/corpus_maintenance.html
Jf. også: /tools/tca2.html
Innsamling av data
Det har skjedd lite i det siste. Forlaga er likevel positive.
$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods
Bøker frå DG:
Bøker med kontrakt i orden frå vår side
- Dei har lovt å sende den litteraturen
- Vi har fått ein del av dette
- Den andre delen står på vent
TILTAK:
- Børre sender e-post til JHS
Bøker med intern kontrakt med DG med klausul om korpus
For desse trengst det ikkje meir kontakt med forfattarane.
Bøker på andre forlag, eller eldre Davvi Girji, utan kontrakt
Det er visse forfattarar som er positive. For SBJ er det slik
Jf. Bz på eit par forfattarar:
- Bz 1551 Árbbolaččat bind 1-3 i korpus (JÁV)
- Bz 1630 Tekster fra SG
- Bz 1631 SBJ sine tekster mangler i korpus
Forlag: CL, Dat, DG før året då SD-kontrakten kom, SG
TILTAK
- Forfattarar med kontrakt:
- Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
- Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
- Forfattarar utan kontrakt:
- Lage liste over forfattar, basert på forlagslister (Áilu, Børre)
- Diskutere dette på neste møte, og deretter:
- Følgje opp forfattar for forfattar
- Blinke ut dei vi elles har kontakt med
- Lage geografisk baserte lister (Oslo, Tromsø, ...)
- Snakke
- Møte opp
- Følgje opp forfattar for forfattar
- Skániid girji: Kontakt på nytt (Børre), deretter vurdere OCR
OCR
For evt. OCR-lesing må vi sjå på det, bruke erfaring frå arbeidet med Tesseract tidlegare.
Det nye kontraktregimet mellom SD og forlaga
Politisk er det vedteke at litteratur finansiert av Sametinget
Vi har ikke kontakta Sametinget for å høyre korleis dei
- Sjur snakkar med Anne-Britt Hætta om dette, i denne veka.
SD og Davvi Girji
Kontrakt mellom dei - utgangspunkt i NRK-kontrakten? Sjur pratar med SD.
- Sjur pratar med SD.
Innsamling hos institusjonar
Sjur og Børre har prata om at Børre skulle ta ei reise til dei sentrale institusjonane, kanskje før jul.
Nasjonalbiblioteket
- Skjønnlitteratur som er bunde (SD-kontrakt er det ssv. ikkje hjelp i)
- Litteratur i det fri
- Litteratur (i det fri) med tidlegare ortografi
Trond tar kontakt om dette.
Det finske nasjonalbiblioteket
Dei har nordsamiske tekstar
Trond tar kontakt med JPH
Sverige
Vi har henta tekst frå sametinget.se og litt frå
Trond snakkar med LB
Tidsskrift
Gába (Lindi, Karasjok), Š (Iđut), Sámis
Gába - http://www.saminissonforum.org/norsk/?page_id=35
Filspesifikk forbetring av konvertering
Áilu fjernar: sidenummer, innhaldsliste, bibliografi, tabellar,
To måtar å arbeide på:
- mixed-katalog: ei originalfil, genererer t.d. nob og sme
- same originalfil i to katalogar, nob og sme, med spesifisert område
Symbolske lenkjer: Vi gjer det i dag innafor same katalog, jf.
Effektiv forbetring av metadata
Vi har 88500 filer.
$GTHOME/gt/script/change_xsl_generic.py
This is a script that changes empty values in a corpus xsl file Call the program like this: change_xsl.py variable-value-pairs filename This requires an odd number of args to the script If a value contains a space, use "-chars around it. e.g. change_xsl_generic.py sub_name "Ola Nordmann" sub_email ola.nordmann@samediggi.no olaolaheia.html.xsl
Vurdere fil- og katalognamn som kjelde til (halv)automatisk datahausting
- html har publiseringsdata i eigne metadata, det bør vi kunne hente
- år, institusjon, (forfattar), osb.
- år, institusjon, (forfattar), osb.
- filnamn har informasjon
- katalognamn har informasjon
TILTAK:
-
Ailu, Ciprian, Trond ser på dette i forlenginga av ei morgonsamling
Prioriterte kategoriar for metadata:
- årstal
- originalspråk
- forfattarnasjonalitet
- forfattarnamn (for- og etternamn)
Korp-felta er desse:
- tittel: UNDEF
- år: UNDEF
- forfatters etternavn: UNDEF
- domain: administration
- forfatters fornavn: UNDEF
For administrative tekstar: Sametinget, departementsnamn, kommunenamn.
- Viss nasjonalitet = FI og originalspråk NONE, så skal
- Viss nasjonalitet = SV og originalspråk NONE, så sme_swe
Forfattarnamn og forfattarkjønn
Vi kan lage eit sentralt forfattarregister, med relevant
- Dra ut ei liste av dagens forfattarnamn i korpus, lage til database
- Slå opp samtlege på Wikipedia, automatisk
- Samle varianter av navn som står for samme forfatter
- Lage ei samla liste så langt som det går, automatisk
- Starte med å fylle ut manglar, manuelt
Parallellisering
Grunnlagsarbeid:
- Kor mange parallellmerka språkpar har vi, og kor mange filpar for kvart par
- Kor mange vil vi ha i korp (i dag: nob-sme)
- Vi vil ha så mange parallellkorpora som vi har grunnlag til (?)
- Moglege språkpar
- NOB: nob-sme, nob-sma, nob-smj
- SME: sme-sma, sme-smj, sme-smn, sme-sms
- FIN: fin-sme, fin-smn, fin-sms
- SWE: swe-sme, swe-sma, swe-smj
- NOB: nob-sme, nob-sma, nob-smj
Sjølve parallelliseringa er lett: parallelise og
Hva med kvalitetssjekking av selve resultatene?
Hunalign og TCA2 gjev stort sett same resultat. Kvaliteten på output
Gamle todos (parallelliseringa er gjort av Lene, men dette skal videre til korpus/Korp):
- samiske tall (tekst-parallelisering),
- SDA-2006 (tekst-parallelisering),
- Lovtekster (setningsparallelisering)
- mer info i
TILTAK:
- Gamle todo (Trond, Ciprian)
- Parallelliser eksisterande filpar (Áilu)
- Parallellisere alle i prestable med TCA2 og/eller Hunalign (Áilu)
- Lage prøve-Korp med alle parallelliserte par (Ciprian)
- Samtidig: Kvalitetsvurdere resultatet
- Vurdere talet på setningar: Sjå på output av filpar som
- For filpar med omtrent like mange setningar: Ta stikkprøver og
- Vurdere talet på setningar: Sjå på output av filpar som
Prioritering av desse (og evt. andre) satsingar (prioritere det som
Liste over arbeidsområde:
Overordna prioritering:
- Innsamlingsarbeid (dei prioriterte delane av innsamlingsarbeidet)
- Korpusarbeid
Detaljert prioritering:
Innsamlingsarbeid
- Innsamling av data som kan forsvinne - Børre, Sjur, Áilu
- Innsamling av store og/eller lett tilgjengelege data - Børre, Áilu, Trond
- Innsamling av vanskeleg tilgjengeleg data - Børre, Trond
Korpusarbeid
- parallellisering: Køyre programma - Áilu
- metadata - analyse: Ciprian, Børre, Áilu
- metadata - arbeid: Áilu
- parallellisering - Korp og kvalitetssikring
- forbetring av konvertering - Børre, Áilu