190918
Giellateknomøte 18. september
Tilstede: Chiara, Trond, Risten, Lene, Børre (under første sak)
- Korpusarbeid
- Preprosessering, forkortingar
- Nasjonalbiblioteket
- NoDaLiDa
- Andre saker?
Korpusarbeid
Engasjement
Ny medarbeidar hit for å få opplæring. 6 mnd i 100%? lågare prosent?
- bør ha sertifikat/tilgang bil
- Børre som veileder
- Lene skriver epost til kandidaten
Fornying av enspråklig Korpus-innhold
Oppdateringa bør forenkles, hvilke hindringer har vi?
- Identifisere tekst
- Analyse
- Analysere de forkjellige filene (dette er kronjobb en gang i uka),
- Samle de analyserte filene til grepkorpus (automatisk?)
- Kontrollere at analysen fungerer (taggar, ...)
- Analysere på nytt
- Analysere de forkjellige filene (dette er kronjobb en gang i uka),
- Konvertere til Korp-format
- Oppdatere site
TILTAK
-
Chiara oppdatere/lage dokumentasjon for korpusanalyse
-
Chiara finner fram skript for å lage grep-korpus (jf /home/corpus/freecorpus/00_readme.txt på gtweb)
-
Lene sjekker missing, tagger osv.
- Chiara legger de nye filene i Korp, når vi er enige om det, med semtagger
Tekstar frå rusbound (mari)
Dei treng ein eigen katalog under gtweb, parallelt med boundcorpus.
Fornying av parallelltekster i Korpus
Ikkje i svn = *
orig/ converted/* tmx/* prestable/tmx/nob2sme
Arbeidsrutine:
- Forbetre metadata i orig
- parallellisere til tmx (tilsvarande convertere til converted)
- deretter manuelt flytte frå tmx til prestable og sjekke inn.
Så skal dei tospråklege tekstane inn i Korp (dvs. inn i SIKOR).
Vi parallelliserer i tre delar:
Filene ligg i orig
- tmx = output (som converted), ikkje i svn
- prestable = sjekk inn, konvertere på nytt etter nye CorpusTools, arbeide manuelt. Når vi er nøgd:
- Flytt til stable med svn mv
Lene møblerer stable etter mal frå prestable. Vi må deretter få ei rutine for å unngå å parallellisere dei same filene på nytt.
Framlegg: Kan vi legge negative data inn i parallellfila?
Lene legger til i bargovuohki om praktisk parallellseringsarbeid, grunnlagt på diskusjoner på møtet
epub
Børre skriv til Sametinget og ber dei bruke epub i tillegg til dei formata dei har. Mange sametingsrepresentantar vil like det, og for oss vil det vere svært viktig.
Preprosessering
Nordsamisk, parallellisering.
Viss den eine setninga inneheld meir tekst enn den andre ignorerer vi det.
Trond gjør ferdig smi-løsninga for abbriviation, og tester
Tekstprioritering
- Vent med sametingsprotokollar til vi evt. får epub.
- Eit mogleg framlegg: Sametingsprotokollar for samediggi.fi (jf. mail)
- Alt av andre pdf/epub-filer fra 2019 (sjekk at de ikke er tatt)
Nasjonalbiblioteket
Chiara og Trond orienterte.
NoDaLiDa
Janne
Kjem hit i morgon. Vi har møte med han på fredag, kanskje halv ni og framover?
Klimastreik kl. 9-10.