Meeting_2017-10-05
Korpusmøte 5.10.2017
Til stades: Børre, Ciprian, Lene, Sjur
Saker
- nettinnsamling (tråling)
- anna manuell innsamling
- leverandørinnsamling
Overgripande tema: kva er det som hindrar arbeidet?
Nettinnsamling (tråling)
Vi har fleire innsamlarar, men berre nrk sin fungerer.
- html går stort sett bra
- ikke-html-dokumenter frå tråling er vanskeleg å kategorisera automatisk
Viktige steder:
- samediggi.no (pressemeldinger på 2-3 språk)
- nsr.no (flere samiske språk)
- samas.no (Samisk høgskole)
- https://giellalt.uit.no/ling/SaamiTextOnline.html
Legge dokumenter i en pøl:
- Duplikatsjekk
- md5-sum på pdf, doc, epub
- url, oftest på crawlere
- på innhold
- https: //giellalt.uit.no/ling/CorpusTools.html#duperemover
- https: //giellalt.uit.no/ling/CorpusTools.html#dupefinder
- https: //giellalt.uit.no/ling/CorpusTools.html#duperemover
- md5-sum på pdf, doc, epub
En strategi:
Anna manuell innsamling
Opprette ei liste (hvor?) hvor alle i Giellatekno/Divvun skriver
- dato
- språk-kode
- info om parallellitet (m, p: se: url)
- eget navn
- url (bare til nettstedet)
Børre
- lager denne fila
- automatiserer det å hente dokumenter fra disse url'ene
Leverandørinnsamling
Dvs. innsamling som krev avtale med underskrift.
Vi treng ein person som gjer dette på full tid over ein periode.