Meeting_2017-10-05

Korpusmøte 5.10.2017

Til stades: Børre, Ciprian, Lene, Sjur

Saker

  • nettinnsamling (tråling)
  • anna manuell innsamling
  • leverandørinnsamling

Overgripande tema: kva er det som hindrar arbeidet?

Nettinnsamling (tråling)

Vi har fleire innsamlarar, men berre nrk sin fungerer.

  • html går stort sett bra
  • ikke-html-dokumenter frå tråling er vanskeleg å kategorisera automatisk

Viktige steder:

Legge dokumenter i en pøl:

  • Duplikatsjekk
    • md5-sum på pdf, doc, epub
    • url, oftest på crawlere
    • på innhold
      • https: //giellalt.uit.no/ling/CorpusTools.html#duperemover
      • https: //giellalt.uit.no/ling/CorpusTools.html#dupefinder

En strategi: Laste ned alt fra nettsteder man mistenker har samisk tekst. Legge inn samiske tekster inn i korpus og manuelt legge til paralleller på andre språk. Finner man systematisk sammenheng mellom paralleller, legg slikt inn automatisk.

Anna manuell innsamling

Opprette ei liste (hvor?) hvor alle i Giellatekno/Divvun skriver info når de kommer over (ny) samisk tekst på internett:

  1. dato
  2. språk-kode
  3. info om parallellitet (m, p: se: url)
  4. eget navn
  5. url (bare til nettstedet)

Børre

  • lager denne fila
  • automatiserer det å hente dokumenter fra disse url'ene

Leverandørinnsamling

Dvs. innsamling som krev avtale med underskrift.

Vi treng ein person som gjer dette på full tid over ein periode. Børre pratar med aktuelle kandidatar.