Meeting_2014-03-12

Korpusmøte 12.3. 2014

Til stades:

Børre, Ciprian, Lene, Trond, Sjur

Tema:

 • Lagring av samiske data
 • nob

Lagring av samiske data

Møte om vår hverdagsrutine med korpus-konvertering hver dag. Det går ikke an å ta vare på alt data som vi generere.

Det er for lite plass, vi tar vare på data vi ikkje treng.

Noverande modell:

Spare mykje, for mykje (ikkje plass itl alt).

Ny modell for konvertering, analyse og lagring:

 • konvertering on demand
 • data som kan bli endra og som krev ny konvertering:
  • nye metadata
  • nye konverteringsrutiner
  • nye korpusfiler
 • Modell for analyse on demand
 • data som kan bli endra og som krev ny analyse:
  • nye fst-ar
  • nye cg3-filer
 • Ny modell for nær-lagring - versjonar av kontinuerleg konvertering og analyse for Korp m.m.:

  Referansekorpus for å evaluere analysatoren (fjern-lagring):

  • kva betyr det?
   • Ein tekst stor nok og balansert nok til å vere interessant, som vi køyrer analysatorane våre mot med jamne mellomrom, for å måle fram- og attendegang.
    • stort nok = 5M
    • balansert = frå alle dei 5 delkatalogane
    • interessant = udefinert / avhengig av den som spør
   • berre analyser - eitt fast konvertert materiale
  • Korleis kan vi definera referansepunkt?
   • subjektivt - vi synest det ser bra ut
   • objektivt - kvar N-te månad, eller kvar 10000 svn-versjon
   • etter spesifikke aktivitetar

  rene nob-data.

  Laura og Hanne (UiO) om nob-data for noe projekt.

  Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken. Han har gjort en del job med rensing, xml-formatering, etc.

  Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget.

  1. Cips phd: jeg vil gjerne se lit på partikkelverber in nob
  2. GT/Divvun: alltid i sammenhang med smX-nob/nob-smX (se, td, frekvenslister)
  3. Laura/Hanne sin projekt.

  Problem:

  1. Problem: vi trenger mer plass!
  2. Problem: Vi må ha en mulighet for å dele dataen med annet folk, ikke bare oss imellom (I just wanted to use the one and only postposition in nob).