Meeting_2014-03-12

Korpusmøte 12.3. 2014

Til stades:

Børre, Ciprian, Lene, Trond, Sjur

Tema:

  • Lagring av samiske data
  • nob

Lagring av samiske data

Møte om vår hverdagsrutine med korpus-konvertering hver dag. Det går ikke an å ta vare på alt data som vi generere.

Det er for lite plass, vi tar vare på data vi ikkje treng.

Noverande modell:

Spare mykje, for mykje (ikkje plass itl alt).

Ny modell for konvertering, analyse og lagring:

  • konvertering on demand
  • data som kan bli endra og som krev ny konvertering:
    • nye metadata
    • nye konverteringsrutiner
    • nye korpusfiler
  • Modell for analyse on demand
  • data som kan bli endra og som krev ny analyse:
    • nye fst-ar
    • nye cg3-filer
  • Ny modell for nær-lagring - versjonar av kontinuerleg konvertering og analyse for Korp m.m.:

    Referansekorpus for å evaluere analysatoren (fjern-lagring):

    • kva betyr det?
      • Ein tekst stor nok og balansert nok til å vere interessant, som vi køyrer analysatorane våre mot med jamne mellomrom, for å måle fram- og attendegang.
        • stort nok = 5M
        • balansert = frå alle dei 5 delkatalogane
        • interessant = udefinert / avhengig av den som spør
      • berre analyser - eitt fast konvertert materiale
    • Korleis kan vi definera referansepunkt?
      • subjektivt - vi synest det ser bra ut
      • objektivt - kvar N-te månad, eller kvar 10000 svn-versjon
      • etter spesifikke aktivitetar

    rene nob-data.

    Laura og Hanne (UiO) om nob-data for noe projekt.

    Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken. Han har gjort en del job med rensing, xml-formatering, etc.

    Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget.

    1. Cips phd: jeg vil gjerne se lit på partikkelverber in nob
    2. GT/Divvun: alltid i sammenhang med smX-nob/nob-smX (se, td, frekvenslister)
    3. Laura/Hanne sin projekt.

    Problem:

    1. Problem: vi trenger mer plass!
    2. Problem: Vi må ha en mulighet for å dele dataen med annet folk, ikke bare oss imellom (I just wanted to use the one and only postposition in nob).