Meeting_2014-03-12
Korpusmøte 12.3. 2014
Til stades:
Børre, Ciprian, Lene, Trond, Sjur
Tema:
- Lagring av samiske data
- nob
Lagring av samiske data
Møte om vår hverdagsrutine med korpus-konvertering hver dag.
Det er for lite plass, vi tar vare på data vi ikkje treng.
Noverande modell:
Spare mykje, for mykje (ikkje plass itl alt).
Ny modell for konvertering, analyse og lagring:
- konvertering on demand
- data som kan bli endra og som krev ny konvertering:
- nye metadata
- nye konverteringsrutiner
- nye korpusfiler
- nye metadata
- Modell for analyse on demand
- data som kan bli endra og som krev ny analyse:
- nye fst-ar
- nye cg3-filer
- nye fst-ar
- Ny modell for nær-lagring - versjonar av kontinuerleg konvertering og analyse for Korp m.m.:
Referansekorpus for å evaluere analysatoren (fjern-lagring):
- kva betyr det?
- Ein tekst stor nok og balansert nok til å vere interessant,
- stort nok = 5M
- balansert = frå alle dei 5 delkatalogane
- interessant = udefinert / avhengig av den som spør
- stort nok = 5M
- berre analyser - eitt fast konvertert materiale
- Ein tekst stor nok og balansert nok til å vere interessant,
- Korleis kan vi definera referansepunkt?
- subjektivt - vi synest det ser bra ut
- objektivt - kvar N-te månad, eller kvar 10000 svn-versjon
- etter spesifikke aktivitetar
- subjektivt - vi synest det ser bra ut
rene nob-data.
Laura og Hanne (UiO) om nob-data
Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken.
Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget.
- Cips phd: jeg vil gjerne se lit på partikkelverber in nob
- GT/Divvun: alltid i sammenhang med smX-nob/nob-smX (se, td, frekvenslister)
- Laura/Hanne sin projekt.
Problem:
- Problem: vi trenger mer plass!
- Problem: Vi må ha en mulighet for å dele dataen med annet folk, ikke bare oss imellom (I just wanted to use the one and only postposition in nob).