130620
FAD-møte 20.6.
Til stades: BM, Cip, Trond
Saksliste:
- Status quo
- Enare
- Unifisering
Status quo
Ciprian har laga tre katalogar
Enare
Moment til artikkelen
2x2-evaluering:
Gt-data (=nobsme-ordboka) nob-del og sme-del mot norsk og samisk freksvensliste
Fad-data (=nye fra fad-prosjektet) nob-del og sme-del mot norsk og samisk freksvensliste
Frekvensdata
Frekvensdata for norsk:
$GTBIG/langs/nob/nowac/nowac-1-1.1.lemmas.freq
Same fil er tilgjengeleg på nettet, og blir der med ujamne mellomrom oppdatert
Frekvensdata for samisk: på divvun.no:
../hoavda/Public/corp/analysed/2013-04-11/sme*.dis
Moment til artikkelen
- Frekvensprofil i fad-korpus: nob og sme, samanlikna med:
- nowac og justert xserve (minus evt. doble tekstar)
- Vil vil sjekke for:
- Kva slags termar-F fann vi? (der term-F er Ffad > Ftot)
- Er det fleire termar-F på norsk enn på samisk?
- Hypotese: på norsk er det lang tradisjon å finne på sære
- Hypotese: på norsk er det lang tradisjon å finne på sære
- Har vi mange ordpar der nob er term-F men sme ikkje er det? eller omvendt?
- nowac og justert xserve (minus evt. doble tekstar)
Ulike typar overlapping:
- felles lemma ulik omsetjing
- felles lemma og minst ei omsetjing er lik
- felles lemma og felles omsetjing (identitet)
- Frekvenskohortanalyse for gt-spesifikk del
- Frekvenskohortanalyse for fad-spesifikk del
- Frekvenskohortanalyse for overlapping
Evaluere term-F opp i mot administrative termar i risten.no.
TILTAK
- Ciprian sjekkar for triple språkfiler
- Frekvensanalyse: Ciprian ser på data, alle ser på ting å analysere.
kva kan vi seie om nob-orda?
Frekvensinfo:
fordeling i ulike frekvenskohortar?
Samiskdelen
Kanskje dei samiske orda i fad-korpuset er henta frå daglegspråket til
Unifisere
-
main/words/dicts/nobsme/terms/admin/src_fad-only
- data som kun finnes i fad
src_fad-only>grep 'mg_c' N_nobsme.xml | sort | uniq -c | sort -nr 1470 <e src="fad" mg_c="2"> 357 <e src="fad" mg_c="3"> 106 <e src="fad" mg_c="4"> 38 <e src="fad" mg_c="5"> 18 <e src="fad" mg_c="6"> 9 <e src="fad" mg_c="7"> 4 <e src="fad" mg_c="8"> 1 <e src="fad" mg_c="9"> 1 <e src="fad" mg_c="10"> src_fad-only>grep 'mg_c' V_nobsme.xml | sort | uniq -c | sort -nr 58 <e src="fad" mg_c="2"> 25 <e src="fad" mg_c="3"> 9 <e src="fad" mg_c="4"> 3 <e src="fad" mg_c="5"> 1 <e src="fad" mg_c="8"> 1 <e src="fad" mg_c="6"> 1 <e src="fad" mg_c="15"> src_fad-only>grep 'mg_c' A_nobsme.xml | sort | uniq -c | sort -nr 8 <e src="fad" mg_c="3"> 4 <e src="fad" mg_c="5"> 4 <e src="fad" mg_c="2"> 1 <e src="fad" mg_c="7">
-
main/words/dicts/nobsme/terms/admin/src_fad-gt_commons
- = fad-data som overlapper (nob) med gt-data
- = fad-data som overlapper (nob) med gt-data
-
main/words/dicts/nobsme/src_gt-fad_commons
- = gt-data som overlapper med fad-data
- = gt-data som overlapper med fad-data
-
main/words/dicts/nobsme/src_gt-only
- = data som kun finnes i gt
For referanse:Abstractet
Digging for domain-specific terms in North Saami
In translation, one of the main problems is lexical selection,
We report on the onging work of building terminology resources
As for the approach, we are aware that terms are the result of normative work but our methods
Authors:
- Ciprian Gerstenberger, ciprian.gerstenberger@uit.no, University of Tromsø, Norway
- Berit Merete Nystad Eskonsipo, berit.nystad.eskonsipo@uit.no, University of Tromsø, Norway
- Marja Eira, marja.eira@uit.no, University of Tromsø, Norway