130814
Contents:
FAD-møte 14.8.2013
Til stades:
BM, Cip, Marja, Trond.
Saksliste
- presentasjonen i Enare
- arbeidet
- neste møte
presentasjonen i Enare
Punkt frå abstractet:
- We report on the onging work
- evaluate by native speakers
- copmparing to dict
- We have a dictionary
- We get a domain-specific list
- What does it give us?
poeng for oss:
- kva har vi gjort
- eksisterer det ein samisk fagterminologi
- er vi i stand til å finne den
- er dette nyttig
arbeidet
disambiguere
src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr 1974 _out_/N_nobsme.xml 682 _out_/V_nobsme.xml 319 _out_/A_nobsme.xml ==> omkring 3000 rene fad-t-elementer
status
src_fad-only>grep '<e' * | grep 'mg_c' | sort | uniq -c | sort -nr 151 N_nobsme.xml: <e src="fad" mg_c="2"> 120 N_nobsme.xml: <e src="fad" mg_c="3"> 103 N_nobsme.xml: <e src="fad" mg_c="4"> 37 N_nobsme.xml: <e src="fad" mg_c="5"> 17 N_nobsme.xml: <e src="fad" mg_c="6"> 9 N_nobsme.xml: <e src="fad" mg_c="7"> 4 N_nobsme.xml: <e src="fad" mg_c="8"> 1 N_nobsme.xml: <e src="fad" mg_c="9"> 1 N_nobsme.xml: <e src="fad" mg_c="10"> src_fad-only>grep '<e' * | grep 'mg_c' | wc -l 443
For lemma og translation:
- abs frekv for ordet i heile domenet =
- rel frekv for ordet i heile domenet = gfL, gfT
- abs frekv for ordet i fagdomenet
- rel frekv for ordet i fagdomenet = ffL, ffT
Kva kan vi gjere med desse tala?
Scenarier:
- vanleg i fagdomene / sjelden i heile domene
- Kva er terskelen for å finne fagord?
- Finn vi fagord i det heile?
- Finn vi domener?
Filene:
<e> <lg> <l pos="N" gf="0.0000000623088" ff="0">topptekst</l> </lg> <mg> <tg xml:lang="sme"> <t pos="N" usage="vd" gf="0" ff="0">badjeteaksta</t> </tg> </mg> </e> <e> <lg> <l pos="N" gf="0.0000001142327" ff="0">bunntekst</l> </lg> <mg> <tg xml:lang="sme"> <t pos="N" usage="vd" gf="0.0000001120293" ff="0">vuolleteaksta</t> </tg> </mg> </e>
for <l> og <t>:
- gf = global relativ frekvens (nowac)
- ff = fagfrekvens (fad)
Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg):
- gfL, ffL, gfT, ffT
- tttt ... relative skilnader her
- tt00
- t0t0
- ttt0
- 0000
er L vanlegare i fad enn i generell
- ffL - gfL = positiv ==> fagord (meir vanleg i domene)
- ffL - gfL = 0 ==> generelt ord (like vanleg) der 0 er det same som ± 0.05
- ffL - gfL = negativ ==> ikkje fagord (mindre vanleg i domene)
output av differanse:
- list ordpar ordna etter d(ffL,gfL) (øverst det ordparet som er "mest fagord"
- Sjå på lista og trekk ei grense
Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa
kan vi finne:
viss vi for lemma L finn at: d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing.
Arbeid framover:
- grunndata for fad ferdig (unifisering) (bm, trond, marja)
- frekvensar for ordpar frå fad-merge (cip)
- differansar som ovafor (cip)
- nytt møte, evaluering, presentasjon (alle) <--
Neste møte
Tysdag 20.8. kl. 10.00