130814

FAD-møte 14.8.2013

Til stades:

BM, Cip, Marja, Trond.

Saksliste

  • presentasjonen i Enare
  • arbeidet
  • neste møte

presentasjonen i Enare

Punkt frå abstractet:

  • We report on the onging work
  • evaluate by native speakers
  • copmparing to dict
  • We have a dictionary
  • We get a domain-specific list
  • What does it give us?

poeng for oss:

  • kva har vi gjort
  • eksisterer det ein samisk fagterminologi
  • er vi i stand til å finne den
  • er dette nyttig

arbeidet

disambiguere

src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr 
1974 _out_/N_nobsme.xml
 682 _out_/V_nobsme.xml
 319 _out_/A_nobsme.xml
 ==> omkring 3000 rene fad-t-elementer

status

src_fad-only>grep '<e' * | grep 'mg_c' | sort | uniq -c | sort -nr  
 151 N_nobsme.xml:   <e src="fad" mg_c="2">
 120 N_nobsme.xml:   <e src="fad" mg_c="3">
 103 N_nobsme.xml:   <e src="fad" mg_c="4">
  37 N_nobsme.xml:   <e src="fad" mg_c="5">
  17 N_nobsme.xml:   <e src="fad" mg_c="6">
   9 N_nobsme.xml:   <e src="fad" mg_c="7">
   4 N_nobsme.xml:   <e src="fad" mg_c="8">
   1 N_nobsme.xml:   <e src="fad" mg_c="9">
   1 N_nobsme.xml:   <e src="fad" mg_c="10">
   
   src_fad-only>grep '<e' * | grep 'mg_c' | wc -l 
     443

For lemma og translation:

  1. abs frekv for ordet i heile domenet =
  2. rel frekv for ordet i heile domenet = gfL, gfT
  3. abs frekv for ordet i fagdomenet
  4. rel frekv for ordet i fagdomenet = ffL, ffT

Kva kan vi gjere med desse tala?

Scenarier:

  • vanleg i fagdomene / sjelden i heile domene
  • Kva er terskelen for å finne fagord?
  • Finn vi fagord i det heile?
  • Finn vi domener?

Filene:

   <e>
      <lg>
         <l pos="N" gf="0.0000000623088" ff="0">topptekst</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="N" usage="vd" gf="0" ff="0">badjeteaksta</t>
         </tg>
      </mg>
   </e>

   <e>
      <lg>
         <l pos="N" gf="0.0000001142327" ff="0">bunntekst</l>
      </lg>
      <mg>
         <tg xml:lang="sme">
            <t pos="N" usage="vd" gf="0.0000001120293" ff="0">vuolleteaksta</t>
         </tg>
      </mg>
   </e>

for <l> og <t>:

  • gf = global relativ frekvens (nowac)
  • ff = fagfrekvens (fad)

Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg):

  • gfL, ffL, gfT, ffT
  • tttt ... relative skilnader her
  • tt00
  • t0t0
  • ttt0
  • 0000

er L vanlegare i fad enn i generell

  • ffL - gfL = positiv ==> fagord (meir vanleg i domene)
  • ffL - gfL = 0 ==> generelt ord (like vanleg) der 0 er det same som ± 0.05
  • ffL - gfL = negativ ==> ikkje fagord (mindre vanleg i domene)

output av differanse:

  • list ordpar ordna etter d(ffL,gfL) (øverst det ordparet som er "mest fagord"
  • Sjå på lista og trekk ei grense

Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa

kan vi finne:

viss vi for lemma L finn at:
d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv
d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ

så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing.

Arbeid framover:

  1. grunndata for fad ferdig (unifisering) (bm, trond, marja)
  2. frekvensar for ordpar frå fad-merge (cip)
  3. differansar som ovafor (cip)
  4. nytt møte, evaluering, presentasjon (alle) <--

Neste møte

Tysdag 20.8. kl. 10.00