130114

FAD- og korpusmøte 14.1.2013

Til stades: Berit Merete, Marja, Ciprian, Trond

Saker:

  • Status
  • Arbeid framover med FAD
  • nobsme
  • Neste møte

Status

Trond har vore i Helsingfors.

  • Attende til gt:
    • Filtrere bort frå gt-output alt som er parallellisert med apertium, slik at det manuelle gt-arbeidet blir berre på nye ord
    • Resultat: l_gt i src/fad_nobsme.20121130_nob-c_sme-c.xml

gt

Todo-lista frå sist er ikkje gjort. Sjå nedanfor, under gt:

Denne kommandoen fjernar semantiske taggar (per 7.1.2013) frå output av lookup2cg.

cat fiilla |perl -pe 's/(Ani|Body|Build|Clth|Edu|Event|Fem|Food|Group|Hum|Mal|Measr|Obj|Org|Plant|Plc|Route|Sur|Time|Txt|Veh|Wpn|Wthr|Allegro|v1|v2|v3|v4) //g' > |uniq > fiilla_semhaga

Den reelle lista av semantiske taggar står her: main/gt/sme/src/sme-lex.txt

Arbeid framover med FAD

Resultat av reversed engineering av ap-output (filer lagra i words/dicts/nobsme/: )

Entries:
src>grep '<e' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    
Lemma nob ap:    
src>grep '<l ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    8358

Postprosessert lemma nob obt
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
   10519
   
Postprosessert lemma nob obt med berre ein analyse
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c="' | wc -l
    6867

Postprosessert lemma nob obt med berre minst 2 analyser
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
    1300

etc...
src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
    1300

Tilsvarande for samisk:
Lemma sme ap:
src>grep '<t ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    8358
Postprosessert lemma sme ap analysert med sme.fst 
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l
    9981

Postprosessert lemma sme ap analysert med sme.fst med eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c=' | wc -l
    6691
    
Postprosessert lemma sme ap analysert med sme.fst med meir enn eitt lemma:
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l
    1319
etc:    
src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l
    1319

Trond sjekka mot unob og MS Word:

  1. Ta _nob-c_sme-c
  2. Dra ut den norske l_
  3. analysere i unob og dra ut ?
  4. Lime inn i MS Word og gå manuelt gjennom
cat src/fad_nobsme.20121130_nob-c_sme-c.xml |grep '<l_'|tr '<' '>' \|
cut -d">" -f3 \|unob|grep '?'|cut -f1|rev|sort|uniq|rev|see

Arbeid framover

  1. ap:
    1. Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)
      1. Løyse opp c=1, c=2 (Cip, til onsdag)
      2. Sjekke mot unob og eit retteprogram (som vist ovafor) (Trond, til torsdag)
    2. gå gjennom alle ap-sammensatte ord som IKKE fikk noe tilsvarende gt-lemma, feks betaling+sikkerhet
  2. gt:
    1. Filtrere bort modalverb frå gt-output (Cip)
    2. Filtrere bort parallellar som allereie er på plass via ap-output fra gt-output. (Cip)
  3. Neste steg:
    1. Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)

nobsme

    <tg><re>
    
    <tg re="blabla">
    

    Neste møte

    • Eigen nobsme-leksikografisk diskusjon tysdag 15.1. 12.00 (Trond, BM, Márjá).
    • Neste møte: Måndag 21.1.2013 før lunsj
    • Deretter møte ca. onsdag, også med Børre og Sjur.