130125

FAD- og korpusmøte 25.1.2013

Til stades: Berit Merete, Børre, Ciprian, Sjur, Trond

Saker:

  • Status
  • Arbeid framover med FAD
  • Autshumato
  • Neste møte

Status

Cip har arbeidd i to pipelines, ap, gt (der gt betyr gt + obt).

Katalogen todo-done:

Det er fem filer i

dhcp274-ans:src ttr000$ wc -l *l|sort -nr
  173322 total
   93995 done_fad_nobsme.20121130_nob-c_sme-c.xml
   50452 done_fad_nobsme.20121130_nob-s_sme-s.xml
   21203 done_fad_nobsme.20121130_nob-s_sme-c.xml
    7099 todo_fad_nobsme.20121130_nob-c_sme-c.xml
     573 todo_fad_nobsme.20121130_nob-s_sme-c.xml

Det er ein systematisk feil i obt. Den gjev ikkje

echo riksvegvegnettet | obt/bin/mtag-osx64 
"<riksvegvegnettet>"
	"riksvegvegnettet" subst prop <<<

"<vegnettet>"
	"vegnett" subst appell nøyt be ent <<<

echo piratsituasjonen | obt/bin/mtag-osx64 
"<piratsituasjonen>"
	"piratsituasjonen" subst prop <<<

echo situasjonen | obt/bin/mtag-osx64 
"<situasjonen>"
	"situasjon" subst appell mask be ent <<<

 echo hesdfstesituasjonen | obt/bin/mtag-osx64 
"<hesdfstesituasjonen>"
	"hesdfstesituasjonen" subst prop <<<
		
riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef      
riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef	riksvegvegnett

Def som kan reduserast til Indef:

cat *l|grep l_gt |tr '<' '>'|cut -d">" -f3|unob|grep '+Def'|cut -f1|wc -l
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
     215

Arbeid framover med FAD

TILTAK

ordparallellisering

  1. BM, Marja og Trond ser på dette:
  2. rette 2 todo-filer i main/words/dicts/nobsme/terms/admin/src/todo-
    1. todo-filene: rett sme manuelt i fil
    2. I prosessen: sjå om det er ting som kan ordnast (halv)automatisk
  3. nob
    1. finpusse lemma
    2. Redusere Def til Indef
      1. Finn dei: Trond
      2. Putt dei inn på plass: Ciprian
    3. analysere ord som ikkje får analyse Trond
    4. 600 som ikke har lemma med gt-pipeline
  4. Analysere ordformer og gje grunnformer
  5. nobsme
    1. Endre <mg> til <mg rank=""> (Ciprian)
    2. Sette inn rank-verdiar manuelt
    3. Sortere mg etter rank-verdiar (Ciprian)
  6. Autsh (sjå neste punkt)
grep 'l_gt_c="0"' *l |wc -l
     191
grep 't_gt_c="0"' *l |wc -l
     369

Ultimate mål:

  • Forbetre allmennordboka med FAD-resultat (tja, det beste kan vera å ha dei kvar for seg)
  • Lage domenespesifikk FAD-ordbok
    • Risten2, evt. NSG
  • Lage grensesnitt for parallellkorpus ( -> Korp )
  • Lage Auths-løysing

Autshumato

/tools/autshumato.html

Få omsetjarar til å bruke Authsumato

  • Tilby avgrensa omsetjingsminne
  • Dictionary og glossary (nob<tab>sme), to alternativ:
    • Tilby autsh-Dictionary (nobsme minus vanlege ord) og autsh-glossary (FAD-ordboka? par som har høgare domenefrekvens enn allmennfrekvens)
    • Domenespesifikk FAD er Dictionary og deira private er Glossary
  • med kvalitetssikring?
    • Tilby omsetjingsminnet in toto
    • Tilby å parallellisere tekstpar for folk

Kandidatar til å teste: Arnstein, Sametingsomsetjarar, Mikkel Magnus Utsi? Dep?

TODO

  • Prøve Autshumato sjølv (alle andre enn BM)
  • Lære Autshumato til BM (husk å dokumentere)
  • Diskutere med Arnstein + vise

Neste møte

  • Tromsø tysdag 29.1 kl. 13
  • Plenum: Veka etter der att (vi vurderer det)