130125
FAD- og korpusmøte 25.1.2013
Til stades: Berit Merete, Børre, Ciprian, Sjur, Trond
Saker:
- Status
- Arbeid framover med FAD
- Autshumato
- Neste møte
Status
Cip har arbeidd i to pipelines, ap, gt (der gt betyr gt + obt).
Katalogen todo-done:
Det er fem filer i
dhcp274-ans:src ttr000$ wc -l *l|sort -nr 173322 total 93995 done_fad_nobsme.20121130_nob-c_sme-c.xml 50452 done_fad_nobsme.20121130_nob-s_sme-s.xml 21203 done_fad_nobsme.20121130_nob-s_sme-c.xml 7099 todo_fad_nobsme.20121130_nob-c_sme-c.xml 573 todo_fad_nobsme.20121130_nob-s_sme-c.xml
Det er ein systematisk feil i obt. Den gjev ikkje
echo riksvegvegnettet | obt/bin/mtag-osx64 "<riksvegvegnettet>" "riksvegvegnettet" subst prop <<< "<vegnettet>" "vegnett" subst appell nøyt be ent <<< echo piratsituasjonen | obt/bin/mtag-osx64 "<piratsituasjonen>" "piratsituasjonen" subst prop <<< echo situasjonen | obt/bin/mtag-osx64 "<situasjonen>" "situasjon" subst appell mask be ent <<< echo hesdfstesituasjonen | obt/bin/mtag-osx64 "<hesdfstesituasjonen>" "hesdfstesituasjonen" subst prop <<< riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef riksvegvegnett
Def som kan reduserast til Indef:
cat *l|grep l_gt |tr '<' '>'|cut -d">" -f3|unob|grep '+Def'|cut -f1|wc -l 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% 215
Arbeid framover med FAD
TILTAK
ordparallellisering
- BM, Marja og Trond ser på dette:
- rette 2 todo-filer i main/words/dicts/nobsme/terms/admin/src/todo-
- todo-filene: rett sme manuelt i fil
- I prosessen: sjå om det er ting som kan ordnast (halv)automatisk
- todo-filene: rett sme manuelt i fil
- nob
- finpusse lemma
- Redusere Def til Indef
- Finn dei: Trond
- Putt dei inn på plass: Ciprian
- Finn dei: Trond
- analysere ord som ikkje får analyse Trond
- 600 som ikke har lemma med gt-pipeline
- finpusse lemma
- Analysere ordformer og gje grunnformer
- nobsme
- Endre <mg> til <mg rank=""> (Ciprian)
- Sette inn rank-verdiar manuelt
- Sortere mg etter rank-verdiar (Ciprian)
- Endre <mg> til <mg rank=""> (Ciprian)
- Autsh (sjå neste punkt)
grep 'l_gt_c="0"' *l |wc -l 191 grep 't_gt_c="0"' *l |wc -l 369
Ultimate mål:
- Forbetre allmennordboka med FAD-resultat
- Lage domenespesifikk FAD-ordbok
- Risten2, evt. NSG
- Risten2, evt. NSG
- Lage grensesnitt for parallellkorpus ( -> Korp )
- Lage Auths-løysing
Autshumato
Få omsetjarar til å bruke Authsumato
- Tilby avgrensa omsetjingsminne
- Dictionary og glossary (nob<tab>sme), to alternativ:
- Tilby autsh-Dictionary (nobsme minus vanlege ord)
- Domenespesifikk FAD er Dictionary og deira private er Glossary
- Tilby autsh-Dictionary (nobsme minus vanlege ord)
- med kvalitetssikring?
- Tilby omsetjingsminnet in toto
- Tilby å parallellisere tekstpar for folk
- Tilby omsetjingsminnet in toto
Kandidatar til å teste: Arnstein, Sametingsomsetjarar, Mikkel Magnus Utsi? Dep?
TODO
- Prøve Autshumato sjølv (alle andre enn BM)
- Lære Autshumato til BM (husk å dokumentere)
- Diskutere med Arnstein + vise
Neste møte
- Tromsø tysdag 29.1 kl. 13
- Plenum: Veka etter der att (vi vurderer det)