Meeting_2011-12-20
Parallelliseringsmøte 20.12.2011
Berit Merete, Børre, Sjur, Trond
Saksliste
hmm:
- status quo for testbed for gullkorpus
- status quo for gullkorpus
- arbeid framover
Status quo for testbed for gullkorpus
Vi har no 4 testar.
Vi får diff-filer generert, jf. nettside.
Lenkje frå tabell er ikkje laga.
Prinispp for unit-testing:
- Ikkjetrivielle tilfelle skal inn i unit-testing for å teste, feks b.
- Trivielle ting skal vi berre rette med det same. (jf. "ein fork. Test")
b.
Diskusjonen held fram i Bugzilla. Problemet
TILTAK
- ny katalog for testresultat (Børre)
- Lenkje frå testtabell (Sjur) - gjort
- b. som i Bugzilla.
- Korpus av forkortingar
- Dra ut par asdf. vs. asdf. frå gull/konvertert-fil-para (Børre)
- Evaluere, og lagre som unit-test-dokument (Berit Merete, Trond)
- Ikkjetrivielle: abbr-test.py
- Trivielle: echo "ein fork. Test"
- Dra ut par asdf. vs. asdf. frå gull/konvertert-fil-para (Børre)
preprocess --abbr=sme/bin/abbr.txt eller legg til |
status quo for gullkorpus
Fleire filer? Vi ventar til vi har evaluert det vi har.
TILTAK
- Penare tabell (Sjur) - halvgjort
arbeid framover
tca2 sine parameter
Status quo: Nettside
TILTAK
- Rekne ut tabellen på nytt utan samiske tall forteller
- For kvart parameter: kåre ein vinnar (max/min)
- Lage eit parameteroppsett med berre vinnarverdiar, og køyr det
Ankerfil
tca2 forstår initial stor bokstav sjølv om ankerfila berre har liten bokstav
I dag ligg ankerfila anchor.txt i $GTHOME/gt/common/src/
Anchor-missing:
Testresultat (diffene) i $GTHOME/techdoc/ling/tca2testing/
TILTAK
- Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen,
- prestable/tmx/.../sme/... og gjennom ein anchor.fst for sme
- prestable/tmx/.../nob/... og gjennom ein anchor.fst for nob
- prestable/tmx/.../sme/... og gjennom ein anchor.fst for sme
- Legge til i anchor (Børre, Trond, Berit Merete)
- Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert
abbr-jobbing
Det føreset å berre lese gjennom resultat.
TILTAK
Forbetre konverteringa
TILTAK
Terskelnivå
Når har vi eit bra nok resultat til å bedrive ordparallellisering?
~/freecorpus/prestable$ccat -r converted/sme/
wc -w |
1731030
wc -w |
2097929
spectie: here is my intuition: spectie: the difference in quality of alignments between 2million words and 4 million words will probably be noticeable spectie: for the lexicographers it will make no difference spectie: because probably they want 50% of good alignments spectie: whereas we are talking in the range of 10-20% spectie: but the best thing to do is find out what they are expecting spectie: and what they are willing to work with
Neste møte
Vi tar ein prat tre av oss før jul (torsdag).
- Børre borte 23.12-4.1.
- BM borte?
- Trond på jobb i mellomjula.
- Sjur i Trondheim