Meeting_2011-04-04
Meeting setup
- Date: 04.04.2011
- Time: 10.00 Norw. time
- Place: Internet
- Tools: SubEthaEdit, iChat
Agenda
- infrastruktur (Sjur)
- korpus (Børre)
- ordbøker (Trond)
- forvaltningsordboksprosjektet (Berit)
- vårprogrammet (Trond)
- Divvun 2.2 (Tomi)
- vikar for Maja
Opening, agenda review, participants
- Opened at 10.
- Present: Berit Merete, Børre, Lene, Sjur, Tomi, Trond
- Absent: Biret-Anne, Ciprian, Maja, Thomas
- Secretary: Trond; Berit Merete
Korpus
Parallellføring
Sist veke: Tall for parallellkorpora
Kategori | Nordsamisk | Lulesamisk | Sørsamisk |
---|---|---|---|
Samiske ord i tospråkleg korpus | 2 825 160 | 51 807 | 50 452 |
Samiske ord i einspråkleg korpus | 18 055 008 | 622 994 | 437 507 |
Prosent av korpuset med norsk parallell | 16 % | 8 % | 12 % |
(korrigert for ¶ er storleiken på sme-korpuset 17,6 mill.)
Sett på det grafiske grensesnittet for tca2, forstå korfor vi får
Lene: tca2 tar ikkje 3: 1-par (jf. Lene sin artikkel)
The program supposes that these kinds of alignments are possible:
- 1-1: one sentence in the first bitext is aligned with one sentence in the second bitext
- 1-2: one sentence in the first bitext is aligned with two sentences in the second bitext
- 2-1: two sentences in the first bitext are aligned with one sentence in the second bitext
- 1-0: one sentence in the first bitext is not aligned to any sentence in the second bitext
- 0-1: one sentence in the second bitext is not aligned to any sentence in the second bitext
Det er naturlig å se spesielt på 0-1 og 1-0 setninger ved manuell sjekk, de kan være den manglende 3. setninga (3-1, 1-3)
The program gives scores to the sentence combinations according to these criteria:
- anchor word list, also with wild cards. Phrases are possible. The current list contains 1096 word pairs (2009).
- proper nouns (words with uppercase first letter and the same spelling).
- string similarity, with the Dice coe cient
- sentence length (the number of characters for each sentence candidate sme/smj, eventually multiplied with a length factor (sentences in language B expected to be e.g. 1.1 times longer than sentences in language A)) -- OBS her er et parameter!
TODO:
- Få tca2 til å fungere på alle relevante maskiner (Berit Merete, Børre, Trond, ...)
- sjekke om det er eit tak på 2-1/1-2, og diskutere med Øystein Reigem (Børre, Trond)
- sjå på preprosesseringa (Ser vi på etterpå)
Konvertering av feilmerking i gullkorpuset.
Rapportering for goldstandard fungerte ikkje. £, ¥ osb. vart
Det konverterte gullstandardkorpuset inneheld framleis dei
Børre ser 43 filer med feil i gullkorpuset.
TODO
- få konverteringa operativ igjen: 18.4. (Børre)
- retta opp konvertering av nøsta feilmerking (?)
Konvertering av det allmenne korpuset.
Det er framleis konverteringsfeil, men langt færre systematiske,
TODO:
- Se på filspesifikke missing-lister for å finne feil.
Cronjob-analysene på xserven
Siste køyring er 28.3.
TODO
- Eget møte om korpora og alle detaljene. Torsdag 7.4 kl 10 (Trond, Berit, Børre, Ciprian)
Infrastruktur
Dette verktøyet skal brukes til å teste det du selv spesifiserer at du skal teste.
Kommandoene er:
-
make fsttest GTLANG=sma, test av Xerox-transdusere
- make hfsttest GTLANG=sma, test av HFST-transdusere
Abbr, acro, der, sms, osb
Testing Xerox FST dictionaries [PASS] - Test 0: Noun - gåetie (Lexical/Generation) [FAIL] - Test 1: Noun - gåetie (Surface/Analysis) [PASS] - Test 2: Noun - gåata (Lexical/Generation) [FAIL] - Test 3: Noun - gåata (Surface/Analysis) [PASS] - Test 4: Noun - maana (Lexical/Generation) [FAIL] - Test 5: Noun - maana (Surface/Analysis) [PASS] - Test 6: Noun - bearkoe (Lexical/Generation) [FAIL] - Test 7: Noun - bearkoe (Surface/Analysis) [FAIL] - Test 8: Noun - nïejte (Lexical/Generation) [FAIL] - Test 9: Noun - nïejte (Surface/Analysis) [PASS] - Test 10: Noun - gierehtse (Lexical/Generation) [FAIL] - Test 11: Noun - gierehtse (Surface/Analysis) [PASS] - Test 12: Noun - daktere (Lexical/Generation) [FAIL] - Test 13: Noun - daktere (Surface/Analysis) [PASS] - Test 14: Adj - noere (Lexical/Generation) [FAIL] - Test 15: Adj - noere (Surface/Analysis) [PASS] - Test 16: Verb - båetedh (Lexical/Generation) [FAIL] - Test 17: Verb - båetedh (Surface/Analysis) Total fails: 38
Feilmelding til Sjur : -) ===> svn up, og prøv på nytt
gt$HfstTester.py -C -x -i -c sma/testing/sma-tests.yaml Traceback (most recent call last): File "/home/trond/gtsvn/gt/script/HfstTester.py", line 43, in ? import os, json, traceback ImportError: No module named json
Ny versjon:
~/gtsvn/gt$HfstTester.py -C -x -i -c -t 'Noun - gåetie' sma/testing/sma-tests.yaml Testing Xerox FST dictionaries [PASS] - Test 0: Noun - gåetie (Lexical/Generation) [FAIL] - Test 1: Noun - gåetie (Surface/Analysis) Total fails: 8
TODO
- En liten feil som skal rettes opp før verktøyet er perfekt (Børre)
- Legge inn flere testsett (HVOR?). Testsett=blokk med ordform og analysekode. (Lene, Berit Merete, Thomas)
- Lage både et normativt og et deskriptivt testverktøy (Sjur, Børre)
- Samle normeringsvedtakene til sørsamisk språkråd i $GTPRIV og sjekke om disse er innlemmet i våre programmer (Trond, Sjur)
Ordbøker
Vi må diskutere tre ting når det gjelder ordbøker:
- to vs. tre nivå
- dei finale nodene i <tg>
- Neste deadline for publisering (Samling for språksentrene i
TODO
- Møte denne veka (Berit Merete, Ciprian, Lene, Trond, ...?)
Forvaltningsordboksprosjektet
Trond har levert ein rapport til FAD om prosjektet 31.3 (plan/externalprojects/fad/fadv.tex)
Fordelinga av korrekte former i kvar tidel av konfidensintervallet
TODO
- Sjå på dette på nytt (Berit, Trond, Lene)
- Analysere heile korpuset (ikkje berre gullkorpuset) (Berit, Trond)
- Gå attende til ny parallellføring (Ciprian?)
Divvun 2.2
Tomi's bugs are fixed.
- Vi venter på støtte for InDesign, 64-bits Office
- Vi støttar 32-bits Office for 32-bits Windows.
- Vi ventar på støtte 32-bits Office for 64-bits Windows.
- 64-bits Office vil ikkje bli støtta av Polderland.
Divvun 2.2 vil innehalde
- nye versjonar av alle språk
- 64-bits Windows og for InDesign.
TODO
- Compile new speller (Tomi, report on friday this week 8.4)
- Divvun på Facebook og Twitter (Børre)
Vikar for Maja
Vi diskuterte ulike alternativ.
Divvun-omorganiseringa
Artikkel om Divvun-omorganiseringa i avisa Ságat i forrige uke.
Det ser ut til å bli fart i arbeidet fra FADs side for å få
NoDaLiDa 2013
Vil vi Tromsø arrangere konferansen i mai 2013?
samisk-finskugrisk workshop?
Samarbeid med Senter for samiske studier, IS?
TODO
- Trond snakker med Endre
- Trond gir positivt svar til Janne om at vi er interesserte
Vårprogrammet
- Milepælar
- 11-13.4. LexC-kurs i Budapest (Sjur, Børre, hfst-gjengen)
- 12.4. sma-oahpa deadline (tekniske ting, lokalisering) - Trond og Lene i Røros 12-13.4 (Trond, Lene, Ryan, Ciprian)
- 14.4. dep-workshop (førebuing) (xserve-korpuset må vere analysert til då) (Børre:analyse, Trond, Lene, Linda:arrangement)
- 30.4. NordPlus-språk-prosjekt / spellertestbenk (Sjur, Børre, Ciprian, Tomi)
- 1.5. (omtrent) Divvun-rerelease - lanseres på sametingets språkkonferanse 11.5, ihverfall språklige oppdateringer (Tomi, Sjur, Børre, Thomas)
- 4.5. samisk språksenterkonferanse på Tjelsundbrua <-- nye ordbøker og operativ smX-oahpa (Aajege deltar)
- 11.-12.5 Sametingets språkkonferanse i Tromsø - presentasjon av muligheter med språkteknologi, brukerstøttepanel divvun, ordbøker etc (Berit Anne, Børre, Berit Merete, Thomas, Tomi, Ciprian)
- 11.5. Riga-paper <-- godt sma-korpus og låg sma-missing til det (Lene, Trond, missing:Også Thomas)
- 11-13.4. LexC-kurs i Budapest (Sjur, Børre, hfst-gjengen)
- Arbeid gjennom semesteret
- Barents
- forvaltningsordbok (parallellkorpus, sma- og smj-korpus)
- sme-oahpa NU - en god del ting skal være i boks før neste semester (Ryan, Trond, Berit Anne, Lene, Ciprian)
- infrastruktur (Sjur, Børre, Tomi, Ciprian(?))
- Talesyntese (Berit Anne, Sjur, Tomi)
- Barents