Meeting_2011-12-08
Parallelliseringsmøte 8.12.2011
Berit Merete, Børre, Ciprian, Sjur, Trond
Saksliste
- status quo for testbed for gullkorpus
- status quo for gullkorpus
- arbeid framover
Status quo for gullkorpus
- Ti tekstar i freecorpus/prestable/tmx/goldstandard/nob2sme/
- 4 1/2 av dei er korrigert (jf. 00_readme.txt)
Utfordringar med å avgjera om noko er parallelt:
- med eller utan punktum - dvs er skilnader i teiknsetjing grunn til å seia at to setjingar ikkje er parallelle? Skal vi retta i teksten eller i prosesseringa? ** SVAR: i prosesseringa.
- tekstar med mykje tal. SVAR: postprosessering etter parallellføring
Aksiom: den lineære strukturen er ukrenkeleg. Viss vi har inndata, er denne parallelliseringa god:
<tu> <tuv xml:lang="sme"> <seg>~ </seg> </tuv> <tuv xml:lang="nob"> <seg> </seg> </tuv> </tu> <tu> <tuv xml:lang="sme"> <seg>35 ~ </seg> </tuv> <tuv xml:lang="nob"> <seg> </seg> </tuv> </tu> <tu> <tuv xml:lang="sme"> <seg>Áviissa ásahedje ovttastumi bokte , gaskal ovdalaš Min Áigi ja Áššu áviissaid , ja almmuhuvvui vuosttaš gearddi guovvamánu 6. beaivvi 2008 . </seg> </tuv> <tuv xml:lang="nob"> <seg>Avisen ble til gjennom fusjonen mellom de tidligere avisene Min Áigi og Áššu , og ble første gang ~ 35 ~ utgitt 6 . Februar 2008 . </seg> </tuv> </tu>
Gáldu: Mediabearráigeahčču 2009
<tu> <tuv xml:lang="sme"> <seg>2.4.1 Ságat áviissas lassánan deaddilanlohku– sámegielat áviissain njiedjan</seg> </tuv> <tuv xml:lang="nob"> <seg>2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige aviser</seg> </tuv> </tu> <tu> <tuv xml:lang="sme"> <seg>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit jahkásaččat deaddilanloguid mat maiddái muitalit Ságat ja Ávvira birra.</seg> </tuv> <tuv xml:lang="nob"> <seg>Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer årlig opplagstall som omfatter både Ságat og Ávvir.</seg> </tuv> </tu>
~/main$echo "2.4.1 Landslaget" | preprocess --abbr=gt/sme/bin/abbr.txt 2.4.1 Landslaget ~/main$echo "2.4.1 Landslaget" | preprocess --abbr=st/nob/bin/abbr.txt 2.4.1 Landslaget ~$echo "2.4.1. Landslaget" | preprocess --abbr=~/main/st/nob/bin/abbr.txt 2.4.1 . Landslaget
Vi vil ha det slik, jf:
- Det var i 1962 Trond vart fødd # ei setning
- Det var i 1962. Trond vart fødd # to setningar
Jf. pdf:
</p> <p>2.4.1 </p> <p>Ságat áviissas lassánan deaddilanlohku– sámegielat áviissain njiedjan </p> <p>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit <p>2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige aviser Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer sme1 sme2 sme3 = nob1
Status quo for testbed for gullkorpus
Parallellføringa tar omtrent 12 timar. Det er mogleg med ein arbeidssyklus med
Børre: Det beste er å gjere tmx om til rein tekst, og så diffe tekstane
Eit dokument med 1000 <tu>-element vil resultere i ei tekstfil på 1000 linjer, der kvar line er:
origspråksetning<TAB>omsetjingsspråksetning
Testbenken bør gje som resultat / rapport:
Resultat finnmarkulahka_web_letters.pdf.tmx: 1 - 84/632 = 86.7 % Resultat Fil2: 1 - 84/632 = 86.7 % Resultat Fil3: 1 - 84/632 = 86.7 % Resultat Fil4: 1 - 84/632 = 86.7 % ...
pakka inn i eit passande xml-format. Forslag til xml-format:
<paragstesting> <testrun><!-- Add one for each test run at the top --></testrun> <testrun datetime="20111208-1234"> <file name="abc" gspairs="634" diffpairs="84"/> <file name="xyz" gspairs="634" diffpairs="84"/> </testrun> </paragstesting>
Filnamn: testruns.paragsxml
TILTAK
- Filformat for testing (Sjur)
- Script for testing … (Børre)
- og for å putte dei i xml-fil (Børre)
- Side for presentasjon av data (Sjur)
- Lenkje til presentasjon frå techdoc&tools/tca2.jspwiki
Arbeid framover
- Runde 1 - fredag
- Gjere ferdig dei 9 filene i gullkorpus (Berit Merete, Trond)
- Setje opp testbed for gullkorpus (Børre, Sjur)
- Gjere ferdig dei 9 filene i gullkorpus (Berit Merete, Trond)
- Runde 2 - fredag em
- Skaffe første runde av testresultat (Børre)
- Skaffe første runde av testresultat (Børre)
- Runde 3
- Forbetre preprosesseringa
- abbr.txt (Berit Merete, Trond)
- anchor.txt, (Berit Merete, Trond)
- parametrisering av tca2 (Børre)
- abbr.txt (Berit Merete, Trond)
- Forbetre preprosesseringa
- Runde 3x - måndag em
- Skaffe andre runde av testresultat (Børre)
- Skaffe andre runde av testresultat (Børre)
- Runde 4
- Ord-parallellisering
Mål før møtet tysdag 13.12:
- Testresultat
- Ein forbetra versjon av preprossesseringsverktya (abbr.txt, anchor.txt, parametrisering av tca2)
- Resuktat frå to runder med testing
Neste møte
Tirsdag formiddag 13.12. kl 10