120925
FAD-Møte 25.9.2012
Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete
Saker:
- Status quo
- Bugzilla
- Arbeid framover
- Neste møte
Status quo
Status quo for data før tillegg etter førre møte: 109021 setningspar.
1_ape_n>wc -l data.* 109021 data.tagged.clean.nob 109021 data.tagged.clean.sme 1_ape_n>wc -l 20120 1_ape_n>wc -l 20120720_run/data.* 113287 20120720_run/data.tagged.clean.nob 113287 20120720_run/data.tagged.clean.sme
$GTFREE=/Users/cipriangerstenberger/20120924_schlange_reloaded find prestable/converted/nob -name \*.xml -exec corpus-parallel.py -p sme {} \;
Nye korpusfiler
BM og Marja har henta nye filer, primært sametingsprotokollar
- Tal på filer:
- Tal på ord:
- Tilstand:
Filene har vore i pdf-format. Etter konverteringa er ordene sjekka mot
Metadata
BM og Marja har brukt skripta til å sjekke parallellfilene
Dokumentering
Setningsparallellisering
Dokumentasjon av Script.
Ordparallellisering
Sme-analyse - Apertium:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \ head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt|tr -d '[<>/]'| \ hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol|grep '/\*'|wc -l Antall missing: 1312
Top missing av 1312:
22 ^rievttálaš/*rievttálaš$ 20 ^buohtalas/*buohtalas$ 18 ^NBR/*NBR$ 18 ^ee/*ee$^./.<CLB>$ 17 ^mill/*mill$^./.<CLB>$ 16 ^álggahansiidaoasi/*álggahansiidaoasi$ 15 ^ovttaoaivilis/*ovttaoaivilis$ 12 ^Evtt/*Evtt$^./.<CLB>$ 11 ^iešalddis/*iešalddis$ 11 ^guovludepartementa/*guovludepartementa$ 11 ^čearu/*čearu$ 8 ^seammaládje/*seammaládje$ 8 ^biebmodepar/*biebmodepar$ 8 ^almmolašrievttálaš/*almmolašrievttálaš$ 7 ^Rt/*Rt$^./.<CLB>$ 7 ^NOU/*NOU$ 7 ^makkárge/*makkárge$ 7 ^iešheanalis/*iešheanalis$ 7 ^Departementa/*Departementa$ 6 ^organiserema/*organiserema$ 6 ^og/*og$ 6 ^njuovžilis/*njuovžilis$
Sme-analyse - Giellatekno:
ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \ head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt | \ lookup -flags mbTT -utf8 main/gt/sme/bin/sme.fst|grep '+?'|wc -l Antall missing: 299
Top missing av 299:
9 og og +? 8 biebmodepar biebmodepar +? 5 headjuda headjuda +? 5 govttohemet govttohemet +? 4 tids tids +? 4 St.dieđ.nr St.dieđ.nr +?
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 natur+gode<n><nt> luonddubuorri<n>
Fra usme:
gt $ usme luonddubuorri luonddubuorri luonddubuorri+N+Sg+Nom luonddubuorri luondu+N+SgGenCmp+Cmp#buorri+N+Sg+Nom
Fra Apertium:
echo luonddubuorri |hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol^luonddubuorri/luonddubuorri<N><Sg><Nom>/luondu<N><Sg><Gen><Cmp>+buorri<N><Sg><Nom>$ <e><p><l>luonddubuorri<s n="N"/></l><r>naturgode<s n="n"/><s n="nt"/></r></p><par n="__n"/></e>
Fra fad_nobsme_candidates.20120721
14 0 -6.993 0.0 0.3636364 reindrift+linje<n><f> boazu+doallu+suorgi<n>
Fra usme:
gt $ usme boazodoallosuorgi boazodoallosuorgi boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom boazodoallosuorgi boazodoallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom boazodoallosuorgi +N+Sg+Nom
Fra Apertium:
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftlinje" | lt-proc nn-nb.automorf-no-cp.bin ^reindriftlinje/*reindriftlinje$ dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftslinje" | lt-proc nn-nb.automorf-no-cp.bin ^reindriftslinje/*reindriftslinje$ ^boazodoallosuorgi/boazodoallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doalut<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>$
Bugzilla
Arbeid framover
Morfologisk analyse av nordsamisk
Apertium sin nordsamiske fst inneheld berre dei som er i bidix. Vår analysator
Jf. ovafor (skilnad 299 vs. 1312 missing). Bruk analysatoren sme.fst (dvs. den deskriptive).
Morfologisk analyse av norsk
Apertium:
Giellatekno, Trond
main/st/nob/src/
make
unob
Norsk ordbank
main/st/nob/obt/
Sitat frå 00_readme.txt:
Basic usage =========== Usage on a mac: cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \ $GTHOME/st/nob/obt/bin/mtag-osx64 | \ vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3 Usage on victorio is same as above, but with mtag-linux32 instead, thus: cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \ $GTHOME/st/nob/obt/bin/mtag-linux32 | \ vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3 Advanced usage ============== In order to combine cg and statistics, you may use nob_morf-prestat.cg3 instead of nob_morf.cg3, thus the last line is: vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf-prestat.cg3
Konklusjon, analyse:
Dei beste analysatorane (med størst dekning) er:
- sme: sme.fst
- nob: main/st/obt/, den dokumentert under "Advanced usage".
Setningsparallellisering
000_run>find prestable/converted -name "*.xml" | wc -l 2934 20120924_schlange_reloaded>find prestable/converted -name "*.xml" | wc -l 2944
Ordparallellisering
Arbeidsplan
Tiltaksliste
- Hente tekst frå kommunar og fylkeskommunar (Marja, BM)
- Legge inn missing-ord i lexc-kjeldefilene (Marja, BM)
- Legge ut dokumentasjon på nett: ParallelCorpusConversion.jspwiki
( Berit)
- Legge inn missing-ord i lexc-kjeldefilene (Marja, BM)
- Konvertere til xml
- Stopp ved manglande abbr og analysator (Børre)
- Inkluder nob i innhaldssjekk (Børre, evt. Trond)
- Stopp ved manglande abbr og analysator (Børre)
- Setningsparallellisere
- Dokumentasjon av prosessen
- Dokumentasjon av prosessen
- Ordparallellisere
- integrere relevante fst-ar i pipeline (Ciprian)
- Debugge pipeline, sende til Trond (Ciprian)
- Evaluere (Trond, Ciprian)
- parallellisere (Ciprian)
- integrere relevante fst-ar i pipeline (Ciprian)
- Sjå på output frå i sommar (to kjøringer) + arbeidsrutine (Marja, BM)
- sammenligne outputten iht.
- kvantitet: øking av sannsynlighetstall for par som var allerede før
- kvalitet: øking av parallelle ord som er relevante til FAD-ordboka
- kvantitet: øking av sannsynlighetstall for par som var allerede før
- sammenligne outputten iht.
Framdrift:
Vi satsar på å ha ordparallellisert output til neste møte.
Neste møte
Fredag 10.10. når det passar for den finske presidenten.