120925

FAD-Møte 25.9.2012

Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete

Saker:

  • Status quo
  • Bugzilla
  • Arbeid framover
  • Neste møte

Status quo

Status quo for data før tillegg etter førre møte: 109021 setningspar.

1_ape_n>wc -l data.*
  109021 data.tagged.clean.nob
  109021 data.tagged.clean.sme
1_ape_n>wc -l 20120
1_ape_n>wc -l 20120720_run/data.*
  113287 20120720_run/data.tagged.clean.nob
  113287 20120720_run/data.tagged.clean.sme

$GTFREE=/Users/cipriangerstenberger/20120924_schlange_reloaded find prestable/converted/nob -name \*.xml -exec corpus-parallel.py -p sme {} \;

Nye korpusfiler

BM og Marja har henta nye filer, primært sametingsprotokollar (både plenum og ulike komitémøte), men også ein del filer frå samiske kommuner.

  • Tal på filer:
  • Tal på ord:
  • Tilstand:

Filene har vore i pdf-format. Etter konverteringa er ordene sjekka mot missing-list. Det er ikkje konverteringsfeil i data. Dei orda som står i missing-list no er ord som genuint manglar i fst (flest skrivefeil).

Metadata

BM og Marja har brukt skripta til å sjekke parallellfilene (pick-parallel-docs.pl)

Dokumentering

Legge ut dokumentasjon av korpusinnsamlingsprosessene på nettet. Hvor?

Setningsparallellisering

Dokumentasjon av Script.

Ordparallellisering

Hvilken analysator bør man bruke? Giellatekno (sme og nob), Ordbank (nob) eller Apertium (sme og nob)?

Sme-analyse - Apertium:

 ccat  -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
 head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt|tr -d '[<>/]'| \
 hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol|grep '/\*'|wc -l

Antall missing: 1312

Top missing av 1312:

     22 ^rievttálaš/*rievttálaš$
     20 ^buohtalas/*buohtalas$
     18 ^NBR/*NBR$
     18 ^ee/*ee$^./.<CLB>$
     17 ^mill/*mill$^./.<CLB>$
     16 ^álggahansiidaoasi/*álggahansiidaoasi$
     15 ^ovttaoaivilis/*ovttaoaivilis$
     12 ^Evtt/*Evtt$^./.<CLB>$
     11 ^iešalddis/*iešalddis$
     11 ^guovludepartementa/*guovludepartementa$
     11 ^čearu/*čearu$
      8 ^seammaládje/*seammaládje$
      8 ^biebmodepar/*biebmodepar$
      8 ^almmolašrievttálaš/*almmolašrievttálaš$
      7 ^Rt/*Rt$^./.<CLB>$
      7 ^NOU/*NOU$
      7 ^makkárge/*makkárge$
      7 ^iešheanalis/*iešheanalis$
      7 ^Departementa/*Departementa$
      6 ^organiserema/*organiserema$
      6 ^og/*og$
      6 ^njuovžilis/*njuovžilis$

Sme-analyse - Giellatekno:

 ccat  -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \
 head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt | \
 lookup -flags mbTT -utf8 main/gt/sme/bin/sme.fst|grep '+?'|wc -l

Antall missing: 299

Top missing av 299:

   9 og      og      +?
      8 biebmodepar     biebmodepar     +?
      5 headjuda        headjuda        +?
      5 govttohemet     govttohemet     +?
      4 tids    tids    +?
      4 St.dieđ.nr      St.dieđ.nr      +?

Fra fad_nobsme_candidates.20120721

14 0 -6.993 0.0 0.3636364 natur+gode<n><nt> luonddubuorri<n>

Fra usme:

gt $ usme
luonddubuorri
luonddubuorri	luonddubuorri+N+Sg+Nom
luonddubuorri	luondu+N+SgGenCmp+Cmp#buorri+N+Sg+Nom

Fra Apertium:

echo luonddubuorri |hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol^luonddubuorri/luonddubuorri<N><Sg><Nom>/luondu<N><Sg><Gen><Cmp>+buorri<N><Sg><Nom>$

<e><p><l>luonddubuorri<s n="N"/></l><r>naturgode<s n="n"/><s n="nt"/></r></p><par n="__n"/></e>

Fra fad_nobsme_candidates.20120721

14 0 -6.993 0.0 0.3636364 reindrift+linje<n><f> boazu+doallu+suorgi<n>

Fra usme:

gt $ usme
boazodoallosuorgi
boazodoallosuorgi	boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi	boazodoallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom
boazodoallosuorgi	
+N+Sg+Nom

Fra Apertium:

dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftlinje" | lt-proc nn-nb.automorf-no-cp.bin 
^reindriftlinje/*reindriftlinje$
dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftslinje" | lt-proc nn-nb.automorf-no-cp.bin 
^reindriftslinje/*reindriftslinje$


^boazodoallosuorgi/boazodoallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doallu<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>/boazu<N><Sg><Nom><Cmp>+doalut<N><Sg><Nom><Cmp>+suorgi<N><Sg><Nom>$

Bugzilla

Arbeid framover

Morfologisk analyse av nordsamisk

Apertium sin nordsamiske fst inneheld berre dei som er i bidix. Vår analysator inneheld alle dei samiske orda vi har, mens apertium har fjerna dei som ikkje er i bidix.

Jf. ovafor (skilnad 299 vs. 1312 missing). Bruk analysatoren sme.fst (dvs. den deskriptive).

Morfologisk analyse av norsk

Apertium:

Her er den beste apertium-analysatoren den som ligg i apertium/trunk/apertium-nn-bn.

Giellatekno, Trond

main/st/nob/src/

make

unob

Norsk ordbank

main/st/nob/obt/

Sitat frå 00_readme.txt:

Basic usage
===========
Usage on a mac:

cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-osx64 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3

Usage on victorio is same as above, but with mtag-linux32 instead, thus:

cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \
$GTHOME/st/nob/obt/bin/mtag-linux32 | \
vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3 

Advanced usage
==============

In order to combine cg and statistics, you may use nob_morf-prestat.cg3 
instead of nob_morf.cg3, thus the last line is:

vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf-prestat.cg3

Konklusjon, analyse:

Dei beste analysatorane (med størst dekning) er:

  • sme: sme.fst
  • nob: main/st/obt/, den dokumentert under "Advanced usage".

Setningsparallellisering

000_run>find prestable/converted -name "*.xml" | wc -l
    2934
20120924_schlange_reloaded>find prestable/converted -name "*.xml" | wc -l
    2944

Ordparallellisering

Arbeidsplan

Tiltaksliste

  1. Hente tekst frå kommunar og fylkeskommunar (Marja, BM)
    1. Legge inn missing-ord i lexc-kjeldefilene (Marja, BM)
    2. Legge ut dokumentasjon på nett: ParallelCorpusConversion.jspwiki ( Berit)
  2. Konvertere til xml
    1. Stopp ved manglande abbr og analysator (Børre)
    2. Inkluder nob i innhaldssjekk (Børre, evt. Trond)
  3. Setningsparallellisere
    1. Dokumentasjon av prosessen
  4. Ordparallellisere
    1. integrere relevante fst-ar i pipeline (Ciprian)
    2. Debugge pipeline, sende til Trond (Ciprian)
    3. Evaluere (Trond, Ciprian)
    4. parallellisere (Ciprian)
  5. Sjå på output frå i sommar (to kjøringer) + arbeidsrutine (Marja, BM)
    1. sammenligne outputten iht.
      1. kvantitet: øking av sannsynlighetstall for par som var allerede før
      2. kvalitet: øking av parallelle ord som er relevante til FAD-ordboka

Framdrift:

Vi satsar på å ha ordparallellisert output til neste møte.

Neste møte

Fredag 10.10. når det passar for den finske presidenten.