121015

FAD-Møte 15.10.2012

Til stades: Børre, Ciprian, Marja, Trond, Berit Merete

Saker:

  • Ordparallellisering
  • Arbeid framover
  • Neste møte

Ordparallellisering

Cip har analysert med obt (Oslo-Bergen-taggaren, main/st/nob/obt) sme-data var allereie analysert med gt. Det var støy i obt, som Trond og spesielt Cip såg på i helga. Det er no i orden.

No er pipeline ok, men det er problem med Giza. Jf. second_run/00_readme.txt.

Trass intensivt arbeid i helga kan Cip dermed ikkje levere ordparallelliserte data no. Problemet er output frå analyse som skal til giza som input.

Apertium utan bidix

Prosedyre for å få full apertium, med alle ord:

  1. Leggja til alle orda i dev/infreq*.dix
    1. I trunk/apertium-nn-nb/dev/infreq*.dix, kopier heile <section id="infrequent"-elementet (men ikkje meir) frå dev/infreq*nb.dix inn i apertium-nn-nb.nb.dix (t.d. rett etter siste <section>)
  2. kompiler ny nb-nn.automorf.bin

Vi bruker sme-nob

I prinsippet to ulike alternativer/pipelines:

  1. Alternativ 1: Apertium:
    1. Maksimum nb frå nn-nb.nb.dix (med Kevin sitt tillegg frå infrequent)
    2. Maksimum sme (importert frå gt utan å trimme ned via sme-nob.dix, som dokumentert i apertium-sme-nob/update-morph, for å få apertium-sme-nob.sme.lexc maksimal)
  2. Alternativ 2: Originalane frå gt og obt:
    1. mtag-osx64 frå main/st/nob/obt
    2. sme.fst frå main/gt/bin

Til i morgon får Ciprian output obt + gt (alternativ 2). Vi jobber for å få til alternativ 1 for å sjekke om det er en forskjell i output. Alternativ 1 skal være ferdig etter at alternativ 2 er ferdig.

Output frå Giza++

Så på fad_nobsme_candidates_ap-pl.20121009. Den hadde være (på norsk) og masse parallelformer av samiske verb på andre siden.

Om det er output fra Giza, så ser det ut som om Giza ikke forstår at "er truet = lea áitojuvvon", men trur at være = áitojuvvon. Alt dette er støy.

Toppen i fad_nobsme_candidates_ap-pl.20121009:

49839 0 0.8494 0.0 1.0 være<vblex> áitit<v><tv><der3><der_passl><v><imprt><sg2>
49839 0 0.8494 0.0 1.0 være<vblex> vuodjut<v><iv><der3><der_passl><v><ind><prs><sg3>
49839 0 0.8494 0.0 0.6666667 være<vblex> ambulánsa+vuodjit<v><tv><der2><actor><n>
49839 0 0.8494 0.0 0.5 være<vblex> ávvudit<v><tv><der3><der_passl><v><prfprc>
49839 0 0.8494 0.0 0.5 være<vblex> váldu+áŋgiruššat<v><iv><der4><der_n><n><pl><nom>

...
28628 0 0.295 0.0 0.1666667 ha<vblex> ii<v><iv><neg><imprt><pl2>
28628 0 0.295 0.0 0.1666667 ha<vblex> giella+nannet<v><tv><der4><der_n><n><sg><ill>
28628 0 0.295 0.0 0.1666667 ha<vblex> dássi+molsut<v><tv><der4><der_n><n><sg><gen>
28628 0 0.295 0.0 0.1666667 ha<vblex> dárkkistit+neavvut<v><tv><der2><actor><n>
28628 0 0.295 0.0 0.1666667 ha<vblex> buktit<v><tv><vabess>

97 0 -5.392 0.0 0.4210526 true<vblex> áitit<v><tv>
47 0 -6.116 0.0 0.25 synke<vblex> vuodjut<v><iv>
41 0 -6.253 0.0 0.0416667 forlengelse<n><m> joatkit<v><tv><der4><der_n><n><sg><gen>
34 0 -6.44 0.0 0.0015432 forenkle<vblex> joatkit<v><tv>
  • echo videreføres
lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin
  • ^videreføres/videreføre<vblex><inf><pass>/videreføre<vblex><pres><pass>$
  • echo videreført
lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin
  • ^videreført/videreføre<vblex><pp>/videreføre<adj><pp><nt><sg><ind>/videreføre<adj><pp><mf><sg><ind>$
1.0 videreføre<vblex> joatkit<v><tv><der_passs><v>
0.6 videreføre<vblex> joatkit<v><tv><der1><der_h><v>
0.5 være<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2>
0.5 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2>
0.4305556 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><inf>

ha<vblex> = 21176 ha = 19403

Unike norske ord i

Samanlikne lemma og tag frå juli og oktober:

cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6| sort|uniq |wc -l
   19822
cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|sort|uniq |wc -l
   21176
  • Det er 19822 unike norske ord med tag i materialet fra juli.
  • Det er 21176 unike norske ord med tag i materialet fra oktober:
  • Økningen er 1354

Samanline lemma utan tag frå juli og oktober:

cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l
   18196
cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l
   19403
  • Det er 18196 unike norske ord uten tag i materialet fra juli.
  • Det er 19403 unike norske ord uten tag i materialet fra oktober:
  • Økningen er 1207

Eksempel for å sammenlikne juli og oktober: Samisk som adjektiv.

Fra juli, 4 av de 7 første kandidatene er interessante:

18674 0 0.2023 0.0 0.5 samisk<adj> -_08<a><ord>
18674 0 0.2023 0.0 0.3253493 samisk<adj> sámegiel<a>
18674 0 0.2023 0.0 0.2641509 samisk<adj> sápmelaš<a><der3><der_vuohta><n>
18674 0 0.2023 0.0 0.25 samisk<adj> -_1<a><ord>
18674 0 0.2023 0.0 0.1777778 samisk<adj> sápmelaš<a>
18674 0 0.2023 0.0 0.1428571 samisk<adj> čuovvut<v><tv><vabess><a>
18674 0 0.2023 0.0 0.137931 samisk<adj> sámegielalaš<a>

Fra oktober, 4 av de 4 første kandidatene er interessante:

28821 0 0.3017 0.0 0.3150685 samisk<adj> sámegiel<a>
28821 0 0.3017 0.0 0.2767857 samisk<adj> sápmelaš<a>
28821 0 0.3017 0.0 0.2745098 samisk<adj> sápmelaš<a><der3><der_vuohta><n>
28821 0 0.3017 0.0 0.1818182 samisk<adj> sámegielalaš<a>

Konklusjon

Taggar som skal med for nob:

  • POS-taggen (den første), feks: samisk<adj> (denne er allerede implementert i Apertium)
  • genustaggen for substantiv, feks: forlengelse<n><m> (denne er allerede implementert i Apertium)
  • passiv for verb, viss dei står i passiv, feks: videreføre<vblex><inf><pass> (denne må implementeres i Apertium)

Arbeid framover

  1. Ny versjon av ordparallellisering med gt/obt til i morgon (Cip)
  2. Deretter evaluering av 1009 vs. 1016 (Márjá, BM)

Neste møte

Eitt av fleire tema: Setningsparallellisering (filtrering, delvis parallelliserte dokumenter, grenseverdi, dokumentasjon, arbeidsfordeling, oppdatering av big/gt/sme/parallel_nob2sme/admin_out.txt)

Neste møte blir torsdag 18.10 klokka 13.00