121015
Contents:
FAD-Møte 15.10.2012
Til stades: Børre, Ciprian, Marja, Trond, Berit Merete
Saker:
- Ordparallellisering
- Arbeid framover
- Neste møte
Ordparallellisering
Cip har analysert med obt (Oslo-Bergen-taggaren, main/st/nob/obt)
No er pipeline ok, men det er problem med Giza. Jf. second_run/00_readme.txt.
Trass intensivt arbeid i helga kan Cip dermed ikkje levere ordparallelliserte
Apertium utan bidix
Prosedyre for å få full apertium, med alle ord:
- Leggja til alle orda i dev/infreq*.dix
- I trunk/apertium-nn-nb/dev/infreq*.dix, kopier heile
- I trunk/apertium-nn-nb/dev/infreq*.dix, kopier heile
- kompiler ny nb-nn.automorf.bin
Vi bruker sme-nob
I prinsippet to ulike alternativer/pipelines:
- Alternativ 1: Apertium:
- Maksimum nb frå nn-nb.nb.dix (med Kevin sitt tillegg frå infrequent)
- Maksimum sme (importert frå gt utan å trimme ned via sme-nob.dix, som dokumentert i apertium-sme-nob/update-morph, for å få apertium-sme-nob.sme.lexc maksimal)
- Maksimum nb frå nn-nb.nb.dix (med Kevin sitt tillegg frå infrequent)
- Alternativ 2: Originalane frå gt og obt:
-
mtag-osx64 frå main/st/nob/obt
- sme.fst frå main/gt/bin
-
mtag-osx64 frå main/st/nob/obt
Til i morgon får Ciprian output obt + gt (alternativ 2).
Output frå Giza++
Så på fad_nobsme_candidates_ap-pl.20121009. Den hadde være (på norsk) og masse parallelformer av samiske verb på andre siden.
Om det er output fra Giza, så ser det ut som om Giza ikke forstår at "er truet = lea áitojuvvon",
Toppen i fad_nobsme_candidates_ap-pl.20121009:
49839 0 0.8494 0.0 1.0 være<vblex> áitit<v><tv><der3><der_passl><v><imprt><sg2> 49839 0 0.8494 0.0 1.0 være<vblex> vuodjut<v><iv><der3><der_passl><v><ind><prs><sg3> 49839 0 0.8494 0.0 0.6666667 være<vblex> ambulánsa+vuodjit<v><tv><der2><actor><n> 49839 0 0.8494 0.0 0.5 være<vblex> ávvudit<v><tv><der3><der_passl><v><prfprc> 49839 0 0.8494 0.0 0.5 være<vblex> váldu+áŋgiruššat<v><iv><der4><der_n><n><pl><nom> ... 28628 0 0.295 0.0 0.1666667 ha<vblex> ii<v><iv><neg><imprt><pl2> 28628 0 0.295 0.0 0.1666667 ha<vblex> giella+nannet<v><tv><der4><der_n><n><sg><ill> 28628 0 0.295 0.0 0.1666667 ha<vblex> dássi+molsut<v><tv><der4><der_n><n><sg><gen> 28628 0 0.295 0.0 0.1666667 ha<vblex> dárkkistit+neavvut<v><tv><der2><actor><n> 28628 0 0.295 0.0 0.1666667 ha<vblex> buktit<v><tv><vabess> 97 0 -5.392 0.0 0.4210526 true<vblex> áitit<v><tv> 47 0 -6.116 0.0 0.25 synke<vblex> vuodjut<v><iv> 41 0 -6.253 0.0 0.0416667 forlengelse<n><m> joatkit<v><tv><der4><der_n><n><sg><gen> 34 0 -6.44 0.0 0.0015432 forenkle<vblex> joatkit<v><tv>
- echo videreføres
lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin |
- ^videreføres/videreføre<vblex><inf><pass>/videreføre<vblex><pres><pass>$
- echo videreført
lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin |
- ^videreført/videreføre<vblex><pp>/videreføre<adj><pp><nt><sg><ind>/videreføre<adj><pp><mf><sg><ind>$
1.0 videreføre<vblex> joatkit<v><tv><der_passs><v> 0.6 videreføre<vblex> joatkit<v><tv><der1><der_h><v> 0.5 være<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2> 0.5 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><ind><prt><sg2> 0.4305556 videreføre<vblex> joatkit<v><tv><der3><der_passl><v><inf>
ha<vblex> = 21176
Unike norske ord i
Samanlikne lemma og tag frå juli og oktober:
cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6| sort|uniq |wc -l 19822 cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|sort|uniq |wc -l 21176
- Det er 19822 unike norske ord med tag i materialet fra juli.
- Det er 21176 unike norske ord med tag i materialet fra oktober:
- Økningen er 1354
Samanline lemma utan tag frå juli og oktober:
cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l 18196 cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l 19403
- Det er 18196 unike norske ord uten tag i materialet fra juli.
- Det er 19403 unike norske ord uten tag i materialet fra oktober:
- Økningen er 1207
Eksempel for å sammenlikne juli og oktober: Samisk som adjektiv.
Fra juli, 4 av de 7 første kandidatene er interessante:
18674 0 0.2023 0.0 0.5 samisk<adj> -_08<a><ord> 18674 0 0.2023 0.0 0.3253493 samisk<adj> sámegiel<a> 18674 0 0.2023 0.0 0.2641509 samisk<adj> sápmelaš<a><der3><der_vuohta><n> 18674 0 0.2023 0.0 0.25 samisk<adj> -_1<a><ord> 18674 0 0.2023 0.0 0.1777778 samisk<adj> sápmelaš<a> 18674 0 0.2023 0.0 0.1428571 samisk<adj> čuovvut<v><tv><vabess><a> 18674 0 0.2023 0.0 0.137931 samisk<adj> sámegielalaš<a>
Fra oktober, 4 av de 4 første kandidatene er interessante:
28821 0 0.3017 0.0 0.3150685 samisk<adj> sámegiel<a> 28821 0 0.3017 0.0 0.2767857 samisk<adj> sápmelaš<a> 28821 0 0.3017 0.0 0.2745098 samisk<adj> sápmelaš<a><der3><der_vuohta><n> 28821 0 0.3017 0.0 0.1818182 samisk<adj> sámegielalaš<a>
Konklusjon
Taggar som skal med for nob:
- POS-taggen (den første), feks: samisk<adj> (denne er allerede implementert i Apertium)
- genustaggen for substantiv, feks: forlengelse<n><m> (denne er allerede implementert i Apertium)
- passiv for verb, viss dei står i passiv, feks: videreføre<vblex><inf><pass> (denne må implementeres i Apertium)
Arbeid framover
- Ny versjon av ordparallellisering med gt/obt til i morgon (Cip)
- Deretter evaluering av 1009 vs. 1016 (Márjá, BM)
Neste møte
Eitt av fleire tema: Setningsparallellisering
Neste møte blir torsdag 18.10 klokka 13.00