121120
FAD- og korpusmøte 20.11.2012
Til stades: Ciprian, Trond, Marja
Saker:
- Status
- Oslo-Bergen-tagger
- nobsme
- Neste møte
Status
Ciprian har samanlikna sentence alignment.
Vi har framleis problem med punktum
Sitat Cips brev av 14.11.
Hei,
jeg har sett litt på mulige forskjellen mellom de siste toktmx og de før:
For nob er alt ok, men det ser sånn ut at buggen som vi hadde
toktmx>ddf nob2sme pre_run/nob2sme
I give up!
Ciprian
Example 01:
diff -E -B -b -w -r nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (nå) pre_run/nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (før) 210c210,218 < <seg>§ 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10.dásis .</seg> --- <seg>§ 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10 .</seg> </tuv> </tu> <tu> <tuv xml:lang="nob"> <seg></seg> </tuv> <tuv xml:lang="sme"> <seg>dásis .</seg>
Example 02:
diff -E -B -b -w -r nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (nå) pre_run/nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (før) 18c18 < <seg>E JØM . RKE IL</seg> --- <seg>E JØM RKE IL</seg> 55c55 < <seg></seg> --- <seg>Handlingsplan for samiske språk</seg> 63c63 < <seg>Handlingsplan for samiske språk</seg> --- <seg>Handlingsplan</seg>
Poenget her er at den nye preprosesseringa legg til punktum som ikkje var
Vi må dokumentere testing av toktmx-fila.
Enkel testing for toktmx:
- enten å ta vare på tca2 pekene og/eller enkle statistikken av
Oslo-Bergen-tagger
Cip har analysert bokmåplswikipedia med OBT-stat.
Først analyse med 300 ord, det gjekk fint.
new_analysis_wiki>wc -l input_00_wiki/* 300 input_00_wiki/p-a_01_test.txt 300 input_00_wiki/p-a_02_test.txt 300 input_00_wiki/p-a_03_test.txt 300 input_00_wiki/p-a_04_test.txt
Så analyse med heile wikipedia (60 mill ord, 7,3 mill linjer), det gjekk ikkje.
Analysatoren stansar for den første fila. Prosessen med ruby køyrer ikkje.
new_analysis_wiki>ls -latru wiki.*nowiki* -rw-r--r--+ 1 ciprian staff 0 20 nov 10:35 wiki.tag.noisy.nob.nowiki_aa -rw-r--r--+ 1 ciprian staff 40369111 20 nov 10:35 wiki.raw.clean.nob.nowiki_aa
Filer med xyz (Ciprians verkty, 1,8 mill linjer per fil, det gjekk ikkje.
new_analysis_wiki>wc -l 000_bu_wiki_input/* 1839533 000_bu_wiki_input/p-a_01.txt 1839581 000_bu_wiki_input/p-a_02.txt 1839616 000_bu_wiki_input/p-a_03.txt 1839500 000_bu_wiki_input/p-a_04.txt 7358230 total
Filer med WikiExtractor.py, ca. 0,2 mill linjer per fil, det gjekk ikkje.
new_analysis_wiki>wc -l ../../../../nob/corp/*.txt 189183 ../../../../nob/corp/nowiki_aa.txt 225291 ../../../../nob/corp/nowiki_ab.txt ...
main/st/nob/obt echo "jeg gjør det" | $GTHOME/st/nob/bin/mtag-osx64 -wxml | vislcg3 -g $GTHOME/st/nob/src/nob_morf-prestat.cg3 --no-pass-origin -e $GTHOME/st/nob/OBT-Stat/bin/run_obt_stat.rb perl -ne 'print if /\S/'
$GTHOME/st/nob/obt/bin/mtag-osx64 -wxml < $INTERIM_1 vislcg3 -C latin1 --codepage-input \ utf-8 -g $CGF --codepage-output utf-8 --no-pass-origin -e | $GTHOME/st/nob/obt/OBT-Stat/run_obt_stat.rb | perl -ne 'print if /\S/' > $INTERIM_2
#!/bin/sh if [ $# -ne 1 ] then echo "Usage: `basename $0` TEXTFILE" exit $E_BADARGS fi bin/mtag -wxml < $1 | vislcg3 -C latin1 --codepage-input \ utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \ OBT-Stat/bin/run_obt_stat.rb | perl -ne 'print if /\S/'
echo "Jeg gjør det." | bin/mtag -wxml | \ vislcg3 -C latin1 --codepage-input utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \ OBT-Stat/bin/run_obt_stat.rb | \ perl -ne 'print if /\S/'
no.crp.txt is the Wikipedia for Bokmål, then I tagged and stripped it,
TILTAK
- Cip ser på debugging av pipeline
- Trond, Marja og BM ser på siste apertium: fad_nobsme_candidates_ap-pl.20121028
- Trond snakkar med Fran om format/pipeline (url)
nobsme
Cip har fletta alt til src/.
If you put together n/v_nobsme from source with that from new_entries2add you get
work_in_prog>grep '<l ' n_nobsme.xml | sort | uniq -c | sort -nr | grep '2' | wc -l 319 work_in_prog>grep '<l ' v_nobsme.xml | sort | uniq -c | sort -nr | grep '2' | wc -l 17
Dublettar: 319 av 717 substantiv, 17 av 59 verb.
<e merged="2"> <lg> <l pos="a">profesjonell</l> </lg> <mg> <tg xml:lang="sme"> <t pos="a">profesjonealla</t> </tg> </mg> <mg> <tg xml:lang="sme"> <t pos="a">ámmátlaš</t> </tg> </mg> </e> <e merged="2"> <lg> <l pos="a">stri</l> </lg> <mg> <tg xml:lang="sme"> <t pos="a">čáris</t> <t pos="a">garra</t> <t pos="a">rávdnjái</t> </tg> </mg> <mg> <tg xml:lang="sme"> <t pos="a">stráŋga</t> </tg> </mg> </e> <e merged="2"> <lg> <l pos="a">lignende</l> </lg> <mg> <tg xml:lang="sme"> <t pos="a" usage="vd">seammasullasaš</t> <t pos="a">sullásaš</t> </tg> </mg> </e> <e merged="3"> <lg> <l pos="a">tverrfaglig</l> </lg> <mg> <tg xml:lang="sme"> <t pos="a">fágaidgaskasaš</t> </tg> </mg> <mg> <tg xml:lang="sme"> <t pos="a">fágaidrasttideaddji</t> </tg> </mg> <mg> <tg xml:lang="sme"> <t pos="a" usage="vd">doaresfágalaš</t> </tg> </mg> </e> <e> <lg> <l pos="a">bevisst</l> </lg> <mg> <tg xml:lang="sme"> <t pos="a" usage="vd">diđolaš</t> <t pos="a" usage="vd">dihtomielalaš</t> </tg> </mg> </e>
Til meg der disse en "minimalpar" med bare en Fugevokal som forskjell. Hvis dem har samme
<l pos="n">økshammer</l>
To typar dublettar:
- Dei som er i src, dei er merka med "2".
- Leksikografar: vent med n, v
- Leksikografar: For andre ordklassar:
- Leksikografar: vent med n, v
- Dei som er i new_entries2add, og har dublettar i src (319/717 n, 17/59 v)
- Ciprian unifiserer
- Deretter arbeider leksikografane
- Ciprian unifiserer
Neste møte
Seint i neste veke.