121106
FAD-Møte 6.11.2012
Til stades: Ciprian, Marja, Trond, Berit Merete, Sjur, Børre
Saker:
- Status quo
- Oslo-Bergen-tagger
- Wikipedia
- Ukjente ord
- Parallellkorpus og prosessering
- Akilles og skilpadda
- Neste møte
Status quo
Parallellfiler og analyse
- Analyse: second_run/00_readme.txt.
- Talet på filpar som er forkasta pga. ubalanse har gått ned frå 418 til 241.
- Talet på filpar som er forkasta pga. ubalanse har gått ned frå 418 til 241.
- Ordparallellisering: second_run/work_in_progress/00_readme.txt, ukjente:
- sme N=1987867
- sme tokens: 39 212 (2012.10.28), 38 481 (2012.11.02)
- sme types: 20 701 (2012.10.28), 20 535 (2012.11.02)
- sme tokens: 39 212 (2012.10.28), 38 481 (2012.11.02)
- nob: N=2348630
- nob tokens: 11 060 (2012.10.28), 10 952 (2012.11.02)
- nob types: 3 426 (2012.10.28), 3 431 (2012.11.02)
- nob tokens: 11 060 (2012.10.28), 10 952 (2012.11.02)
Godkjenning av filpar
Márjá, Berit Merete og Børre har sett på dette. Jf. punkt lenger ned.
Oslo-Bergen-tagger
Testfiler generert som vist på
- cat $GTBIG/st/nob/corp/nowiki_aa.txt
obt/bin/mtag-osx64 |vislcg3 -g obt/src/nob_morf-prestat.cg3 > aa |
- cat aa
sum-cg.pl --words > aa-words |
- cat aa
sum-cg.pl --grammar > aa-grammar |
sum-cg.pl gjev talet på homonymi etter disambiguering.
aa-words: 19865 "<av>" prep adj fork "av" prep "AV" adj fork 9435 "<og>" konj konj clb "og" konj clb "og" konj 7862 "<i>" prep subst appell mask ub ent "i" subst appell mask ub ent "i" prep 3763 "<en>" det mask ent kvant pron ent pers hum "en" pron ent pers hum "en" det mask ent kvant 2964 "<de>" det dem fl pron fl pers 3 nom "de" pron fl pers 3 nom "de" det dem fl aa-grammar: 16931: subst appell nøyt ub ent subst appell nøyt ub fl 10400: konj clb konj 7751: subst appell mask ub ent prep 5257: adj ub m/f ent pos adj nøyt ub ent pos 3929: pron fl pers 3 nom det dem fl
TILTAK
- Trond følgjer opp obt.
Wikipedia
- Ciprian har brukt WP2TXT
- Trond har brukt WikiExtractor.py
Skilnaden dei i mellom er xml-syntaks vs. wikisyntaks:
xml: <title>blabla</title> wiki: ==blabla==
TILTAK
- Trond og Ciprian diskuterer Wikipedia-formatet : -)
Ukjente ord
NOB
Ciprian: cat ukjent_nob_20121028.txt |wc -l 3426 Av disse 3426 kan Trond analysera 265 med OBT: cat $GTBIG/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/ukjent_nob_20121028.txt \ | cut -c6- | cut -d"<" -f1 | $GTHOME/st/nob/obt/bin/mtag-osx64 |grep '^ '\ | grep -v ukjent | wc -l 265
Det betyr framleis at det er over 3100 ukjende NOB-ord i korpuset (ukjende for
mtag-osx64 < text | vår-tilleggs-fst | vislcg3 -g nob_morf-prestat.cg3
Her er topp-ti for ord ingen kjenner att:
"kap" ukjent "11-Rev" ukjent "lule" ukjent "allaskuvla" ukjent "siidaen" ukjent "of" ukjent "dei" ukjent "forr." ukjent "barne" ukjent
TILTAK
-
Trond og Ciprian synkroniserer og analyserer data ang nob ukjente ord
-
Trond ser på outputten av OBT analysen dvs. i kontekst
SME
Missing
Top missing (N=1987867 og deromkring)
841 og 546 for 395 av 356 til 159 Sak 147 om 136 samiske 136 of 134 med 110 er 103 samisk (...) 66 Arkiivaáššenr 64 buš- 61 Arkiiváššenr 54 Ođđasisj 52 Luondduhálddašan 47 Liigejuollud 26 dikki 25 álgoál
Svar: Fortsette med leksikalisering (BM, Marja).
Parallellkorpus og prosessering
Missing list er dominert av norsk. Problemet er at ikkje
Mål: ordne dette slik at også desse filene kan bli med.
Med pdf-filer er dette lett: vi kan legge til page range:
Tekstboksar er også lagt inn ulike stader i parallelldokument.
Problemet her er original-integritet.
Pagerange fungerer for pdf, men dessverre ikkje for andre format.
Vi har altså to alternativ:
- Slette asymmetriske filer (eller asymmetrisk innhald)
- Symmetrisere asymmetriske sider
Sjur: Vi bør ta utgangspunkt i tekst, ikkje i side.
BM: Vi kan kombinere desse to innfallsvinklane: Der side er
Børre: Det finst også dokument som har annakvar side og
Prosessere data ulikt alt ettersom hvordan dokumentet er
Informasjon om skip og later inn i metadata
TILTAK
-
Børre og Sjur implementerer skip og later i metadata
-
Márjá og BM legger inn info om dette når slike
Berit Merete sitt brev 5.11. 23: 32 :
Forslag til forbedring av parallellkorpuset
For øyeblikket er det helt rett å ikke godkjenne flere av disse
1. freecorpus/orig/sme/admin/depts/other_files/Klimamelding_St_meld_39_samisk.pdf freecorpus/orig/nob/admin/depts/other_files/STM200820090039000DDDPDFS.pdf --- Nob-fila har 177 sider, mens sme-fila har 23 sider. Dette fordi kun kapittel 1 er oversatt til samisk 2. freecorpus/orig/sme/admin/depts/other_files/NAC_2001_35.pdf freecorpus/orig/nob/admin/depts/other_files/NOU200120010035000DDDPDFA.pdf -- nob har 325 sider, sme har 74 sider. Kun kapittel 1 og 11 er oversatt til samisk.
En annen utfordring for antallet filer i det setningparalleliserte
3. freecorpus/orig/sme/admin/ffk/sp2011-2014-1.pdf -- dokumentet inneholder 15 sider, hvorav de to siste sidene er på norsk (sameloven). Denne filen blir ikke konvertert til xml pga av error-meldingen "too_low_mainlang".
Så har vi filer med løpende tekst som blir brutt av
4. freecorpus/orig/sme/admin/depts/other_files/HP_2009_samisk_sprak_nordsam.pdf freecorpus/orig/nob/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf -- paralleliseringen av filene går for så vidt greit, med noen feilparalleliseringer
Jeg har diskutert disse filene med Børre og han har kommet
Når det gjelder pdf-filer, går det an å legge inn informasjon
Når der gjelder filer som nevnt i nr 4, har Børre jobbet med å
Dette ville ha løst utfordringene med denne type filer på
Vi kan jo diskutere dette videre på møtet i morgen.
God natt!
Hilsen Berit
Akilles og skilpadda
Tema for neste møte.
Neste møte
Fysisk i Tromsø.
Ikkje måndag før lunsj, ikkje tysdag, onsdag og
Moglege tidspunkt: Tysdag og torsdag f.o.m. ca. 10.
Tentativ tid: Tysdag 13.11. 10.30