121106

FAD-Møte 6.11.2012

Til stades: Ciprian, Marja, Trond, Berit Merete, Sjur, Børre

Saker:

  • Status quo
  • Oslo-Bergen-tagger
  • Wikipedia
  • Ukjente ord
  • Parallellkorpus og prosessering
  • Akilles og skilpadda
  • Neste møte

Status quo

Parallellfiler og analyse

  • Analyse: second_run/00_readme.txt.
    • Talet på filpar som er forkasta pga. ubalanse har gått ned frå 418 til 241.
  • Ordparallellisering: second_run/work_in_progress/00_readme.txt, ukjente:
  • sme N=1987867
    • sme tokens: 39 212 (2012.10.28), 38 481 (2012.11.02)
    • sme types: 20 701 (2012.10.28), 20 535 (2012.11.02)
  • nob: N=2348630
    • nob tokens: 11 060 (2012.10.28), 10 952 (2012.11.02)
    • nob types: 3 426 (2012.10.28), 3 431 (2012.11.02)

Godkjenning av filpar

Márjá, Berit Merete og Børre har sett på dette. Jf. punkt lenger ned.

Oslo-Bergen-tagger

Testfiler generert som vist på Wikipedia-sida

  • cat $GTBIG/st/nob/corp/nowiki_aa.txt
obt/bin/mtag-osx64 |vislcg3 -g obt/src/nob_morf-prestat.cg3 > aa
  • cat aa
sum-cg.pl --words > aa-words
  • cat aa
sum-cg.pl --grammar > aa-grammar

sum-cg.pl gjev talet på homonymi etter disambiguering.

aa-words:

19865
"<av>" prep  adj fork 
	"av" prep 
	"AV" adj fork 
9435
"<og>" konj  konj clb 
	"og" konj clb 
	"og" konj 
7862
"<i>" prep  subst appell mask ub ent 
	"i" subst appell mask ub ent 
	"i" prep 
3763
"<en>" det mask ent kvant  pron ent pers hum 
	"en" pron ent pers hum 
	"en" det mask ent kvant 
2964
"<de>" det dem fl  pron fl pers 3 nom 
	"de" pron fl pers 3 nom 
	"de" det dem fl 

aa-grammar:
16931: 
 subst appell nøyt ub ent 
 subst appell nøyt ub fl 

10400: 
 konj clb 
 konj 

7751: 
 subst appell mask ub ent 
 prep 

5257: 
 adj ub m/f ent pos 
 adj nøyt ub ent pos 

3929: 
 pron fl pers 3 nom 
 det dem fl 

TILTAK

  • Trond følgjer opp obt.

Wikipedia

  • Ciprian har brukt WP2TXT
  • Trond har brukt WikiExtractor.py

Skilnaden dei i mellom er xml-syntaks vs. wikisyntaks:

xml: <title>blabla</title>
wiki: ==blabla==

TILTAK

  • Trond og Ciprian diskuterer Wikipedia-formatet : -)

Ukjente ord

NOB

Ciprian:
cat ukjent_nob_20121028.txt |wc -l
    3426

Av disse 3426 kan Trond analysera 265 med OBT:
cat $GTBIG/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/ukjent_nob_20121028.txt \
	| cut -c6- | cut -d"<" -f1 | $GTHOME/st/nob/obt/bin/mtag-osx64 |grep '^   '\
	| grep -v ukjent | wc -l
     265

Det betyr framleis at det er over 3100 ukjende NOB-ord i korpuset (ukjende for OBT). OBT-taggaren er lukka, så kva gjer vi? Eitt alternativ er:

mtag-osx64 < text | vår-tilleggs-fst | vislcg3 -g nob_morf-prestat.cg3

Her er topp-ti for ord ingen kjenner att:

        "kap" ukjent
        "11-Rev" ukjent
        "lule" ukjent
        "allaskuvla" ukjent
        "siidaen" ukjent
        "of" ukjent
        "dei" ukjent
        "forr." ukjent
        "barne" ukjent

TILTAK

  • Trond og Ciprian synkroniserer og analyserer data ang nob ukjente ord
  • Trond ser på outputten av OBT analysen dvs. i kontekst (mål: få Oslo til å forbetre)

SME

Missing

Top missing (N=1987867 og deromkring)

 841 og
 546 for
 395 av
 356 til
 159 Sak
 147 om
 136 samiske
 136 of
 134 med
 110 er
 103 samisk
(...)
  66 Arkiivaáššenr
  64 buš-
  61 Arkiiváššenr
  54 Ođđasisj
  52 Luondduhálddašan
  47 Liigejuollud
  26 ­dikki
  25 álgoál

Svar: Fortsette med leksikalisering (BM, Marja).

Parallellkorpus og prosessering

Missing list er dominert av norsk. Problemet er at ikkje alle kapitla er omsett til samisk.

Mål: ordne dette slik at også desse filene kan bli med. Inn i xsl: kva sider skal med og kva skal ikkje med.

Med pdf-filer er dette lett: vi kan legge til page range: Vi vil ha side 20-24, osb.

Tekstboksar er også lagt inn ulike stader i parallelldokument. Tidlegare i veka laga Børre ein mekanisme for å få dette til å fungere, (flytte rundt på boksar?) og det fungerte.

Problemet her er original-integritet.

Pagerange fungerer for pdf, men dessverre ikkje for andre format.

Vi har altså to alternativ:

  1. Slette asymmetriske filer (eller asymmetrisk innhald)
  2. Symmetrisere asymmetriske sider

Sjur: Vi bør ta utgangspunkt i tekst, ikkje i side.

BM: Vi kan kombinere desse to innfallsvinklane: Der side er relevant bruker vi det, og i andre samanhengar brukar vi andre virkemiddel.

Børre: Det finst også dokument som har annakvar side og annakvar spalte på sme, nob. Desse ligg i dag i mixed. Programma pdf2text etc. har val der du kan dra ut side eller tekststraum. I dag dreg vi ut tekststraum. Det er også mogleg å dra ut side for side.

Prosessere data ulikt alt ettersom hvordan dokumentet er strukturert. Dette gjeld spesielt pdf-dokument: språkblanda på annakvar side, annakvar spalte, eller ulike seksjonar.

Informasjon om skip og later inn i metadata

TILTAK

  • Børre og Sjur implementerer skip og later i metadata og dokumenterer hvordan dette skal gjøres
  • Márjá og BM legger inn info om dette når slike dokument blir oppdaget

Berit Merete sitt brev 5.11. 23: 32 :


Forslag til forbedring av parallellkorpuset Jeg og Marja har sett på Ciprian sin forenkling av filtesting i html for wrong ratio filer (veldig bra!) og på bakgrunn av det kan vi si at det er en del store filpar som ikke blir godkjent av pick-parallell-files-scriptet.

For øyeblikket er det helt rett å ikke godkjenne flere av disse filene som parallelle filer siden disse filparene er ubalanserte, dvs at kun deler av den norske teksten er oversatt til samisk. Det gjelder blant annet disse filparene:

1. 
freecorpus/orig/sme/admin/depts/other_files/Klimamelding_St_meld_39_samisk.pdf
freecorpus/orig/nob/admin/depts/other_files/STM200820090039000DDDPDFS.pdf
--- Nob-fila har 177 sider, mens sme-fila har 23 sider. 
Dette fordi kun kapittel 1 er oversatt til samisk

2. 
freecorpus/orig/sme/admin/depts/other_files/NAC_2001_35.pdf
freecorpus/orig/nob/admin/depts/other_files/NOU200120010035000DDDPDFA.pdf
-- nob har 325 sider, sme har 74 sider. Kun kapittel 1 og 11 er oversatt til samisk.

En annen utfordring for antallet filer i det setningparalleliserte korpuset er samiske filer som inneholder noen sider på norsk, for eksempel denne filen:

3.
freecorpus/orig/sme/admin/ffk/sp2011-2014-1.pdf 
-- dokumentet inneholder 15 sider, hvorav de to siste sidene er på norsk (sameloven).
Denne filen blir ikke konvertert til xml pga av error-meldingen "too_low_mainlang".

Så har vi filer med løpende tekst som blir brutt av tekstvinduer med informasjon. Problemet er at disse tekstvinduene bryter den løpende teksten på forskjellige steder i den norske og den samiske filen. Et eksempel på dette filparet:

4.
freecorpus/orig/sme/admin/depts/other_files/HP_2009_samisk_sprak_nordsam.pdf
freecorpus/orig/nob/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf
-- paralleliseringen av filene går for så vidt greit, med noen feilparalleliseringer

Jeg har diskutert disse filene med Børre og han har kommet med noen forslag til løsninger.

Når det gjelder pdf-filer, går det an å legge inn informasjon i xsl-filen om page rage, dvs hvilke sider i originalfilen som skal paralleliseres. Dette ville ha løst 1., 2. og 3. problem .

Når der gjelder filer som nevnt i nr 4, har Børre jobbet med å implementere noen nye tagger som kan brukes til å løse utfordringer med tekstvinduer i løpende tekst. De nye taggene heter <later> og <skip> og de passer for alle typer filer (pdf, html etc). Disse taggene kan i følge Børre legges inn i xsl-filen.

Dette ville ha løst utfordringene med denne type filer på orig- og xsl-nivå.

Vi kan jo diskutere dette videre på møtet i morgen.

God natt!

Hilsen Berit


Akilles og skilpadda

Tema for neste møte.

Neste møte

Fysisk i Tromsø.

Ikkje måndag før lunsj, ikkje tysdag, onsdag og torsdag morgon, ikkje fredag.

Moglege tidspunkt: Tysdag og torsdag f.o.m. ca. 10.

Tentativ tid: Tysdag 13.11. 10.30