Meeting_2011-09-21

Korpus-møte

Til stades: Børre, Ciprian, Sjur, Trond

  • Status quo for innsamla data
  • Konverteringa
  • Språktagging
  • Parallellføring
  • Testing
  • Korpusstrategi
  • Status quo for uinnsamla data
  • Arbeidsprioritering framover
  • Clarino, META-NET?
  • Neste møte

Status quo for innsamla data

Konverteringa

dtd berre online

xml som blir konvertert gjennom konvertering blir validert mot divvun-servaren. Det vi vil:

  1. Kunne konvertere også offline.
  2. Kunne oppdatere dtd-ane utan manuell kopiering på divvun.no

Løysing: Referere til dtd lokalt gjennom heile konverteringa, men byt ut til dtd-ref på nettet i det ferdigkonverterte dokumentet.

TILTAK

  • køyre dtd-ane inn i svn i kvar katalog og referere til dei lokalt
  • oppdatera nett-dtd-en automatisk når svn blir oppdatert

Konverteringsfeil

Dvs convert2xml:

  • span og skrivefeil i same avsnitt - span blir konvertert, ikkje feilmerkinga.
  • ocr-feil (rapportert her, jf. #1024)
  • feil rapportert i bugzilla (11 bugar)
    • 1141 sma orig/ficti/anna_... are converted with Žž for the scandinavian chars
    • 984 Verse stanzas flawed in sma Bible
    • 1139 Spaces in wrong places, multiword output in nested markup with ccat -S
    • 1005 Still 3554 doublet sentences in sma corpus
    • 1024 ocr-feil og språkmerkingsfeil i sma
    • 1028 18 Couldn't convert - files
    • 1029 11 files in freecorp with "not able to make valid xml out of"
    • 1061 Language identification ignores xml: lang value
    • 1048 Language detection assigns non-available languages to converted files
    • 1074 Possible infinite template recursion because of input data
    • 1073 stable/converted: Footnote in HTML-documents

Parallellføring:

  1. finst det eit parallelt dokument?
  2. inneheld det parallelle dokumentet tekst?
  3. inneheld dei parallelle dokumenta tekst på rett språk?

pdf-dokument i stable

~/freecorpus/stable/converted/sme/admin/depts$ll other_files/*xml|wc -l
      62
~/freecorpus/stable/converted/sme/admin/depts$ll regjeringen.no/*xml|wc -l
    1003
  • convert2xml missar 12 av 12 000 dokument
  • dei som står i nob og sma admin dept er no i stable

Testing

dersom konverteringa er ok, sjekk innhaldet:

Språktagging:

  • hovudspråk - (likt dir-språk?)
  • andre språk - kva slags (berre rapport)
  • andre språk - meir enn 2?

Innhaldssjekking:

  • kor mange ord er det i dokumentet? Er det tomt? (XSL eller ccat)
  • for kvart anna språk, kor mange ord er det jf med hovudspråket? (ccat -l XXX -S
wc -l)
  • for kvart språk vi kan analysera: kor mange ukjende ord er det? > 5% = ERR

Språktagging

cat_text

ccat -l smj -r stable/../sme/../regjeringen.no/ inneheld 15% nordsamisk

Denne innehelt 15% sme. Vi må forbetre cat_text

TILTAK

  • Forbetre cat_text

Testing av stable

testing av sme/../regjeringen.no

Teknisk har konverteringa av html-filene gått bra. Det er ingen vesentlege feil med konvertering og språkattkjenning. Den typen feil som står att treng vi metodar for å finne.

Oppdatering: det er framleis problem med tekstgjenkjenninga (OCR? nei, vanleg tekst), men det krev fyrst og fremst oppdaterte metadata, jf Bugzilla #1146.

  • strukturfeil (overskrifter, tabellar som går inn i brødteksten)
  • parallellitet (er heile sme på sme, er heile nob på nob?)

testing av sme/../other_files

Korpusstrategi

"stable"

Kva er stable?

  1. Sjur: Kvalitetssikra (automatisk, manuell) og sjekka for minst eitt bruksområde B. Metadata: stable modulo B.
    1. Men: kva er B? ±parallell, ±original == .xsl !!!
  2. Trond: Vi treng både unstable og stable.

Bruksområde:

  • parallellføring
  • syntaktisk analyse
  • termekstrahering

Framtid:

stable/
	   converted/
	   tagged/
	   goldstandard/

Språkblanda dokument

Dokument som inneheld same tekst fleire gonger, på ulike språk

  1. multikatalog
  2. duplisere og triplisere dokumenta
  3. ha dokumentet i språkkatalogen til språket som står først

Konsensus for 1.? Ja.

Status quo for uinnsamla data

  • jus! nac1993 = NOU (den står i admin/dept/nou og i
  • lovtekstar i
  • opplæringslova står på sme, ikkje på nno

arbeidsprioritering framover, deadlines

  1. ccat-feil for testbenkprosjektet
  2. Innhald
    1. parallell sme-nob (FAD, Autsh, online)
    2. monolingual sma (grammatikkutvikling)

Deadlines

Neste møte