Meeting_2011-10-12

Korpusmøte Børre og Sjur

Børre har slått av språkgjenkjenningstesten pga alt for mykje støy frå særleg sørsamiske OCR-dokument. Problemet er OCR, ikkje språkgjenkjenningstestinga. Børre skal merka opp alle dokument som kjem frå OCR med passande metadata, og deretter oppdatera convert2xml til å hoppa over slike dokument med mindre dei blir eksplisitt spesifiserte eller bede om. Etter det kan språkgjenkjenningstesten bli slått på igjen, og bør gje nyttig informasjon.

Gjort til no:

  • auka minimumsgrensa for text_cat - no krevst det minst 10 bokstavar før text_cat prøver seg -> bør føra til færre språkgjenkjenningsfeil
  • lagt til språkkoder for alle språk som hadde dansk tekst i seg, slik at berre dei faktiske språka i dokumenta no blir prosesserte
    • gjeld sme/admin/
    • vil òg føra til færre språkgjenkjenningsfeil

TODO:

  • merka opp alle dokument med OCR-bakgrunn (dvs ocr som digitaliseringskjelde må inn som metadata i xsl-fila) - vi hoppar over dei den nærmaste tida - 3 timar
  • legg til ein opsjon i convert2xml for å inkludera OCR-filer (dei blir hoppa over i utgangspunktet, jf det førre punktet) - 2 timar
  • sjekk om det enno finst uventa språk i det konverterte materialet, og oppdater xsl der det trengst - heile converted/sme/ - 1 dag
  • endra ccat slik at om ikkje -l er spesifisert, får du alle språk - 3 timar
  • legg inn ein sjekk på tome dokument - bruk ccat -a -S, både med og utan -l - 3 timar
  • slå på att språkgjenkjenningstesten - 0,5 time
  • sjekk parallellføringa - 2 dagar
    • sjekk at parallelldokumentet finst
      • seinare: konverter alle samtidig, og legg inn parallellpeikarar berre til dei som faktisk blir konvertert
    • sjekk at orda er ca like mange i begge/alle språka
  • hyph-buggane - 1 dag

Mål: mot slutten av neste veke kan vi byrja å fylla opp prestable med tekstar gode for parallellføring. Vi bør ha nokre merkbare innsjekkingar i prestable før veka er slutt.

Deretter - over i prestable:

  • alle html - sjekk parallelle pdf-filer, byt ut mot html dersom det er mogleg
  • alle txt
  • alle doc
  • alle pdf