Meeting_2011-10-12
Korpusmøte Børre og Sjur
Børre har slått av språkgjenkjenningstesten pga alt for mykje støy frå særleg sørsamiske OCR-dokument. Problemet er OCR, ikkje språkgjenkjenningstestinga. Børre skal merka opp alle dokument som kjem frå OCR med passande metadata, og deretter oppdatera convert2xml til å hoppa over slike dokument med mindre dei blir eksplisitt spesifiserte eller bede om. Etter det kan språkgjenkjenningstesten bli slått på igjen, og bør gje nyttig informasjon.
Gjort til no:
- auka minimumsgrensa for text_cat - no krevst det minst 10 bokstavar før text_cat prøver seg -> bør føra til færre språkgjenkjenningsfeil
- lagt til språkkoder for alle språk som hadde dansk tekst i seg, slik at berre dei faktiske språka i dokumenta no blir prosesserte
- gjeld sme/admin/
- vil òg føra til færre språkgjenkjenningsfeil
- gjeld sme/admin/
TODO:
- merka opp alle dokument med OCR-bakgrunn (dvs ocr som digitaliseringskjelde må inn som metadata i xsl-fila) - vi hoppar over dei den nærmaste tida - 3 timar
- legg til ein opsjon i convert2xml for å inkludera OCR-filer (dei blir hoppa over i utgangspunktet, jf det førre punktet) - 2 timar
- sjekk om det enno finst uventa språk i det konverterte materialet, og oppdater xsl der det trengst - heile converted/sme/ - 1 dag
- endra ccat slik at om ikkje -l er spesifisert, får du alle språk - 3 timar
- legg inn ein sjekk på tome dokument - bruk ccat -a -S, både med og utan -l - 3 timar
- slå på att språkgjenkjenningstesten - 0,5 time
- sjekk parallellføringa - 2 dagar
- sjekk at parallelldokumentet finst
- seinare: konverter alle samtidig, og legg inn
- seinare: konverter alle samtidig, og legg inn
- sjekk at orda er ca like mange i begge/alle språka
- sjekk at parallelldokumentet finst
- hyph-buggane - 1 dag
Mål: mot slutten av neste veke kan vi byrja å fylla opp prestable med tekstar gode for parallellføring. Vi bør ha nokre merkbare innsjekkingar i prestable før veka er slutt.
Deretter - over i prestable:
- alle html - sjekk parallelle pdf-filer, byt ut mot html dersom det er mogleg
- alle txt
- alle doc
- alle pdf