ocr_161215

Møte om OCR-prosessen 15.12.16.

Til stades: Lene, Thomas, Børre, Sjur, Trond

Saksliste

  • Oversyn over ocr-situasjonen
  • Konklusjonar
  • Arbeid framover

Oversyn over ocr-situasjonen

Ulike typar ocr-lese filar:

  1. Sametinget sine referat som .tiff
  2. Thomas og Maja har scanna

Sametinget sine referat som .tiff

Dette blir ocr-lese, og ocr-programmet lagrar både tekst og bilete jf. 2302.

Thomas og Maja har scanna. Første OCR-versjon dukka opp,

bug 2299

Vi skisserer typane slik vi vil ha det. filnamn_b er ikkje-ocr-filer. filnamn_a.ocr er ei fil som er ocr-lese, og filnamn_a.ocr.correct er same fil, men manuelt korrigert.

orig/
filnamn_b.doc     <== denne skal til konverterast til converted (vanlege filer)
filnamn_b.doc.xsl 
filnamn_a.ocr.doc     <== skal ikkje konverterast til boundcorpus/converted (x)
filnamn_a.ocr.doc.xsl <== har 'ocr' i metadata ==> blir ikkje konvertert
filnamn_a.ocr.correct.txt <== denne skal konverterast til goldstandard/converted (xx)
filnamn_a.ocr.correct.txt.xsl

Dette er t.d. Anna Jacobsen sine tekstar, men også t.d.

orig/sme/ficti/lindgren-sme-010-019corr.txt

Her er eit oversyn over Anna Jacobsen:

giellatekno:boundcorpus boerre$ find orig -name 'annajakobsen_don_jih_daan_bijre*.xsl'
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_1_kap_1-45.orig.rtf.xsl <== i buggen (x)
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_2_kap_1-45.orig.doc.xsl <== i buggen
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_3_kap_1-38.orig.doc.xsl <== i buggen
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.binorig.rtf.xsl  (også (x))
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.ocrorig.correct.txt.xsl (xx)
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1_kap_46-50.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.binorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2_kap_46-50.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.binorig.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3_kap_39-45.correct.txt.xsl

Det er ein del rot i filene i dag, det må bli rydda opp. Tema her er ikkje denne oppryddinga, men kva vi vil ha, korleis vi vil utføre rettingar og konverteringar.

Våre filer -- Anna Jacobsen -- har vorte retta med ocrleif§feil, t.d. slik:

goImeIuhkieuktsie§(golmeluhkieuktsie), Snåasesne golmeIuhkiegovhte§(golmeluhkiegovhte), Raanesne

Sametingsprotokollane har vorte retta med søk/erstatt.

Vi har med andre ord to alternativ:

a. (Sjur)
Dette er feIl§feil og dette er ei fIllesak§fillesak l (ei fil)

b. (Lene)
Dette er feIl og dette er ei fIllesak (fil i.)
Dette er feil og dette er ei fillesak (fil ii.)

diff-skript som produserer ny fil:
leif§feil
fIllesak§fillesak

Konklusjonar

Filene i systemet vårt:

  • Vi må rydde opp i dei ocr-filene som no ligg i systemet
  • Konvensjonar for filnamn som spesifisert ovafor
  • Metode (b) for manuell retting
  • Automatisk retting: OCR-mønster-retting som rettar til former som stavekontrollen kjenner att.
  • Filer å rette: Dei som er interessante nok (!)
  • Filer som ikkje er retta: blir ikkje konvertert

Framtidig ocr:

  • Vel metode (Tesseract?)
  • Vel språk (nordsamisk?)
  • Bygg språkmodellar (tekst? fst?)
  • ocr-les på nytt dei tekstane vi har korrigert manuelt for å utvikle parametersettinga

Arbeid framover

... blir tema for neste møte, over jul.