ocr_161215
Møte om OCR-prosessen 15.12.16.
Til stades: Lene, Thomas, Børre, Sjur, Trond
Saksliste
- Oversyn over ocr-situasjonen
- Konklusjonar
- Arbeid framover
Oversyn over ocr-situasjonen
Ulike typar ocr-lese filar:
- Sametinget sine referat som .tiff
- Thomas og Maja har scanna
Sametinget sine referat som .tiff
Dette blir ocr-lese, og ocr-programmet lagrar både tekst og bilete
Thomas og Maja har scanna. Første OCR-versjon dukka opp,
bug 2299
Vi skisserer typane slik vi vil ha det. filnamn_b er ikkje-ocr-filer.
orig/ filnamn_b.doc <== denne skal til konverterast til converted (vanlege filer) filnamn_b.doc.xsl filnamn_a.ocr.doc <== skal ikkje konverterast til boundcorpus/converted (x) filnamn_a.ocr.doc.xsl <== har 'ocr' i metadata ==> blir ikkje konvertert filnamn_a.ocr.correct.txt <== denne skal konverterast til goldstandard/converted (xx) filnamn_a.ocr.correct.txt.xsl
Dette er t.d. Anna Jacobsen sine tekstar, men også t.d.
orig/sme/ficti/lindgren-sme-010-019corr.txt
Her er eit oversyn over Anna Jacobsen:
giellatekno:boundcorpus boerre$ find orig -name 'annajakobsen_don_jih_daan_bijre*.xsl' orig/sma/ficti/annajakobsen_don_jih_daan_bijre_1_kap_1-45.orig.rtf.xsl <== i buggen (x) orig/sma/ficti/annajakobsen_don_jih_daan_bijre_2_kap_1-45.orig.doc.xsl <== i buggen orig/sma/ficti/annajakobsen_don_jih_daan_bijre_3_kap_1-38.orig.doc.xsl <== i buggen orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.binorig.rtf.xsl (også (x)) orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.doc.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.ocrorig.correct.txt.xsl (xx) orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1_kap_46-50.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.binorig.rtf.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.doc.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.rtf.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2_kap_46-50.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.binorig.doc.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.rtf.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3_kap_39-45.correct.txt.xsl
Det er ein del rot i filene i dag, det må bli rydda opp. Tema her er ikkje
Våre filer -- Anna Jacobsen -- har vorte retta med ocrleif§feil, t.d. slik:
goImeIuhkieuktsie§(golmeluhkieuktsie), Snåasesne golmeIuhkiegovhte§(golmeluhkiegovhte), Raanesne
Sametingsprotokollane har vorte retta med søk/erstatt.
Vi har med andre ord to alternativ:
a. (Sjur) Dette er feIl§feil og dette er ei fIllesak§fillesak l (ei fil) b. (Lene) Dette er feIl og dette er ei fIllesak (fil i.) Dette er feil og dette er ei fillesak (fil ii.) diff-skript som produserer ny fil: leif§feil fIllesak§fillesak
Konklusjonar
Filene i systemet vårt:
- Vi må rydde opp i dei ocr-filene som no ligg i systemet
- Konvensjonar for filnamn som spesifisert ovafor
- Metode (b) for manuell retting
- Automatisk retting: OCR-mønster-retting som rettar til former som stavekontrollen kjenner att.
- Filer å rette: Dei som er interessante nok (!)
- Filer som ikkje er retta: blir ikkje konvertert
Framtidig ocr:
- Vel metode (Tesseract?)
- Vel språk (nordsamisk?)
- Bygg språkmodellar (tekst? fst?)
- ocr-les på nytt dei tekstane vi har korrigert manuelt for å utvikle parametersettinga
Arbeid framover
... blir tema for neste møte, over jul.