Meeting_2017-07-04
Møte om korpuskonvertering og -parallellisering, 4.7. 2017
Til stades: Ciprian, Reetta, Risten, Trond
Oversyn over prosessen
orig: html/doc/pdf/txt ==> endring av .. a. html: xpath doc: pdf: cm på arket txt: linjenr b. alle: str1/str2/str3/ -> rpl1/rpl2/rpl3 ikkje ha denne fila (feil språk) xsl: lenke til feil parallellfil språkidentifikasjon ulikt innhald preprosessering. Forbetre preprocess (Ciprian, sjå nedanfor) parallellisering Sjekke om filparet er korrekt parallellisert: a. viss ja: Flytt over til stable (sjå nedanfor) b. viss nei Sjekk om parallelliseringa kan rettast opp i. Ja, det kan det med betre input (sjå ovafor): ==> forbetre input og parallelliser på nytt eller med betre parallelliseringsprogram (tca2) (betre anchor-liste, betre tca2-parameter, ...) ==> forbetre tca2 eller anchor-nob-sma og parallelliser på nytt ii. Nei, det kan det ikkje: (dette er få filer) ==> manuelt arbeid og deretter flytt til stable
Korleis flytte til stable:
Flytt heile katalogen:
Flytt ei og ei fil:
TODO-liste
- Bygg parallell struktur i stable (Ciprian)
- språkattkjenning fungerer ikkje (Ciprian) (viss "'1'" og mlang = "sme" så alle språk)
- preprocess (eksempel nedanfor)
- xpath-pair-avsnitt: Her treng vi dokumentasjon (sjå: "epub or html" nedanfor)
Eksempel
preprocess:
Riktig form, riktig preprossessering
$ echo "Måantan, ruffien 10. b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b. 2017
Feil form, riktig preprossessering
$ echo "Måantan, ruffien 10.b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b. 2017
Riktig form, riktig preprossessering
$ echo "Måantan, ruffien 10. b."|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b.
Feil form, feil preprossessering
$ echo "Måantan, ruffien 10.b."|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10 . b.
Sjå også denne:
echo " sajos(at)samediggi.fi"|preprocess --abbr=tools/preprocess/abbr.txt sajos ( at ) samediggi . fi
epub or html
Relevant tekst i .xsl
This variable is used for epub or html files. select contains comma separated xpath path pairs. A path pair is separated by a semicolon. Each path should start with .//body Examples of valid pairs: * .//body/div[1]/h2[1];.//body/div[3]/div[1]/h3[1] * .//body/div[5];.//body/div[8]/div[3]/h1[1], .//body/div[11]/div[2];.//body/div[11]/div[5]