Meeting_2017-07-04
Møte om korpuskonvertering og -parallellisering, 4.7. 2017
Til stades: Ciprian, Reetta, Risten, Trond
Oversyn over prosessen
orig:
html/doc/pdf/txt
==> endring av ..
a.  html: xpath
    doc: 
    pdf: cm på arket
    txt: linjenr
b.  alle: str1/str2/str3/ -> rpl1/rpl2/rpl3
    
ikkje ha denne fila (feil språk)
xsl:
lenke til feil parallellfil
språkidentifikasjon
ulikt innhald
preprosessering.
    Forbetre preprocess (Ciprian, sjå nedanfor)
    
parallellisering
    Sjekke om filparet er korrekt parallellisert:
    a. viss ja:
    Flytt over til stable (sjå nedanfor)
    b. viss nei
      Sjekk om parallelliseringa kan rettast opp
      i. Ja, det kan det 
      med betre input (sjå ovafor): 
      ==> forbetre input og parallelliser på nytt
      eller med betre parallelliseringsprogram (tca2) 
      (betre anchor-liste, betre tca2-parameter, ...)
      ==> forbetre tca2 eller anchor-nob-sma og parallelliser på nytt
      ii. Nei, det kan det ikkje:
      (dette er få filer)
      ==> manuelt arbeid og deretter flytt til stable
Korleis flytte til stable:
Flytt heile katalogen: 
Flytt ei og ei fil: 
TODO-liste
- Bygg parallell struktur i stable (Ciprian)
- språkattkjenning fungerer ikkje (Ciprian) (viss "'1'" og mlang = "sme" så alle språk)- preprocess (eksempel nedanfor)
- xpath-pair-avsnitt: Her treng vi dokumentasjon (sjå: "epub or html" nedanfor)
Eksempel
preprocess:
Riktig form, riktig preprossessering
$ echo "Måantan, ruffien 10. b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b. 2017
Feil form, riktig preprossessering
$ echo "Måantan, ruffien 10.b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b. 2017
Riktig form, riktig preprossessering
$ echo "Måantan, ruffien 10. b."|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b.
Feil form, feil preprossessering
$ echo "Måantan, ruffien 10.b."|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10 . b.
Sjå også denne:
echo " sajos(at)samediggi.fi"|preprocess --abbr=tools/preprocess/abbr.txt sajos ( at ) samediggi . fi
epub or html
Relevant tekst i .xsl 
        This variable is used for epub or html files.
        select contains comma separated xpath path pairs.
        A path pair is separated by a semicolon.
        Each path should start with .//body
        Examples of valid pairs:
        * .//body/div[1]/h2[1];.//body/div[3]/div[1]/h3[1]
        * .//body/div[5];.//body/div[8]/div[3]/h1[1], .//body/div[11]/div[2];.//body/div[11]/div[5]

