Bargovuohki
Dokumeanta čilge mo galgá bargat parallelliseremiin ja sirdit fiillaid prestable-katalogii.
Katalogat
-
orig: originálafiila (pdf, txt dahje html) ja meta-fiila (xsl)
-
converted: originálafiillat konverterejuvvojit xml-formáhtan.
-
prestable: dárkkistuvvon parallelliserejuvvon fiillat. Mii háliidit divvut
Gohččumat
Viežžat corpustools ođđaseamos veršuvnna
Go leat main/tools/CorpusTools/
python setup.py install --user --install-scripts=$HOME/bin
Kompileret tokeniser gielaide maid dárbbašat
sihke langs/nob- ja langs/sma-máhpas:
./autogen.sh ./configure --prefix=$HOME/.local --without-xfst --with-hfst --enable-tokenisers --enable-reversed-intersect --enable-alignment make -j make install
Gávdnojitgo paralleallafiillat dihto giellabáras dihto máhpas?
grep -rl '"sma" location="..*"' --include=*.xsl orig/nob/science/
Konverteret buot fiillaid dihto máhpas
convert2xml orig/sma/science/
Parallelliseret buot fiillaid dihto máhpas
parallelize -l2 sma converted/nob/science/
Reparallelliseret dihto fiilla
reparallelize FIILANAMMA.tmxhtml
Bargovuohki
- Iskka tmx-fiilla tmx -katalogas (mii ii leat svn: s)
- Divo xsl-fiilla orig -katalogas
- Vejolaččat raba fiilla converted -katalogas geahččat omd. gielladovdama dahje eará mii ii leat doaibman nugo galggašii, muhto ále divo dán fiillas.
- Parallellisere ođđasit: reparallelize tmxhtml
- Go leat duhtavaš, dahje don it sáhte fikset eanet xsl-fiillas, de sirddát fiilla omd. prestable/tmx/nob2sme/ ja šekket sisa (vuos svn add).
- Jus parallelliseren ii leat OK, de sáhtát divvut prestable-fiilla, ja de šekket ođđašit sisa kommentáraiguin (muital maid leat bargan).
Iskka tmx-fiilla tmx-katalogas
Mana buot omd. nob2sma-katalogaid alfabehtalaččat
Jos .tmx-fiillas ii leat parallealla sisdoallu:
- raba fiillaid orig-máhpas, oaidnit sisdoalu:
- html open fiila.html, dahje
- pdf open fiila.pdf dahje
- txt open fiila.txt
- html open fiila.html, dahje
-
see fiila.html.xsl redigeret xsl-fiilla.
- vej. see fiila.html redigeret html-fiilla.
Divo xsl-fiilla orig-katalogas
Mo rievddadit xsl-fiilla jos paralleallafiillas lea feaila:
- jos paralleallafiila ii leatge parallealla, de váldde liŋkka eret
- oza "parallels"
- oza "parallels"
- jos multilingual/monolingual ii leat riekta, de divo
- oza "monolingual"(1 mearkkaša ahte lea monolingual)
- divo, jus dárbu: <xsl: variable name="mainlang" select="'sma'"/>
- divo, jus dárbu: <xsl: variable name="mlangs">
-
mlangs galget dušše gielat, mat leat dokumeanttas
-
mlangs galgá leat guorus jus monolingual
- oza "monolingual"(1 mearkkaša ahte lea monolingual)
- lasit almmuhanjagi (jus ii leat), jus lea vejolaš dan oaidnit
- oza "year"
- oza "year"
- geavat iešguđetlágan skip-funkšuvnnaid (Reetta diehtá)
- čuokkis gos galgá leat rihkku mii fikset .xsl-fiillas
Divo html-konverteren corpustools/htmlcontentconversion.py
Divo html-fiilla orig-katalogas
- Raba geahččat sisdoalu: open fiila.html
- Raba divvut: see fiila.html
- Raba geahččat konverterema (omd. gielladovdama): converted-máhpas see fiila.html.xml. Dán fiilla it galgga divvut, danne go dat genererejuvvo
Maid sáhtát divvut orig-fiillas?
Nu unnán go vejolaš. Jos lea vejolaš fikset ášši .xsl-fiillas, de daga dan.
Metateaksta
Sáhtát orig-fiillas sihkkut metateavstta, mii bilida parallelliserema dahje gielladovdama, omd.
- Powered by ..., ja dalle ii galgga leat eng xsl-fiillas
Fuom, ahte "buhtis" metateaksta (taggaid haga) lea álkit sihkkut .xsl-fiillas.
html-taggat
Jos parallelliseren manná endorii html-taggaid dihte, lea 4 molssueavttu
Nu
Muhto jos lea álkibut divvut tmx-teavstta, de daga na:
- svn mv prestable/../fiila.tmx stable/../fiila.tmx + svn ci
- rievdat <tu>-nodaid
- sjekke sisa divvojuvvon veršuvnna
Tagga (+ attribuhtta) lea vejolaš váldit eret das:
$GTHOME/tools/CorpusTools/corpustools/htmlcontentconverter.py
Prinsihpas lea maid vejolaš dahkat dan juohke fiillas, .xsl: as:
<xsl:variable name="skip_elements" select="'.//body/div[1]/h2[1]'"/>
muhto dat ii velge doaimma.
Parallellisere ođđasit
jus lea rievdadan xsl-fiilla de
- vuos realign --convert fiila.tmx
- ja dan maŋŋel realign fiila.tmx
Jos lea buorre boađus:
Jos lea measta riekta:
Jos ii veahket,
svn rm prestable/tmx/nob2sma/facta/fiila.tmx svn rm prestable/tmx/nob2sma/facta/fiila.tmx.html svn ci -m "ii lean parallealla" prestable/tmx/nob2sma/facta/fiila.tmx prestable/tmx/nob2sma/facta/fiila.tmx.html
Lea vejolaš
- váldit eret teavstta nob-fiillas
- váldit nob-teavstta eret smX-fiillas
- muhto buoret lea dahkat dan tmx-fiillas prestable-katalogas stable-katalogii.
Konverterenprográmma buggat
omd mo listu sáhttá leat (go kommentára lea linnjá álggus, de lea álki sorteret:
OK : prestable/tmx/nob2sma/facta/gielemnastedh.no/apen-barnehagedag.html.tmx.html Sihkkon : prestable/tmx/nob2sma/bible/osko/index.php_kat_id=102_art_id=88.html.tmx.html To_be_fixed BUGpunktum (dahton loahpas) : prestable/tmx/nob2sma/admin/sd/samediggi.no/sametinget-inviterer-til-duodjikonferanse-27.-28.-januar-2016.html.tmx.html