Meeting_2017-03-03

Korpusbargu

Plánenčoahkkin 3.3.17: Børre, Lene, Trond.

Ođđa bargi barggu birra

Parallelliseren

  • Galle cealkapára lea juohke xxx2xxx-katalogas?
  • evalueret automáhtalaš parallelliserejuvvon teavsttaid
    • 855 .html-fiilla prestable -sme ls prestable/tmx/fin2sme/fin
    • sme2smn, smn2sme, fin2sme, sme2fin, gal maid eará katalogat
    • smj2nob, ...
  • Bargu:
    • Mannat tmxaid čađa
    • Jos lea hui bahá boađus de sihkut .html-fiilla
    • Doallat testenbeaivegirjji ja
    • rapporteret feaillaid
    • (oažžut veahki ja) čállit .xsl-fiilii

Heajos parallelliseren. Sivat sáhttet leat:

  • fiillat eai leat paralleallat
  • nubbi lea pdf ja nuppi lea txt/docx
  • ohcat minstariid das mo sáhttá buoridit parallelliserenprográmma

Paraleallateavsttaid lea vejolaš geavahit masa:

  1. sátnegirjjit - sátnegirjipárat = korp
  2. MT-barggu vuođđamateriála
  3. TM (OmegaT)

Paralleallafiillat odne (galle fiilla prestable/tmx: s):

tmx $ for i in * 
> do
> echo $i
> find $i -name '*.html'|wc -l
> done

855 fin2sme dict, mt  <===== 1
488 fin2smn dict  <===== 2
484 sme2smn mt
460 sme2sma mt
372 nob2sme dict, mt
326 sme2smj
310 smj2sma
290 fin2sms dict   <===== 3
283 sms2fin dict
280 smn2sms
279 sme2sms
177 sma2nob dict  <====== 4
150 sme2nob dict
135 sme2nno
87  smj2nob
55  sme2eng dict
20  fkv2nob dict
10  smj2sme

Eará áššit

  • Teavsttaid čoaggit Interneahtas (eren. Suoma bealde?)
  • Korpusa čorget (gávdnat boasttukonverteremiid, boasttugielaid jnv), eren. suoma beale teavsttaid
  • Buoridit metadata korpusis, erenoamážit suoma beale
  • sme-fin MT (generaliseret váttisvuođaid maid nubbi olmmoš implementere)