141217

Møte om lule- og sørsamisk korpusinnsamling

17.12. 2014. Børre, Kevin, Sandra, Trond.

sme→smj

  • $GTHOME/words/dicts/smesmj/
  • $GTHOME/words/dicts/smesmj/src/ = kjeldefiler til ordboka
  • $GTHOME/words/dicts/smesmj/script = for å kompilere fst av ordboka

Ordboka smesmj

Dette er ei ordbok:

echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst 
čállit        tjállet

Lulesamifisering

Dette er ein lulesamifiserar:

Kommandosett for å kompilere lulesamifiserar:

cd $GTHOME/gt/smj/src/
xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop

Bruk:

lookup -q sme2smj.fst
čállit

cat nordsamisk-tekst.txt | preprocess | lookup -q sme2smj.fst

echo "Mun lean okta sápmelaš." | preprocess | lookup -q sme2smj.fst

Uutnytta kjelder til korpus

  • http://sametinget.no har firespråklege sider
    • I dag hentar vi ingen ting frå Sametinget.
    • Utfordring: Unngå duplikat. Svar: Sjekke dato på siste høsting og hente berre nyare
  • Pressemeldingar frå http://regjeringen.no ligg i dag i freecorpus/mixed

Filer i freecorpus/smj:

  • other_files
    • hp_2009_samisk_sprak_lulesam.pdf.xsl
    • reindrift_konvensjon_norge_sverige_lulesamisk_070710.pdf.xsl
    • reindrift_omraadeprotokoll_til_konvensjon_mellom_norge_sverige_lulesamisk.pdf.xsl
    • reindrift_vedtekter_for_norsk_svensk_reinbeitenemnden_og_norsk_svensk_overprovingsnemnden_lulesamisk.pdf.xsl
    • sami_samekonv_lulesamisk.pdf.xsl
  • regjeringen.no: Pressemeldingar
  • Kintel AS har faste avtalar med Sametinget og KMD.
  • Tysfjord kommune

TODO

  • Børre og Kevin diskuterer desse skripta ++ Đ* Mixed-diskusjonen held fram
  • Sandra tar ein samtale med LT og med Árran om admin-tekstar

Tekniske aspekt

Ordboksformat osb.

words/dicts/LaLb/

  • dtd/ - dette har vi ikkje no
  • bin/ tom (vente på kompilerte filer)
  • src/ - kjeldefilene
  • script/ - nettopp det (her kanskje noko a la smesmj.sh
  • inc/ - mykje rart
  • LaLb.sh (shellscript som gjer xml om til lexc og deretter til fst)
    • (visse har make-smedict eller Makefile i tillegg ...)

Digresjon: dtd: Vi har: words/dicts/script/gt_dictionary.dtd

Vi vil lage dtd for LaLb.xml for alle ordbøker, og legg i LaLb/dtd deretter mekke og standardisere modulo ordbok

Arbeidsplan

  • norske kandidatord:
  • sjekk mot nobsmj, fjern dei som allereie ligg der
  • ta resten, omsett til sme
  • lulesamifiser til smj // smesmj-ordbok
  • sjekk
    • sjekk lulesamifisert form mot smj-korpus
    • manuell sjekk av lulesamifisert form

Neste møte

Torsdag 8.1. kl. 9.