141217
Møte om lule- og sørsamisk korpusinnsamling
17.12. 2014. Børre, Kevin, Sandra, Trond.
- Bakgrunn: Prosjektskildring
- Tidlegare notat: Planutkast
sme→smj
- $GTHOME/words/dicts/smesmj/
- $GTHOME/words/dicts/smesmj/src/ = kjeldefiler til ordboka
- $GTHOME/words/dicts/smesmj/script = for å kompilere fst av ordboka
Ordboka smesmj
Dette er ei ordbok:
echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst čállit tjállet
Lulesamifisering
Dette er ein lulesamifiserar:
Kommandosett for å kompilere lulesamifiserar:
cd $GTHOME/gt/smj/src/ xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop
Bruk:
lookup -q sme2smj.fst čállit cat nordsamisk-tekst.txt | preprocess | lookup -q sme2smj.fst echo "Mun lean okta sápmelaš." | preprocess | lookup -q sme2smj.fst
Uutnytta kjelder til korpus
-
http://sametinget.no har firespråklege sider
- I dag hentar vi ingen ting frå Sametinget.
- Utfordring: Unngå duplikat. Svar: Sjekke dato på siste høsting og hente berre nyare
- I dag hentar vi ingen ting frå Sametinget.
- Pressemeldingar frå http://regjeringen.no ligg i dag i freecorpus/mixed
Filer i freecorpus/smj:
- other_files
- hp_2009_samisk_sprak_lulesam.pdf.xsl
- reindrift_konvensjon_norge_sverige_lulesamisk_070710.pdf.xsl
- reindrift_omraadeprotokoll_til_konvensjon_mellom_norge_sverige_lulesamisk.pdf.xsl
- reindrift_vedtekter_for_norsk_svensk_reinbeitenemnden_og_norsk_svensk_overprovingsnemnden_lulesamisk.pdf.xsl
- sami_samekonv_lulesamisk.pdf.xsl
- hp_2009_samisk_sprak_lulesam.pdf.xsl
- regjeringen.no: Pressemeldingar
- Kintel AS har faste avtalar med Sametinget og KMD.
- Tysfjord kommune
TODO
-
Børre og Kevin diskuterer desse skripta ++
- Sandra tar ein samtale med LT og med Árran om admin-tekstar
Tekniske aspekt
Ordboksformat osb.
words/dicts/LaLb/
- dtd/ - dette har vi ikkje no
- bin/ tom (vente på kompilerte filer)
- src/ - kjeldefilene
- script/ - nettopp det (her kanskje noko a la smesmj.sh
- inc/ - mykje rart
- LaLb.sh (shellscript som gjer xml om til lexc og deretter til fst)
- (visse har make-smedict eller Makefile i tillegg ...)
Digresjon: dtd:
Vi vil lage dtd for LaLb.xml for alle ordbøker, og legg i LaLb/dtd
Arbeidsplan
- norske kandidatord:
- dei som har høgare frekvens i fad-korpus enn i norsk
- fadkorpus = freecorpus/prestable/tmx (samiske tema)
- Ta ut den norske delen, OBT-analyser og finn frekvens
-
http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=nob
- fadkorpus = freecorpus/prestable/tmx (samiske tema)
- nobsme silt mot ei admin-frekvensordliste
- dei som har høgare frekvens i fad-korpus enn i norsk
- sjekk mot nobsmj, fjern dei som allereie ligg der
- ta resten, omsett til sme
- lulesamifiser til smj // smesmj-ordbok
- sjekk
- sjekk lulesamifisert form mot smj-korpus
- manuell sjekk av lulesamifisert form
- sjekk lulesamifisert form mot smj-korpus
Neste møte
Torsdag 8.1. kl. 9.