Planutkast

Ord:

ordkandidatar:

finne norske ord i vår nob-sme som har høgare frekvens i fad-korp enn i nowac

for smj:

  • sjekke sme->smj i vår (genererte) sme-smj-ordbok
  • frekvens-sanitycheck
  • nob-sme frå pkt 1
  • sme-smj frå sme2smj-ordboka (generert)
  • sjekke smj i korpus?
  • sjekke om ordet er belagt
  • foreslå det for manuelle annotørar

for sma

  • det same men utan generert

https://gtsvn.uit.no/langtech/trunk/words/dicts/smenob/

13000 fad-par, desse vil dept ha for smj og sma også; men vi har ikkje parallelltekst

Tekst:

/ling/common.html

finne fleire ressursar:

  • bibel (lite terminologi)
  • Offentleg
    • Fylkeskommunar: Hed, S-T, N-T, Nordland
    • Kommunar: Tysfjord, Røyrvik, Snåsa, Røros
    • Sentraladministrasjonen, fylkesmannen, ... (B)
  • Aviser
    • Snåsningen (sma)
    • Nord-Salten avis (smj, kva er status i korpuset?)
  • Andre, mindre tilgjengelege
    • Publisert litteratur?
    • Nasjonalbiblioteket?
  • Telefon til språkkonsulentar
  • Sverige
    • Sametinget: http: //www.sametinget.se/smatra ?
    • svenskakyrkan.se (sma)
    • samer.se ?
  • sjå etter peikarar frå freecorpus

notat og idear

  • mogleg å laga ein «sub-ord-omsetjar» a la nno-nob s/leg$/lig/ for å laga kandidatlister?
  • finst for sme→smj
  • mogleg å normalisera litt? /dicts/10000.html har t.d. «register» og «registtar» som to ulike ord på sme-sida
  • finst andre smj/sma-bidix som me kan samordna med? a la http://wiki.apertium.org/wiki/Bilingual_dictionary_discovery
  • Sjå etter lakuner i omsetjingar
    • smenob har duogi→bak, smanob har duekie→bak/rommet bak – er «rommet bak» då kandidat for ekstra <tg> til duogi? (no blei det smenob, men går nok oftare andre vegen)