opensource

Open kjeldekode og minoritetsspråk

Observasjonar

  • den viktigaste ressursen til eit språksamfunn er morsmålstalarar og språkkunnskap
  • språksamfunnet har ofte små eller ingen økonomiske ressursar
  • det å byggja ein språkteknologisk infrastruktur er komplekst og dyrt

Alternativ for utviklingsarbeid med språkteknologi

  • anten: samarbeida med eit kommersielt firma, og la dei levera infrastrukturen
  • eller: byggja infrastrukturen sjølv som open kjeldekode
  • eller: byggja på arbeidet til andre
  • oftast blir det vel ein kombinasjon av desse tre

Risiko med samarbeid med firma

  • mange års arbeid kan forsvinna opp i røyk dersom firmaet går konkurs eller blir kjøpt opp
  • arbeidet med språket ditt er avhengig av godviljen til firmaet
  • det å senda ut oppdateringar og rettingar er det firmaet som bestemmer, ikkje du
  • du bestemmer ikkje over dine eigne språkressursar

Risiko med open kjeldekode

  • andre kan bruka arbeidet ditt (men det kjem jo òg språksamfunnet til gode)
  • ein må anten gjera alt sjølv eller ha eit større miljø å støtta seg på
  • det kan fort bli for stort eit prosjekt

Målsetjing:å sjølv ha kontroll

  • ein må anten eiga eller kontrollera heile kjeda frå språkressursar til ferdige produkt

Kostnader

  • samarbeid med firma kostar
  • open kjeldekode er pr. definisjon fritt tilgjengeleg - men nokon må sjølvsagt betala arbeidet
  • dei samiske prosjekta er fullfinansierte av staten
  • dei ferdige produkta er gratis tilgjengelege for alle brukarar
  • denne modellen er i praksis den einaste fungerande for minoritetsspråk
  • det finst ikkje ein stor nok marknad for å utvikla slike verkty på kommersiell grunn

Språkressursar

  • ordlister og ordsamlingar
  • grammatikkreglar
  • tekstsamlingar

ordlister og grammatikkreglar

  • i det samiske prosjektet er alt dette open kjeldekode
  • kven som helst kan ta desse og laga eigne verkty
  • dette er til beste for det samiske samfunnet - det arbeidet vi har lagt ned i å byggja opp ressursane kan andre bruka for å laga ting vi ikkje har tid eller ressursar til, og det samiske samfunnet får fleire hjelpemiddel

Tekstsamlingar

  • det finst to slags tekstar: frie og ikkje-frie
  • dei ikkje-frie tekstane er oftast tekst skrive av ein eller nokre få privatpersonar
  • det er viktig at ein nærmar seg slike forfattarar med respekt for arbeidet deira
  • samtidig ser dei fleste forfattarar nytta med dei hjelpemidla vi lagar, og vil hjelpa oss
  • vi har samla inn tekstar på vegne av det norske Sametinget
  • det er altså Sametinget som eig sjølve samlinga, men forfattarane som eig tekstane
  • vi har fått lov å bruka tekstane til språkforsking og utvikling, og lover at dei ikkje blir missbrukte

Teknisk uavhengigheit

  • Mest mogleg av den teknologien vi bruker skal vera open kjeldekode
  • på det viset kan vi laga verktya våre utan å vera avhengige av dei som laga teknologien
  • vi er enno ikkje så uavhengige av enkeltfirma som vi vil vera, men vi er sakte på veg tid

Teknologiar

  • morfologisk analyse: Xerox vs HFST (Helsingfors univ.)
  • syntaktisk analyse: CG3 (Syddansk univ.)
  • retteprogram: firma, men i framtida basert på HFST
  • ordbøker: vi lagar for både lukka og open kjeldekode

Oppsummering

  • Vi har ein infrastruktur vi har laga sjølv, som er språkuavhengig, og som er open kjeldekode.
  • Dei tekniske sidene blir handtert uavhengig av språk, slik at lingvistane og språkarbeidarane kan konsentrera seg på språket, og ikkje så mykje på det tekniske
  • vi prøver å byggja opp ein infrastruktur som gjev språkmiljøa sjølve kontroll over språkressursane, og slik sett vera uavhengig av eitt eller fleire firma