opensource
Open kjeldekode og minoritetsspråk
Observasjonar
- den viktigaste ressursen til eit språksamfunn er morsmålstalarar og språkkunnskap
- språksamfunnet har ofte små eller ingen økonomiske ressursar
- det å byggja ein språkteknologisk infrastruktur er komplekst og dyrt
Alternativ for utviklingsarbeid med språkteknologi
- anten: samarbeida med eit kommersielt firma, og la dei levera infrastrukturen
- eller: byggja infrastrukturen sjølv som open kjeldekode
- eller: byggja på arbeidet til andre
- oftast blir det vel ein kombinasjon av desse tre
Risiko med samarbeid med firma
- mange års arbeid kan forsvinna opp i røyk dersom firmaet går konkurs eller blir kjøpt opp
- arbeidet med språket ditt er avhengig av godviljen til firmaet
- det å senda ut oppdateringar og rettingar er det firmaet som bestemmer, ikkje du
- du bestemmer ikkje over dine eigne språkressursar
Risiko med open kjeldekode
- andre kan bruka arbeidet ditt (men det kjem jo òg språksamfunnet til gode)
- ein må anten gjera alt sjølv eller ha eit større miljø å støtta seg på
- det kan fort bli for stort eit prosjekt
Målsetjing:å sjølv ha kontroll
- ein må anten eiga eller kontrollera heile kjeda frå språkressursar til ferdige produkt
Kostnader
- samarbeid med firma kostar
- open kjeldekode er pr. definisjon fritt tilgjengeleg - men nokon må sjølvsagt betala arbeidet
- dei samiske prosjekta er fullfinansierte av staten
- dei ferdige produkta er gratis tilgjengelege for alle brukarar
- denne modellen er i praksis den einaste fungerande for minoritetsspråk
- det finst ikkje ein stor nok marknad for å utvikla slike verkty på kommersiell grunn
Språkressursar
- ordlister og ordsamlingar
- grammatikkreglar
- tekstsamlingar
ordlister og grammatikkreglar
- i det samiske prosjektet er alt dette open kjeldekode
- kven som helst kan ta desse og laga eigne verkty
- dette er til beste for det samiske samfunnet - det arbeidet vi har lagt ned i å byggja opp
Tekstsamlingar
- det finst to slags tekstar: frie og ikkje-frie
- dei ikkje-frie tekstane er oftast tekst skrive av ein eller nokre få privatpersonar
- det er viktig at ein nærmar seg slike forfattarar med respekt for arbeidet deira
- samtidig ser dei fleste forfattarar nytta med dei hjelpemidla vi lagar, og vil hjelpa oss
- vi har samla inn tekstar på vegne av det norske Sametinget
- det er altså Sametinget som eig sjølve samlinga, men forfattarane som eig tekstane
- vi har fått lov å bruka tekstane til språkforsking og utvikling, og lover at dei ikkje
Teknisk uavhengigheit
- Mest mogleg av den teknologien vi bruker skal vera open kjeldekode
- på det viset kan vi laga verktya våre utan å vera avhengige av dei som laga teknologien
- vi er enno ikkje så uavhengige av enkeltfirma som vi vil vera, men vi er sakte på veg tid
Teknologiar
- morfologisk analyse: Xerox vs HFST (Helsingfors univ.)
- syntaktisk analyse: CG3 (Syddansk univ.)
- retteprogram: firma, men i framtida basert på HFST
- ordbøker: vi lagar for både lukka og open kjeldekode
Oppsummering
- Vi har ein infrastruktur vi har laga sjølv, som er språkuavhengig, og som er open kjeldekode.
- Dei tekniske sidene blir handtert uavhengig av språk, slik at lingvistane og språkarbeidarane kan
- vi prøver å byggja opp ein infrastruktur som gjev språkmiljøa sjølve kontroll over språkressursane,