graphic with four colored squares
Cover page image

Stavekontrollar og fst-ar

Stavekontrollar og fst-ar

av Sjur Moshagen

Tromsø, 10. september 2014

Stavekontrollar og fst-ar

Status for hfst-stavekontrollane

Status for hfst-stavekontrollane

Stavekontrollar og fst-ar

Status for hfst-stavekontrollane

skisse over korleis dei er bygd opp

skisse over korleis dei er bygd opp

Alt er Hfst (og Voikko), alt er open kjeldekode.

Normeringa fylgjer offisiell rettskriving, så langt som ho er definert. Viktig at det ikkje er vi som normerer.

Stavekontrollar og fst-ar

Status for hfst-stavekontrollane

Problem som no er løyst

Problem som no er løyst

Resultat: Alle språk kan no kompilerast til raske (nok) stavekontrollar som fungerer i LibreOffice

Atterhald:

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Potensiale for forbetringar av stavekontrollane

Eg held PLX og Hunspell utanfor - vi har ikkje dei same verktya for å påverka t.d. forslagsmekanismen. Forbetringar i morfologisk modell (dekning, det å fjerna sjeldne eller problematiske ordformer) vil sjølvsagt koma listestavekontrollane til gode automatisk.

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Frekvensvekta leksikon

Frekvensvekta leksikon

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Morfologivekta leksikon

Morfologivekta leksikon

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Morfologivekta leksikon

Utfordring

Utfordring

Vi treng ei systematisk bruk av vektar, slik at ikkje vekting på eitt område slår ut vektinga på eit anna område.

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Feilmodell

Feilmodell

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Feilmodell

Redigeringsavstand

Redigeringsavstand

Dette er ein svært enkel modell, men er grunnmodellen som alle språk får automatisk.

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Feilmodell

Fonotaksbasert

Fonotaksbasert

Jf. Lene sin presentasjon. Ingen ting er gjort her enno.

Det burde vera relativt enkelt å laga ein fonotaksbasert feilmodell, i og med at vi har heile fst-aparatet tilgjengeleg. Kkonsekvensane for fart og storleik på feilmodellen er sjølvsagt ukjende inntil vi har prøvd.

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Feilmodell

Sekvensbasert

Sekvensbasert

Døme: ll -> ljj

Dette er ein enklare modell utan kontekst, som er laga etter modell av det vi har for PLX.

Stavekontrollar og fst-ar

Potensiale for forbetringar av stavekontrollane

Feilmodell

Heile ord ("typos")

Heile ord ("typos")

Stavekontrollar og fst-ar

Målsetjing

Målsetjing

Vi vil bli betre enn engelsk!