Stavekontrollar og fst-ar
Status for hfst-stavekontrollane
Status for hfst-stavekontrollane
Stavekontrollar og fst-ar
Status for hfst-stavekontrollane
skisse over korleis dei er bygd opp
skisse over korleis dei er bygd opp
- normativ fst -> vekting -> akseptor
- akseptor-alfabet -> ( redigeringsavstand 1 + bokstavsekvensar ) * 2 + ord
- blir pakka inn i LO-voikko
Alt er Hfst (og Voikko), alt er open kjeldekode.
Normeringa fylgjer offisiell rettskriving, så langt som ho er definert. Viktig
at det ikkje er vi som normerer.
Stavekontrollar og fst-ar
Status for hfst-stavekontrollane
Problem som no er løyst
Problem som no er løyst
- vekting + minimering
- hyperminimering + fart
- integreringa med LibreOffice (Windows har enno ikkje fått dei siste rettingane)
Resultat:
Alle språk kan no kompilerast til raske (nok) stavekontrollar som fungerer i
LibreOffice
Atterhald:
- språkkoden for språket må finnast i både LO og LO-voikko
- det er ikkje alle kombinasjonar av vekting, minimering og hyperminimering som
gjev raske stavekontrollar - kva som gjev det beste resultatet må testast for
kvart språk.
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Potensiale for forbetringar av stavekontrollane
- Ideal: den korrekte rettinga skal vera det fyrste og einaste forslaget.
- Ikkje mogleg i praksis, men det er det vi strevar mot
Eg held PLX og Hunspell utanfor - vi har ikkje dei same verktya for å påverka
t.d. forslagsmekanismen. Forbetringar i morfologisk modell (dekning, det å
fjerna sjeldne eller problematiske ordformer) vil sjølvsagt koma
listestavekontrollane til gode automatisk.
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Frekvensvekta leksikon
Frekvensvekta leksikon
- hovudideen er sjølvsagt at meir frekvente ord skal koma høgare opp på
forslagslista
- implementert for finsk
- rammeverket er på plass, men er ikkje gjort tilgjengeleg for andre språk
- mange språk manglar korpus, men dette er sjølvsagt ikkje noko argument mot å
gjera dette systemet tilgjengeleg for andre språk
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Morfologivekta leksikon
Morfologivekta leksikon
- samansette ord bør få høgare vekt enn ikkjesamansette ord (samansett i teknisk
forstand, ikkje lingvistisk)
- vi har leksikalisert ein stor del av dei samansette orda vi har funne
- vekting av dynamisk samansette ord gjer at nye ord (usette ord) ikkje kjem
like høgt opp på lista som kjende (registrerte) samansette ord
- derivasjonar - same logikk som med samansette ord
- vekting av morfologi - bøyingsformsfrekvens eller manuell vekting?
- dersom to ulike ordformer ellers er like, bør den mest frekvente bli
føreslått fyrst
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Morfologivekta leksikon
Utfordring
Utfordring
Vi treng ei systematisk bruk av vektar, slik at ikkje vekting på eitt område
slår ut vektinga på eit anna område.
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Feilmodell
Feilmodell
- redigeringsavstand
- fonotaksbasert
- sekvensbasert
- heile ord ("typos")
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Feilmodell
Redigeringsavstand
Redigeringsavstand
Dette er ein svært enkel modell, men er grunnmodellen som alle språk får
automatisk.
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Feilmodell
Fonotaksbasert
Fonotaksbasert
Jf. Lene sin presentasjon. Ingen ting er gjort her enno.
Det burde vera relativt enkelt å laga ein fonotaksbasert feilmodell, i og med at
vi har heile fst-aparatet tilgjengeleg. Kkonsekvensane for fart og storleik på
feilmodellen er sjølvsagt ukjende inntil vi har prøvd.
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Feilmodell
Sekvensbasert
Sekvensbasert
Døme: ll -> ljj
Dette er ein enklare modell utan kontekst, som er laga etter modell av det vi
har for PLX.
Stavekontrollar og fst-ar
Potensiale for forbetringar av stavekontrollane
Feilmodell
Heile ord ("typos")
Heile ord ("typos")
-
jih -> jïh
- Dette er ein juksekategori, som dekkjer over svakheiter i resten av feilmodellen
- samtidig er han nyttig for brukarane — dersom vi veit at eit heilt ord er feil
og vi kjenner rettinga er det ingen grunn til ikkje å føreslå det rette ordet
Stavekontrollar og fst-ar
Målsetjing
Målsetjing
Vi vil bli betre enn engelsk!