150929_ja_16XXXX
Møte, Börselv 29.9.15
Hilde, Mari, Sindre, Anna-Kaisa, Trond
Innholdsfortegnelse:
- Gjøreliste og prioriteringer fremover
- Oversikt fra forrige møte
- Oversikt over hvor vi står og forskjellige tester
- Appendix
GJØRELISTE og prioriteringer fremover
Korpus
- Legg til et par store tekster i paralellkorpuset (Prioritet)
- Forskningsartikkelen?
- Forskningsartikkelen?
- Sjekk me Merethe om Idar Kristiansen. Mangler det i korpus? Eller i ordboka? (OK)
- Er dette alt, Merethe?: freecorpus/orig/fkv/ficti/fiction/idar_kristiansen.docx (OK)
- Få tekster fra Nasjonalbiblioteket (Prioritet)
Språktinget
- Hvordan kan vi legge til rette for en mer effektiv prosess av vokabulardiskusjon?
- Språktingsordlister må legges til
Retteprogram
- Lag prosess for å rapportere feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
- Se på feil-"poengene" basert på skriveleifene vi får inn (Presicion & Recall. Type 1 og type 2 feil i statistikk)
- Rette vekter i editdistance, strings, words (filene)
- Finn naturlige feil fra fjasboka?
- Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!
Norsk-Kvensk ordbok
- Legg til ord fra Sanapuohi (Prioritet)
- Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger (med en NB melding om at analysatoren ikke e perfekt/ferdig). (Prioritet)
- rydde i norske lemma (mellomrom). (litt)
- Ingen oppslagsord med 7 mellomrom lengre! Fortsatt 19 ord med 3 mellomrom, og 116 med 2!
- La faste uttrykk som vi ser at oftes søkes etter være der (Gratulerer med dagen - jeg heter - jeg er)
- Ingen oppslagsord med 7 mellomrom lengre! Fortsatt 19 ord med 3 mellomrom, og 116 med 2!
- Legge til vanlige ord som mangler, hvordan finner vi vanlige ord som mangler? Diskuter kommandoen m/Trond.
- Ordlister? Oahpa? Legge til ord fra språkkafé? Sanapuohi? Katso tammikuun referaatti.
- Legg til lemmaer funnet i Appendix under.
- facebookista sanoja?
Kvensk-Norsk ordbok
- Legg til ordboksfunksjonen på hjemmesiden (Prioritet)
- Sørge for at hele Ruijan Kaiku alltid skal være fullt lesbart med ordboka?
- se hva vi mangler fra RK ved Nasjonalbiblioteket
Analysator
- Lag script som telle antall ord i forskjellige kategoria. (Prioritet)
- flertallsfeil i nouns. (Prioritet)
- adjektivsfeil. (Prioritet)
- Nimet! (Prioritet)
- Fiks yaml-formattering. White space matters. (OK)
- twolc
- adjektiivit (resten av YAML-ene)
- johdokset
- Kattavuus
Oversikt over prosjektene
Oversikt fra forrige møte:
Analysator
Gruppe 2: Trond, Lena, Sindre, Anna Kaisa
Retteprogram
- Analysatoren: Lydreglan, bøyingsreglan og flere ord. (OK)
- Lag prosess for å rapportere feil i analysator, spesielt fra
- Top 5 på forslag, Precision & Recall
- Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!
Språkopplæring
- Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger.
- Åpne tekstene som er i Fronter til allment bruk for alle!
- Integrere dette i et språkkurs via universitetet.
Ordbok
kvensk-norsk ordbok
Korpusarbeid
- Øk størrelsen på korpuset (OK)
- Lag frekvensliste fra Korpuset (OK)
- sjekk hvilke ord som mangler(OK)
- oversett og legg til i ordboka (delvis)
norsk-kvensk ordbok
Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin
Puohi (fra en norsk frekvensordbok)
- ta norske ord fra ulike temaområder (OK)
- oversett enkle ord som mangler til kvensk (litt)
- Send til språklærere
- oversett komplekse ord som mangler til kvensk
- rydde i norske lemma
Hvordan sjekke ordene?
- Få flere til å oversette lister
- Ha et parallellkorpus klart
- Søk ordene i parallellkorpuset, først og fremst et par store tekster (Prioritet)
- Gi over til Kventinget for politisk drøfting
Felles for begge ordbøker
- Legg til den finske disambiguatoren (etter sammarbeidsprosjektet med esterne), (OK)
- og gjør den kvensk
- Eksempel: kommando: fkvdis "Se tuli."
"<Se>" "se" Pron Pers Sg Nom "<tuli>" "tulla" V Act Ind Prt Sg3 "<.>" "."
https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3
less src/morphology/root.lexc
Andre ting gjort siden sist:
- Fulle paradigmer i ordboka!
- Korpusintegrasjon i ordboka.
- Lagt til nye ord i ordboka.
- Begynt å få user feedback fra Ruijan Kaiku
- Språkkafe!
Oversikt over hvor vi står og forskjellige tester
Analysator, hvor mye av korpuset klarer analysatoren vår?:
- kun fkv: 81,4%
- fkv eller nob eller sme: 84,0%
- fkv eller nob eller sme tai fin: 90,1%
Topp-ti manglande av 90,1%:
184 Porsangi 46 olkhoon 46 oikheen 45 siittä 42 institutti-Kvensk 34 Varengin 30 miitä 30 elläimile 29 Pohjas-Ruijassa 28 mihiin
Montako sanaa:
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l
Millaiset sanat ovat aidosti virheitä?
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|sort|uniq -c|sort -nr|head -30
Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)
- SUBSTANTIV: FAILS - 44 / 2758
- VERB: FAILS - 66 / 2786
- ADJEKTIV: FAILS - 709 / 2227
Jos haluaa YAML-testata pelkästään teittyjä YAML: eita (esim. pelkästään adjektiivit), voi siirtää kaikki muuta YAML: it pois folderista /main/langs/fkv/test/src/gt-norm-yamls/ , tehdä "make check", ja muista siirtää ne takas sen jälkeen tai svn up.
Check_lemma (alle grunnformene)
Tre sentrale adjektiv er feil:
- lyhyt+A+Sg+Nom lyh
- ohut+A+Sg+Nom oh
- vanha+A+Sg+Nom vanhae
Adjektiva er ikkje like godt dekka som substantiva:
hyvä+A+Pl+Par hyvä+A+Pl+Par hyvi hyvä+A+Pl+Par hyvväi cat src/morphology/stems/adjectives.lexc |grep a_21|tr ':' ' '|cut -d" " -f1|sed 's/$/+A+Pl+Par/'|dfkv|see
Vi klare nominativ av alle substantiv! De (16) verban som fortsatt mangle er ikke ofte bruke verb.
Missing list for ordbok
- Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|unob|cut -f2|cut -d"+" -f1|nobfkv|less cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|nobfkv|grep '?'|cut -f1|ufkv|grep '?'|cut -f1|sort|uniq -c|sort -nr|less
Oversikt til slutt i referatet.
Tiltak: Sjå på denne og fylle ut.
Spellchecker feil?
less test/data/typos.txt echo " se on kväänitten asia" | preprocess --corr=test/data/typos.txt see tools/spellcheckers/fstbased/hfst/words.default.txt see tools/spellcheckers/fstbased/hfst/strings.default.txt see tools/spellcheckers/fstbased/hfst/editdist.default.txt
1) Notater fra siste møte:
Analysator
Gruppe 2: Trond, Lena, Sindre, Anna Kaisa
Retteprogram
- Analysatoren: Lydreglan, bøyingsreglan og flere ord. (OK)
- Lag prosess for å rapportere feil i analysator, spesielt fra
- Top 5 på forslag, Precision & Recall
- Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!
Språkopplæring
- Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger.
- Åpne tekstene som er i Fronter til allment bruk for alle!
- Integrere dette i et språkkurs via universitetet.
Ordbok
kvensk-norsk ordbok
Korpusarbeid
- Øk størrelsen på korpuset (OK)
- Lag frekvensliste fra Korpuset (OK)
- sjekk hvilke ord som mangler(OK)
- oversett og legg til i ordboka (delvis)
norsk-kvensk ordbok
Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin
Puohi (fra en norsk frekvensordbok)
- ta norske ord fra ulike temaområder (OK)
- oversett enkle ord som mangler til kvensk (litt)
- Send til språklærere
- oversett komplekse ord som mangler til kvensk
- rydde i norske lemma (Prioritet)
Hvordan sjekke ordene?
- Få flere til å oversette lister
- Ha et parallellkorpus klart
- Søk ordene i parallellkorpuset, først og fremst et par store tekster (Prioritet)
- Gi over til Kventinget for politisk drøfting
Felles for begge ordbøker
- Legg til den finske disambiguatoren (etter sammarbeidsprosjektet med esterne), (OK)
- og gjør den kvensk
- Kommando: fkvdis "Se tuli."
"<Se>" "se" Pron Pers Sg Nom "<tuli>" "tulla" V Act Ind Prt Sg3 "<.>" "."
https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3
less src/morphology/root.lexc
Andre ting gjort siden sist:
- Fulle paradigmer i ordboka!
- Korpusintegrasjon i ordboka.
- Lagt til nye ord i ordboka.
- Begynt å få user feedback fra Ruijan Kaiku
- Språkkafe!
2) Oversikt over hvor vi står, Testing
Analysator, hvor mye av korpuset klarer analysatoren vår?:
- kun fkv: 81,4%
- fkv eller nob eller sme: 84,0%
- fkv eller nob eller sme tai fin: 90,1%
Topp-ti manglande av 90,1%:
184 Porsangi 46 olkhoon 46 oikheen 45 siittä 42 institutti-Kvensk 34 Varengin 30 miitä 30 elläimile 29 Pohjas-Ruijassa 28 mihiin
Montako sanaa:
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l
Millaiset sanat ovat aidosti virheitä?
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|usme|grep '?'|cut -f1|sort|uniq -c|sort -nr|head
Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)
- SUBSTANTIV: FAILS - 44 / 2758
- VERB: FAILS - 66 / 2786
- ADJEKTIV: FAILS - 709 / 2227
Check_lemma (alle grunnformene)
Tre sentrale adjektiv er feil:
- lyhyt+A+Sg+Nom lyh
- ohut+A+Sg+Nom oh
- vanha+A+Sg+Nom vanhae
Adjektiva er ikkje like godt dekka som substantiva:
hyvä+A+Pl+Par hyvä+A+Pl+Par hyvi hyvä+A+Pl+Par hyvväi
Vi klare nominativ av alle substantiv! De få (16) verban som mangle er overhode ikke ofte bruke verb.
Missing list for ordbok
- Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|nobfkv|grep '?'|cut -f1|ufkv|grep '?'|cut -f1|sort|uniq -c|sort -nr|less
Oversikt til slutt i referatet.
Tiltak: Sjå på denne og fylle ut.
Spellchecker feil?
X
3) GJØRELISTE og prioriteringer fremover
Korpus
- Sjekk me Merethe om Idar Kristiansen. Mangler det i korpus? Eller i ordboka?
- Er dette alt: freecorpus/orig/fkv/ficti/fiction/idar_kristiansen.docx
- Legg til et par store tekster i paralellkorpuset (Prioritet)
Språktinget?
- Hva kan vi gjøre med farten?
- Språktingsordlister må legges til
Retteprogram
- Rapporter feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
Norsk-Kvensk ordbok
- rydde i norske lemma (Prioritet)
- PLANLEGG NOE FOR NORSK KVENSK ORDBOK HER! Ordlister?
Kvensk-Norsk ordbok
X
Analysator
- Fiks yaml-formattering. Fire mellomrom. White space matters.
Appendix
- Anna-Kaisa
- Sindre
- Mari
- Merethe
- Karin
- Tove
Missing fkvnob:
10 ihan 8 vaatheet 8 sivu 8 myös 8 meila 7 puuhaa 7 pitä 7 keitellä 7 alottaat 7 None 6 lajela 6 festivaalin 6 asia 5 suanto 5 siili 5 sammaa 5 pyy 5 pykkään 5 puuha 5 pian 5 paussin 5 osoittheen 5 melkein 5 lähte 5 kävellä 5 kuinka 5 jotain 5 ittesti 5 fuonet 5 ajjat
Missing nobfkv
36 gratulerer 19 gratulere 16 liker 14 norge 13 jeg 12 heter 12 gratulerer med dagen 12 burde 11 tror 11 hoved 11 din 11 både 11 Gratulerer 10 lunsj 10 har 10 hallo 10 grønlandske 9 tusen takk 9 jeg er 9 informasjon 9 ha 9 bamse 8 nyte 8 leilighet 8 flott 8 fikk 7 samfunn 7 oppleve 6 ønsker 6 uansett 6 sønn 6 sliten 6 slem 6 prosjekt 6 oppføre 6 nei 6 nasjonal 6 medfødt 6 lenke 6 klem 6 jeg heter 6 inngang 6 hade 6 foredrag 6 drift 6 bo 5 våken 5 utvalg 5 utstilling 5 studie 5 snyte 5 salg 5 oppmerksomhet 5 offentlig 5 mist 5 levne 5 kott 5 kose 5 gøy 5 god natt 5 flertall 5 enten 5 ekte 5 bygge 5 broderi 5 anbefale 5 Velkommen 5 Hallo 4 vesen 4 travel 4 temperatur 4 tema 4 takk for oss 4 sverige 4 stadig 4 service 4 oppf 4 omalle 4 nitti 4 mosjon 4 krise 4 hei jeg heter 4 hadde 4 god dag 4 får 4 forestilling 4 fantastisk 4 er 4 ekspert 4 drikking på gang 4 dessverre 4 bøttekott 4 bolig 4 balle 3 å ha 3 wc 3 vårt 3 vanhaa 3 valp 3 vagina 3 utgang 3 unik 3 tygge 3 tromsø 3 trampe 3 tisse 3 til lykke 3 talosvankka 3 søppel 3 synonym 3 symaskin 3 stigen 3 speider 3 soldat 3 skamme 3 sjark 3 sarpsborg 3 regering 3 projekt 3 produsere 3 pizza 3 oversikt 3 ovenfor 3 oslo 3 oppvekst 3 oppskift 3 oppmerksom 3 opplæring 3 nordlys 3 nittenhundre 3 nasjonale 3 møttes 3 mormor 3 milepæl 3 mett 3 metsi 3 meny 3 meitemark 3 lykke til 3 los 3 lilla 3 lar 3 landsby 3 lafte 3 kun 3 kraftig 3 kompis 3 kalkun 3 kalender 3 jakte 3 insekt 3 innerst 3 innen 3 ifølge 3 høflig 3 hurra 3 hilsen 3 handel 3 hadet 3 ha det bra 3 gømme 3 gi ut 3 følelse 3 friste 3 fotograf 3 finnmark 3 feig 3 eksistere 3 eik 3 dusje 3 do 3 diskutere 3 det er sant 3 deres 3 caldera 3 båten 3 brakk 3 blid 3 bleie 3 bidra 3 bestikk 3 arrangement 3 and 3 ananas 3 aktivitet 3 God natt