200519
Tilstede: Chiara, Berit Merete, Trond, Lene
Presentasjon
BM og Chiara har laga ein demo med 30 setninger.
Ting å sjå på
Felles datafil for grammatiske taggar
I dag inneheld Search by analysis fulle taggstrengar. Vi diskuterte ulike alternativ:
- Full spesifisering, som i dag. Ulempe: Pedagogisk irrelevant, og få treff
- Spesifisering på POS og enkeltkagetori (velje berre lokativ, berre preteritum, ...). Ulempe: Det inneber
- Kryssval: Sg gjev alle eintalsformer, Acc alle akkusativ, Sg.Acc snittet mellom dei to Ulempe: Det vil gje tomme søk
Ein variant av (2) vil vere å ha ei totrinnsliste: Først velje verb, og deretter alle verbkategoriane.
Konklusjon: Vi prøver ut (2), men utan totrinnsliste.
Menyen ''Search by dictionary''
Denne lista gjev orda lista i data/SMARTool_data.csv. Vi vil heller ha dei utan omsetjing i lista, men med lenkje til NDS.
Syntetisk tale
Legge til NDS
klikk-i-tekst i grensesnittet
oversettelse av lemma
Ett og samme lemma ha flere oversettinger, f.eks. leat = ha, være. I dag ligger både "ha" og "være" som oversetting i SMARTool_data.csv, men bare "ha" kommer fram i ordlista.
Skal vi ha oversettelse med?
Konklusjon: Vi gjør det heller på den måten at vi ikke gir oversettelse under Search by dictionary, men gjør det mulig å finne oversettelse med å klikke på ordet.
Search by dictionary -> Search by word
Om dette?
Nivå
SMARTool er delt inn i nivå A1, A2, B1, B2. Kjeldefilene er delt etter nivå, og kvart nivå inneheld par oppslagsord :setning.
Jf. russisk:
-
https://github.com/valentina-zh/SMARTool-data/blob/master/SMARTool_data_A1_LIZA.csv
- https://github.com/valentina-zh/SMARTool-data/blob/master/SMARTool_data_B2_LIZA.csv
D1
Chiara lager en skript for å konvertere oahpa filene i csv format
Nivåene må defineres. Hva betyr A1 og hva kan man forvente å finne på det nivået? osv.
Rammeverket er definert her:
-
https://no.wikipedia.org/wiki/Det_felles_europeiske_rammeverket_for_språk
-
https://en.wikipedia.org/wiki/Common_European_Framework_of_Reference_for_Languages
- https://fi.wikipedia.org/wiki/Eurooppalainen_kielitaidon_viitekehys
Nivåinndelinga er styrt av den europeiske standarden for nivåinndeling. For SMARTool
Drøfting av samisk og nivå:
Sari Ahola 2012: Yleisten kielitutkintojen laatijoiden käsityksiä kielestä ja tehtävien laadinnasta. Soveltavan kielentutkimuksen keskus Jyväskylän yliopisto
https://jyx.jyu.fi/bitstream/handle/123456789/40753/1/URN%3ANBN%3Afi%3Ajyu-201301241110.pdf
(drøfting av samisk omsett frå finsk vs. samisk henta frå Noreg, sjå s. 137)
"Laatijat kertoivat muokkaavansa materiaali paljon, varsinkin Norjan puolelta lainattua materiaalia, koska sanavalinnat ja sanajärjestys ovat Norjassa käytettävässä pohjoissaamessa erilaiset kuin Suomen puolella käytetyssä pohjoissaamessa."
Tommelfingerregel frå E-skuvla:
- A1 = Davvin 1
- A2 = Davvin 2
BM lagar eit framlegg.
Valg av former
Vi drøfta dette.
Word source
Søk i kommaseparerte lister
Sett at dei er tabbseparert
cat SMARTool_data.csv |tail +2|cut -d "," -f11-|sed 's/","/_/g;'|sed 's/\.,/\._/g;'|sed 's/\?,/\?_/g;'|cut -d "_" -f1|sed 's/\([.,;:?!"]\)/ \1/g;'| sed 's/\"/\" /g;'|tr ' ' '\n'|usmeNorm |grep '?'|l
Kortare versjon (føreset at fila er tabseparert og ikkje kommaseparert):
cat fil | cut -f11| preprocess|usmeNorm|grep "?"|less
Neste møte
Fredag 5.6. kl. 10.00 på Zoom. BM kallar inn.