smaformat

Konvertering til sma-stil

Heli har tatt over heile koden frå sma for numra (jf. game.py)

TILTAK

Ingen rører nu_oahpa-koden
Ciprian lagar ein ny katalog, univ_oahpa, i pedversions. done
Ciprian lagar ein ny katalog for kjeldefiler, ped/sme/univ_oahpa_data/data_sme/sme. done Dette er no gjeldande katalog for sme-kjeldefiler.
Heli lagar ein ny database done
Heli tilpasser navner fra oahpa til univ_oahpa og teste det på victorio "tilpassning av navner" mostly done, testning ikke klar
Dokumentasjon: Alle, særleg Ryan og Heli
- Ei separat dokumentasjonsside for denne konverteringsprosessen:
- Eiga jspwiki-fil (denne)
- Katalogen inneheld ein kopi av smaOahpa, og blir fylt med sme-innhald
Lene går gjennom entriane i leksikon og merker <mg> osv (til måndag morgon 14.11) done
Ciprian overfører til sma-format og legg inn i univ_oahpa done

Leksikonfilene

Leksikonfiler i sme/xml

Legge til oversettelser og bokinfo fra AA-listen fra Oulu - Lene: done
Dele opp i entryer når entryen bør ha minst 2 <mg>, sjekke mot normfst (done)
- adv_smenob.xml - ikke brukt i smeOahpa tidligere - oppdatert - flytta til tmp_towards-sma-format/data_sme/sme/adv_smenob.xml
- multiword_smenob.xml - bare for Leksa - ikke brukt i smeOahpa tidligere - oppdatert - tmp_towards-sma-format/data_sme/sme/multiword_smenob.xml
- adjectives.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/a_smenob.xml
- verbs.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/v_smenob.xml
- nouns.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/n_smenob.xml - obs - denne bør deles til g3, actor og n ?
- prop_nouns.xml - stedsnavn som var i nouns.xml. Det var meninga at de skulle inngå i MorfaS, men generinga har ikke fungert pga av disse krever N+Prop. Men det kunne være lurt å ha dem med i MorfaS, som nouns. - ny fil tmp_towards-sma-format/data_sme/sme/n_prop_smenob.xml
- propernouns.xml - denne skal ikke genereres - kun for Leksa, flytta til tmp_towards-sma-format/data_sme/sme/prop_smenob.xml
- numerals.xml - i denne er det er både N+Coll, A+Ord og Num - for MorfaC, flytta til tmp_towards-sma-format/data_sme/sme/num_smenob.xml
- fillings.xml - kanskje vi ikke trenger den i sma-oppsettet? - flytta til tmp_towards-sma-format/data_sme/meta/fillings.xml
Endre attibutter og elementer til sma-stil (Lene, Ciprian)
- <noleksa/> til exclude="smenob" - Lene: done
- første nob-oversettelse og fin-oversettelse skal ha stat="pref" - Ciprian: done
- <only-pl/> til gen_only="Pl" - Lene: done. (De som er igjen nouns.xml er slike som har lemma i sg. Dette er noe som ikke finnes i sma, vi får se på hvilken løsning vi velger.)
- <only-sg/> til gen_only="Sg" - Lene: done
- tcomm="yes" - Lene: done
- N type="Actor" - Lene: done
- N type="G3" - Lene: done
- N type="Prop" - Lene: done
- entry –> e, lemma –> l - Ciprian: done
- <pos class="N"/> osv –> pos="n" i l-element - Ciprian: done
- stem-attributter flyttes til l-element: trisyllabic –> 3syll, bisyllabic –> 2syll contracted –> Csyll (denne finnes ikke i sma) - Ciprian: done
- tomme 'book name' gis dummy xxx og tomme 'sem class' gis YYY etter mønster fra sma - Ciprian done
- tomme '<tr xml: lang="eng"/>' gis dummy-t-element med FIN-VERDI_ENG etter mønster fra sma; also for deu from nob - Ciprian done
- add pos attributes to t-elements with default of the sme-lemmata - Ciprian: done

Utviding av smeX leksikonfilene

Leksikonfilene utvides med ped/sme/inc/morelemmasfromfin.csv - Ciprian done
- hvis semantisk sett mangler -> legges foreløpig YYY (manuelt redigering etter utvidinga)
- bokinformasjon finnes i words/dicts/smefin/inc i
  - cealkke1.csv -> c1
  - cealkke2.csv -> c2
  - cealkke3.csv -> c3
  - cealkke4.csv -> c4
  - AA.csv -> AA
- stem, gradation, compare, diphthong, rime attributer og dialect elementer må legges til separat
- for stat="pref" gjelder samme prinsipp som for overføring av xml-filene i smaoahpa-format: første oversetting får stat="pref"

NB: smenob/smeX leksikonfiler bør utvides med ped/sme/inc/morelemmasfromfin.csv før konvertering til nobsme og finsme.

Leksikonfiler nobsme og finsme:

Skal konverteres fra smenob til nobsme og finsme på samme måte som smanob til nobsma og finsma - algoritme med hensyn til statpref. Ciprian done
- angåend filene med proper nouns, bare prop_smenob.xml skal snus til nobsme. Alle lemmaene (bortsett fra ett) i n_prop_smenob.xml finnes i prop_smenob.xml
Legg til ekstra sme-synonymer fra de gamle nobsme- og finsme-filene på samme som det gjort i sma fra smanob til smafin - Ciprian todo

Andre filer i sme/xml

Feedback-filer for Morfa i sme/xml - oppdateres til samme struktur som for smaOahpa - alle er flytta/kopiert til tmp_towards-sma-format/data_sme/meta/

feedback_adjectives.xml - Lene: done
feedback_adjectives_eastern.xml - Lene: done
feedback_nouns.xml - Lene: done
feedback_numerals.xml - Lene: done
feedback_verbs.xml - Lene: done
feedback_verbs_eastern.xml - Lene: done
messages.eng.xml - har samme struktur som sma
messages.fin.xml - har samme struktur som sma
messages.sme.xml - har samme struktur som sma
messages.xml - har samme struktur som sma

Filer for MorfaC i sme/xml - de har samme struktur som sma

grammar_defaults.xml, kopiert til tmp_towards-sma-format/data_sme/meta/
questions_adjectives.xml, kopiert til tmp_towards-sma-format/data_sme/meta/adjective_questions.xml
questions_nouns.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
questions_numerals.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
questions_verbs.xml, kopiert til tmp_towards-sma-format/data_sme/meta/verb_questions.xml

Filer for Vasta i sme/xml

cealkka.xml - påbegynt arbeid for Vasta Cealkka
questions_vasta.xml

Filer for Vasta og Sahka i sme/xml

messages_vasta.eng.xml - også for Sahka
messages_vasta.fin.xml - også for Sahka
messages_vasta.sme.xml - også for Sahka
messages_vasta.xml - også for Sahka

Filer for Sahka i sme/xml

dialogue_firstmeeting.xml
dialogue_firstmeeting_boy.xml
dialogue_firstmeeting_girl.xml
dialogue_firstmeeting_man.xml
dialogue_grocery.xml
dialogue_shopadj.xml
dialogue_visit.xml
dialogues.dtd

Andre viktige filer i sme/xml

comments.nob.xml - kommentarer til brukeren
semantic_sets.xml - for Leksa - oppdatert, flytta til tmp_towards-sma-format/data_sme/meta/

Diverse filer i sme/xml - ikke i bruk?

outcommented_propernouns.xml
verbs.css
verbs.dtd

Filer i sme/src

Pronomen i Morfa - har ikke vært implementert i smeOahpa tidligere

sme/src/pronounforms.csv som inneholder både lemma+morfology og ordform. Fila er konvertert til pron_nob.xml og ligger i data_sme/sme/ done
- Added forms which should be accepted as answer from students, but not presented as facit. They are marked with the tag Use/NG.
- Kommentar fra Ryan: me treng ikkje semantiske sett lengre, fordi det er lettare å nytta tag-setter i sme/data_sme/meta/tags.txt, slik at man kan velja 3 person eller 1 og 2 person pronomener. Det er heller ikkje noko pronomen-oppgåver i Leksa, då treng me ikkje semantiske setter for å skilja mellom deim.

Andre filer i sme/src

Makefile - for Sahka / Vasta
paradigms.txt - denne har vært brukt i smeOahpa, men erstattes nå av egne filer for hver PoS
a_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
n_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
v_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
prop_paradigms.txt - skal brukes, inneholder både Sg og Pl, men gen_only - attributter i leksikonfilene styrer dette, kopiert til tmp_towards-sma-format/data_sme/meta/
num_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
comments.nobsme - kommentarer til bruker
comments.sme - kommentarer til bruker
grammatikklinker.txt - for grammatikkmenyen - samme struktur som smaOahpa, kopiert til tmp_towards-sma-format/data_sme/meta/
sme-ped.cg3 - for Vasta og Sahka
tags.txt, kopiert til tmp_towards-sma-format/data_sme/meta/
adv.txt - skal ikke brukes, bør flyttes i en doc-mappe
pp.txt - skal ikke brukes, bør flyttes i en doc-mappe
conj.txt - skal ikke brukes, bør flyttes i en doc-mappe
prongeneration.txt - skal ikke brukes, bør flyttes i en inc-mappe

Forskjeller mellom sma vs. sme

Filplassering. sme: Alle leksikonfiler, oppgavefiler, feedbackfiler ligger i ped/sme/xml. sma: spredt i pedversions og ped/sma/xml og ped/sma/src.
Generering i sme: generering med ped/sme/src/paradigms.txt, dessuten ped/sme/src/prongeneration.txt, i sma: i meta: a_paradigms.txt, num_paradigms.txt, v_paradigms.txt, n_paradigms.txt, prop_paradigms.txt
Begrense generering: sma: gen_only, sme: <only-sg/> <only-pl/>
sma: stat_pref - sme: første t er default stat_pref
sma: exclude="nobsma" sme: <noleksa/>
sma: l-element sme: lemma-element
morfologisk info - sma: l-element. sme: stem-element

sma: <l margo="e" pos="n" soggi="e" stem="3syll">
sme: <stem class="bisyllabic" diphthong="yes" gradation="yes" soggi="i" rime="0"/>

sma: spell relax ï/i, ö/ø, osv.
sma: installeringsprosessen genererar alle formane som vert innført i databasen ein gong på byrjinga, sme: genererar paradigmer til kvar ord ein gong per ord