smaformat
Konvertering til sma-stil
Heli har tatt over heile koden frå sma for numra (jf. game.py)
TILTAK
-
Ingen rører nu_oahpa-koden
-
Ciprian lagar ein ny katalog, univ_oahpa, i pedversions. done
-
Ciprian lagar ein ny katalog for kjeldefiler, ped/sme/univ_oahpa_data/data_sme/sme. done
-
Heli lagar ein ny database done
-
Heli tilpasser navner fra oahpa til univ_oahpa og teste det på victorio "tilpassning av navner" mostly done, testning ikke klar
- Dokumentasjon: Alle, særleg Ryan og Heli
- Ei separat dokumentasjonsside for denne konverteringsprosessen:
- Eiga jspwiki-fil (denne)
- Katalogen inneheld ein kopi av smaOahpa, og blir fylt med sme-innhald
- Ei separat dokumentasjonsside for denne konverteringsprosessen:
-
Lene går gjennom entriane i leksikon og merker <mg> osv (til måndag morgon 14.11) done
- Ciprian overfører til sma-format og legg inn i univ_oahpa done
Leksikonfilene
Leksikonfiler i sme/xml
- Legge til oversettelser og bokinfo fra AA-listen fra Oulu - Lene: done
- Dele opp i entryer når entryen bør ha minst 2 <mg>, sjekke mot normfst (done)
- adv_smenob.xml - ikke brukt i smeOahpa tidligere - oppdatert - flytta til tmp_towards-sma-format/data_sme/sme/adv_smenob.xml
- multiword_smenob.xml - bare for Leksa - ikke brukt i smeOahpa tidligere - oppdatert - tmp_towards-sma-format/data_sme/sme/multiword_smenob.xml
- adjectives.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/a_smenob.xml
- verbs.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/v_smenob.xml
- nouns.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/n_smenob.xml - obs - denne bør deles til g3, actor og n ?
- prop_nouns.xml - stedsnavn som var i nouns.xml. Det var meninga at de skulle inngå i MorfaS, men generinga har ikke fungert pga av disse krever N+Prop. Men det kunne være lurt å ha dem med i MorfaS, som nouns. - ny fil tmp_towards-sma-format/data_sme/sme/n_prop_smenob.xml
- propernouns.xml - denne skal ikke genereres - kun for Leksa, flytta til tmp_towards-sma-format/data_sme/sme/prop_smenob.xml
- numerals.xml - i denne er det er både N+Coll, A+Ord og Num - for MorfaC, flytta til tmp_towards-sma-format/data_sme/sme/num_smenob.xml
- fillings.xml - kanskje vi ikke trenger den i sma-oppsettet? - flytta til tmp_towards-sma-format/data_sme/meta/fillings.xml
- adv_smenob.xml - ikke brukt i smeOahpa tidligere - oppdatert - flytta til tmp_towards-sma-format/data_sme/sme/adv_smenob.xml
- Endre attibutter og elementer til sma-stil (Lene, Ciprian)
- <noleksa/> til exclude="smenob" - Lene: done
- første nob-oversettelse og fin-oversettelse skal ha stat="pref" - Ciprian: done
- <only-pl/> til gen_only="Pl" - Lene: done. (De som er igjen nouns.xml er slike som har lemma i sg. Dette er noe som ikke finnes i sma, vi får se på hvilken løsning vi velger.)
- <only-sg/> til gen_only="Sg" - Lene: done
- tcomm="yes" - Lene: done
- N type="Actor" - Lene: done
- N type="G3" - Lene: done
- N type="Prop" - Lene: done
- entry –> e, lemma –> l - Ciprian: done
- <pos class="N"/> osv –> pos="n" i l-element - Ciprian: done
- stem-attributter flyttes til l-element: trisyllabic –> 3syll, bisyllabic –> 2syll contracted –> Csyll (denne finnes ikke i sma) - Ciprian: done
- tomme 'book name' gis dummy xxx og tomme 'sem class' gis YYY etter mønster fra sma - Ciprian done
- tomme '<tr xml: lang="eng"/>' gis dummy-t-element med FIN-VERDI_ENG etter mønster fra sma; also for deu from nob - Ciprian done
- add pos attributes to t-elements with default of the sme-lemmata - Ciprian: done
- <noleksa/> til exclude="smenob" - Lene: done
Utviding av smeX leksikonfilene
- Leksikonfilene utvides med ped/sme/inc/morelemmasfromfin.csv - Ciprian done
- hvis semantisk sett mangler -> legges foreløpig YYY (manuelt redigering etter utvidinga)
- bokinformasjon finnes i words/dicts/smefin/inc i
- cealkke1.csv -> c1
- cealkke2.csv -> c2
- cealkke3.csv -> c3
- cealkke4.csv -> c4
- AA.csv -> AA
- cealkke1.csv -> c1
- stem, gradation, compare, diphthong, rime attributer og dialect elementer må legges til separat
- for stat="pref" gjelder samme prinsipp som for overføring av xml-filene i smaoahpa-format: første oversetting får stat="pref"
- hvis semantisk sett mangler -> legges foreløpig YYY (manuelt redigering etter utvidinga)
NB: smenob/smeX leksikonfiler bør utvides med ped/sme/inc/morelemmasfromfin.csv før konvertering til nobsme og finsme.
Leksikonfiler nobsme og finsme:
- Skal konverteres fra smenob til nobsme og finsme på samme måte som smanob til nobsma og finsma - algoritme med hensyn til statpref. Ciprian done
- angåend filene med proper nouns, bare prop_smenob.xml skal snus til nobsme. Alle lemmaene (bortsett fra ett) i n_prop_smenob.xml finnes i prop_smenob.xml
- angåend filene med proper nouns, bare prop_smenob.xml skal snus til nobsme. Alle lemmaene (bortsett fra ett) i n_prop_smenob.xml finnes i prop_smenob.xml
- Legg til ekstra sme-synonymer fra de gamle nobsme- og finsme-filene på samme som det gjort i sma fra smanob til smafin - Ciprian todo
Andre filer i sme/xml
Feedback-filer for Morfa i sme/xml - oppdateres til samme struktur som for smaOahpa - alle er flytta/kopiert til tmp_towards-sma-format/data_sme/meta/
- feedback_adjectives.xml - Lene: done
- feedback_adjectives_eastern.xml - Lene: done
- feedback_nouns.xml - Lene: done
- feedback_numerals.xml - Lene: done
- feedback_verbs.xml - Lene: done
- feedback_verbs_eastern.xml - Lene: done
- messages.eng.xml - har samme struktur som sma
- messages.fin.xml - har samme struktur som sma
- messages.sme.xml - har samme struktur som sma
- messages.xml - har samme struktur som sma
Filer for MorfaC i sme/xml - de har samme struktur som sma
- grammar_defaults.xml, kopiert til tmp_towards-sma-format/data_sme/meta/
- questions_adjectives.xml, kopiert til tmp_towards-sma-format/data_sme/meta/adjective_questions.xml
- questions_nouns.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
- questions_numerals.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
- questions_verbs.xml, kopiert til tmp_towards-sma-format/data_sme/meta/verb_questions.xml
Filer for Vasta i sme/xml
- cealkka.xml - påbegynt arbeid for Vasta Cealkka
- questions_vasta.xml
Filer for Vasta og Sahka i sme/xml
- messages_vasta.eng.xml - også for Sahka
- messages_vasta.fin.xml - også for Sahka
- messages_vasta.sme.xml - også for Sahka
- messages_vasta.xml - også for Sahka
Filer for Sahka i sme/xml
- dialogue_firstmeeting.xml
- dialogue_firstmeeting_boy.xml
- dialogue_firstmeeting_girl.xml
- dialogue_firstmeeting_man.xml
- dialogue_grocery.xml
- dialogue_shopadj.xml
- dialogue_visit.xml
- dialogues.dtd
Andre viktige filer i sme/xml
- comments.nob.xml - kommentarer til brukeren
- semantic_sets.xml - for Leksa - oppdatert, flytta til tmp_towards-sma-format/data_sme/meta/
Diverse filer i sme/xml - ikke i bruk?
- outcommented_propernouns.xml
- verbs.css
- verbs.dtd
Filer i sme/src
Pronomen i Morfa - har ikke vært implementert i smeOahpa tidligere
- sme/src/pronounforms.csv som inneholder både lemma+morfology og ordform. Fila er konvertert til pron_nob.xml og ligger i data_sme/sme/ done
- Added forms which should be accepted as answer from students, but not presented as facit. They are marked with the tag Use/NG.
- Kommentar fra Ryan: me treng ikkje semantiske sett lengre, fordi det er lettare å nytta tag-setter i sme/data_sme/meta/tags.txt, slik at man kan velja 3 person eller 1 og 2 person pronomener. Det er heller ikkje noko pronomen-oppgåver i Leksa, då treng me ikkje semantiske setter for å skilja mellom deim.
- Added forms which should be accepted as answer from students, but not presented as facit. They are marked with the tag Use/NG.
Andre filer i sme/src
- Makefile - for Sahka / Vasta
- paradigms.txt - denne har vært brukt i smeOahpa, men erstattes nå av egne filer for hver PoS
- a_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
- n_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
- v_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
- prop_paradigms.txt - skal brukes, inneholder både Sg og Pl, men gen_only - attributter i leksikonfilene styrer dette, kopiert til tmp_towards-sma-format/data_sme/meta/
- num_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
- comments.nobsme - kommentarer til bruker
- comments.sme - kommentarer til bruker
- grammatikklinker.txt - for grammatikkmenyen - samme struktur som smaOahpa, kopiert til tmp_towards-sma-format/data_sme/meta/
- sme-ped.cg3 - for Vasta og Sahka
- tags.txt, kopiert til tmp_towards-sma-format/data_sme/meta/
- adv.txt - skal ikke brukes, bør flyttes i en doc-mappe
- pp.txt - skal ikke brukes, bør flyttes i en doc-mappe
- conj.txt - skal ikke brukes, bør flyttes i en doc-mappe
- prongeneration.txt - skal ikke brukes, bør flyttes i en inc-mappe
Forskjeller mellom sma vs. sme
- Filplassering. sme: Alle leksikonfiler, oppgavefiler, feedbackfiler ligger i ped/sme/xml. sma: spredt i pedversions og ped/sma/xml og ped/sma/src.
- Generering i sme: generering med ped/sme/src/paradigms.txt, dessuten ped/sme/src/prongeneration.txt, i
- Begrense generering: sma: gen_only, sme: <only-sg/> <only-pl/>
- sma: stat_pref - sme: første t er default stat_pref
- sma: exclude="nobsma" sme: <noleksa/>
- sma: l-element sme: lemma-element
- morfologisk info - sma: l-element. sme: stem-element
sma: <l margo="e" pos="n" soggi="e" stem="3syll"> sme: <stem class="bisyllabic" diphthong="yes" gradation="yes" soggi="i" rime="0"/>
- sma: spell relax ï/i, ö/ø, osv.
- sma: installeringsprosessen genererar alle formane som vert innført i databasen ein gong på byrjinga, sme: genererar paradigmer til kvar ord ein gong per ord