141105
Giellateknomøte 5.11.14
Saker:
- smenob/nobsme
- Paradigmegeneratoren i cgi-bin
- Big data -konferanse i Oslo
- Samarbeid om Sameting og Giellagáldu om e-ordbøker
- sme til nyinfra ~ fst-testing via VD-pipeline
- forrest og hjemmesida
- orienteringssaker: sjur/trond-møte
smenob/nobsme
På nett: Frå juni:
- nds: Gamle NSS,
- web: Gamle NSS, FAD-only,
smenob: state-of-art:
- src/
- src_fad2merge/ (6202 ord)
tf-hsl-m0016:src ttr000$ cat *.xml|grep '<e '|cut -d"<" -f2-|sort|uniq -c|sort -nr 13112 fad 6373 vd 4344 nj 520 sk 153 gt_fad 42 ps,sa 6 gt 5 no 2 nou94 2 mt 2 kal 1 ps 1 other Umerka: <e> 11431
Tiltak
- Normalisering av filnamn (cipian)
- Slå saman filene i src/ (ciprian)
- Fjern <e> frå src/ og legg dei i ein separat katalog not_in_dict (ciprian)
- README i katalogen
- README i katalogen
- Unifisering av fad2merge, algoritme
- Lage 3 kolonner: Lemma - VD - MERGE
- Legge til OK/NEI/RED i kolonne 4 (Lene, ekstern)
- Maskinelt unifisere alle med OK, osv.
- Lage 3 kolonner: Lemma - VD - MERGE
Namna i xml-katalogen i Geo
cat geo_smi.xml|grep '"sme"'|wc -l 5922 cat nounProp_smenob.xml |grep '<l '|wc -l 502
Mogleg måtar å hindre at namna blokkerer for andre ord:
- skilnad store/små bokstavar, og, viss vi ikkje liker det:
- kryss "også med eigennamn"
Metadata
Vi må oppdatere metadata, både for NDS og for webdict (?)
Vi må lenkje ordbøkene i mellom for same språk.
- Lenkje: Fleire ordbøker for nordsamisk i kvar ordbok, lenka til ei fellesside
- Denne fellessida må vere ein ny versjon av dicts.uit.no
Tiltak
- Lene ser på dette.
Paradigmepresentasjon i NDS
I paradigmegeneratoren eller i NDS?
Paradigmegeneratoren i cgi-bin
Vi legg arbeidet inn i NDS, og gjer relativt små endringar i cgi-bin-scriptet.
Tiltak for å gjere den betre:
- Legge til "med varianter" i tittelfeltet over paradigmene ("šuhkoláda")
- Forbetre presentasjon
- Endre pluss til mellomrom
- fst-ar med ulike taggar (regex for norsk og samisk ==> basis for en db for taggar)
- cgi-bin-skriptet endre taggar
- Match lokaliserte taggar med lokaliseringsspråk
- Endre pluss til mellomrom
- Liste som før, ikkje to tabeller
- Fjerne lemma heilt til venstre i tabellen
- Lenkje til paradigmegeneratoren frå ordboka
- Endre Send skjema / Sádde skovi ==> Send / Sádde
Tiltak
- Trond og Ciprian gjer dette.
Paradigmegeneratoren: Fjerde kulepunkt. Trond: Lag bug.
Samarbeid om Sameting og Giellagáldu om e-ordbøker
Tiltak
- Lene og Trond ser på dette.
Tidsplan
- Små endringar til neste møte
- Oppsummering og vidare plan på det møtet
Common Crawl Foundation-workshop i Oslo
Börre dit? Trond tar det vidare.
sme til nyinfra ~ fst-testing via VD-pipeline
Paradigmetesting
Plukk ut 20 ord med ulike taggar (Allegro, miniparadigme, v1, v2)
Vi har testa Oahpa og analysen.
Lage yaml av gamle VD-oppsett, eitt ord frå kvart kontleksikon.
abbr.txt
- Trond: 1100 i gammal, 813 i ny
- Lene: 1100 i gammal, 1100 i ny
Use/MT
Use/MT -- skal fjernast overalt, men vere med i apertium-generator-fst-ar
Use/LexSub
Dette er ei sak for Divvun: Desse strengane skal ikkje med i Divvun-kontrollar.
5100 Err/Sub, 700 Use/LexSub
Vi ville endre denne til Err/LexSub i vår, jf
Strengen Use/LexSub må bli fjerna for den normative analysatoren (Divvun).
Konklusjon: For Gt sin del kan vi gå over til ny infra.
- Lag ein kopi av gammal infra, for referanse. Frys den.
- Flytt gammal til ny, med svn-historikk
Trond tar det opp med sjur.
Korp
Ciprian kan trykke på knappen. Vi ser om det er nye ting i dag.
Oppdatere korpus, og deretter Korp.
forrest - hjemmeside
Fra møte 8.10.14:
- forbedre innholdet i ramma som er (Trond, Ciprian 15.10)
- forbedre oversettelser (Jussi, Ivan, Laura/Detmar), deretter
- forbedring layout pluss tekniske ting i Forrest (Trond tar opp med Sjur 14.10)
- endre layout innafor forrest (også lage ny forside, bilde etc.), ekstern person, januar 2015
tabs
I dag:
Tab | Går til |
---|---|
Hjem Home | Heimesida |
Språklæring | oahpa.no |
Divvun korrektur | divvun.no |
Ordbøker | dicts.uit.no |
Oversetting | gtweb.uit.no/mt |
Tekstkorpus | gtweb.uit.no/korp |
TechDoc | Techdoc-sidene |
Alternativ:
Ha Verkty for samiske språk (osb.) i tabbane der oppe
Nye tabbar:
- Desse vil vi ha
- Hjem Home
- Divvun
- Verktøy for samiske språk
- Verktøy for andre språk
- Hjem Home
Desse går då ut (dei er dekt av andre lenkjer)
- Språklæring
- Ordböker
- MT
Tiltak
- Lene implementerer det.
Dei fire framsidene
Status for dei fire sidene:
- forsida: her er det engelsk som gjeld. nno og sme er ulike
- giellatekno.eng.xml er parallell
- On oss er parallell
- samarbeidspartnarar: nno, eng er parallel, og er utgangspunkt
Tiltak
- Lene synkroniserer samisk og norsk
- Trond ser på resten
- Trond gjer om til bokmål
Sjur/Trond-referat (4.11):
- kløyv gtuit-forrest i to likt Divvun
- bygg ut gtuit til å vera fleirspråkleg slik Divvun er det
- lag felles techdoc
Tidsplan: Denne/neste veke.
Bugzilla
Betre politikk for prioritering:
- Den som meldar inn buggen set alvorlegheitsgrad
- (feature request ... blocker).
- Så kan sjølvsagt
- (feature request ... blocker).
- Trond/Sjur/eigaren set prioritet
- (P1 ... P5)
- (P1 ... P5)
- Vi tar prioriteringane alvorleg, og lar det
Flytte bz-diskusjon over til dokumentasjonen?
Tiltak
- Trond diskuterer /lang/sme/j-sme.html
Orienteringssaker
Sjur/trond-møte
Møtereferata
main/techdoc/admin/giellatekno/
Terminologi
Utlysing
SDÁ
SDÁ-terminologi: Vaske ut akademisk tekst
Lene kontaktar redaksjonskomitéen.
Neste möte
Om ei veke: Planar.