141105
Giellateknomøte 5.11.14
Saker:
- smenob/nobsme 
 - Paradigmegeneratoren i cgi-bin 
 - Big data -konferanse i Oslo 
 - Samarbeid om Sameting og Giellagáldu om e-ordbøker 
 - sme til nyinfra ~ fst-testing via VD-pipeline 
 - forrest og hjemmesida 
 - orienteringssaker: sjur/trond-møte
 
smenob/nobsme
På nett: Frå juni: 
- nds: Gamle NSS,  
 - web: Gamle NSS, FAD-only,
 
smenob: state-of-art: 
- src/ 
 - src_fad2merge/ (6202 ord)
 
tf-hsl-m0016:src ttr000$ cat *.xml|grep '<e '|cut -d"<" -f2-|sort|uniq -c|sort -nr 13112 fad 6373 vd 4344 nj 520 sk 153 gt_fad 42 ps,sa 6 gt 5 no 2 nou94 2 mt 2 kal 1 ps 1 other Umerka: <e> 11431
Tiltak
- Normalisering av filnamn (cipian) 
 - Slå saman filene i src/ (ciprian) 
 - Fjern <e> frå src/ og legg dei i ein separat katalog not_in_dict (ciprian) 
- README i katalogen 
 
 - README i katalogen 
 - Unifisering av fad2merge, algoritme 
- Lage 3 kolonner: Lemma - VD - MERGE 
 - Legge til OK/NEI/RED i kolonne 4 (Lene, ekstern) 
 - Maskinelt unifisere alle med OK, osv.
 
 - Lage 3 kolonner: Lemma - VD - MERGE 
 
Namna i xml-katalogen i Geo
cat geo_smi.xml|grep '"sme"'|wc -l
    5922
cat nounProp_smenob.xml |grep '<l '|wc -l
     502
Mogleg måtar å hindre at namna blokkerer for andre ord:
- skilnad store/små bokstavar, og, viss vi ikkje liker det: 
 - kryss "også med eigennamn"
 
Metadata
Vi må oppdatere metadata, både for NDS og for webdict (?)
Vi må lenkje ordbøkene i mellom for same språk. 
- Lenkje: Fleire ordbøker for nordsamisk i kvar ordbok, lenka til ei fellesside 
 - Denne fellessida må vere ein ny versjon av dicts.uit.no
 
Tiltak
- Lene ser på dette.
 
Paradigmepresentasjon i NDS
I paradigmegeneratoren eller i NDS? 
Paradigmegeneratoren i cgi-bin
Vi legg arbeidet inn i NDS, og gjer relativt små endringar i cgi-bin-scriptet.
Tiltak for å gjere den betre:
- Legge til "med varianter" i tittelfeltet over paradigmene ("šuhkoláda")
 - Forbetre presentasjon 
- Endre pluss til mellomrom 
 - fst-ar med ulike taggar (regex for norsk og samisk ==> basis for en db for taggar)
 - cgi-bin-skriptet endre taggar 
 - Match lokaliserte taggar med lokaliseringsspråk 
 
 - Endre pluss til mellomrom 
 - Liste som før, ikkje to tabeller 
 - Fjerne lemma heilt til venstre i tabellen 
 - Lenkje til paradigmegeneratoren frå ordboka 
 - Endre Send skjema / Sádde skovi ==> Send / Sádde
 
Tiltak
- Trond og Ciprian gjer dette.
 
Paradigmegeneratoren: Fjerde kulepunkt. Trond: Lag bug.
Samarbeid om Sameting og Giellagáldu om e-ordbøker
Tiltak
- Lene og Trond ser på dette.
 
Tidsplan
- Små endringar til neste møte 
 - Oppsummering og vidare plan på det møtet
 
Common Crawl Foundation-workshop i Oslo
Börre dit? Trond tar det vidare.
sme til nyinfra ~ fst-testing via VD-pipeline
Paradigmetesting
Plukk ut 20 ord med ulike taggar (Allegro, miniparadigme, v1, v2)
Vi har testa Oahpa og analysen.
Lage yaml av gamle VD-oppsett, eitt ord frå kvart kontleksikon.
abbr.txt
- Trond: 1100 i gammal, 813 i ny 
 - Lene: 1100 i gammal, 1100 i ny
 
Use/MT
Use/MT -- skal fjernast overalt, men vere med i apertium-generator-fst-ar 
Use/LexSub
Dette er ei sak for Divvun: Desse strengane skal ikkje med i Divvun-kontrollar. 
5100 Err/Sub, 700 Use/LexSub
Vi ville endre denne til Err/LexSub i vår, jf  
Strengen Use/LexSub må bli fjerna for den normative analysatoren (Divvun).
Konklusjon: For Gt sin del kan vi gå over til ny infra. 
- Lag ein kopi av gammal infra, for referanse. Frys den. 
 - Flytt gammal til ny, med svn-historikk
 
Trond tar det opp med sjur.
Korp
Ciprian kan trykke på knappen. Vi ser om det er nye ting i dag.
Oppdatere korpus, og deretter Korp.
forrest - hjemmeside
Fra møte 8.10.14:
- forbedre innholdet i ramma som er (Trond, Ciprian 15.10)
 - forbedre oversettelser (Jussi, Ivan, Laura/Detmar), deretter
 - forbedring layout pluss tekniske ting i Forrest (Trond tar opp med Sjur 14.10)
 - endre layout innafor forrest (også lage ny forside, bilde etc.), ekstern person, januar 2015
 
tabs
I dag:
| Tab | Går til | 
|---|---|
| Hjem Home | Heimesida | 
| Språklæring | oahpa.no | 
| Divvun korrektur | divvun.no | 
| Ordbøker | dicts.uit.no | 
| Oversetting | gtweb.uit.no/mt | 
| Tekstkorpus | gtweb.uit.no/korp | 
| TechDoc | Techdoc-sidene | 
Alternativ:
Ha Verkty for samiske språk (osb.) i tabbane der oppe
Nye tabbar: 
- Desse vil vi ha 
- Hjem Home 
 - Divvun 
 - Verktøy for samiske språk 
 - Verktøy for andre språk
 
 - Hjem Home 
 
Desse går då ut (dei er dekt av andre lenkjer)
- Språklæring 
 - Ordböker 
 - MT
 
Tiltak
- Lene implementerer det.
 
Dei fire framsidene
Status for dei fire sidene:
- forsida: her er det engelsk som gjeld. nno og sme er ulike 
 - giellatekno.eng.xml er parallell 
 - On oss er parallell 
 - samarbeidspartnarar: nno, eng er parallel, og er utgangspunkt
 
Tiltak
- Lene synkroniserer samisk og norsk 
 - Trond ser på resten 
 - Trond gjer om til bokmål
 
Sjur/Trond-referat (4.11):
- kløyv gtuit-forrest i to likt Divvun 
 - bygg ut gtuit til å vera fleirspråkleg slik Divvun er det 
 - lag felles techdoc
 
Tidsplan: Denne/neste veke.
Bugzilla
Betre politikk for prioritering:
- Den som meldar inn buggen set alvorlegheitsgrad 
- (feature request ... blocker).  
 - Så kan sjølvsagt  
 alle involverte revidere alvorlegheitsgraden viss det viser seg at buggen er meir/mindre alvorleg enn vi først trudde. 
 - (feature request ... blocker).  
 - Trond/Sjur/eigaren set prioritet  
- (P1 ... P5) 
 
 - (P1 ... P5) 
 - Vi tar prioriteringane alvorleg, og lar det 
 vere samsvar med P og realitet. 
Flytte bz-diskusjon over til dokumentasjonen? 
Tiltak
- Trond diskuterer  /lang/sme/j-sme.html 
 med Sjur. Desse sidene må i bruk. 
Orienteringssaker
Sjur/trond-møte 
Møtereferata
main/techdoc/admin/giellatekno/ 
Terminologi
Utlysing
SDÁ
SDÁ-terminologi: Vaske ut akademisk tekst 
Lene kontaktar redaksjonskomitéen.
Neste möte
Om ei veke: Planar. 

