141119
Giellateknomøte, 19. 11. 2014
Saker
- Forbetring av paradigmegenerering
- Nettsidene våre
- Smenob/nobsme
- Oppfølgjingssaker
- Sametinget / Giellagáldu e-ordbøker
- CCF i Oslo 24.11.: http: //www.mn.uio.no/ifi/om/aktuelt/arrangementer/andre/nlpg.html (Ciprian?)
- Korp
- Sametinget / Giellagáldu e-ordbøker
Forbetring av paradigmegenerering
cgi-bin
Tagger på flere språk, med mellomrom mellom
Eksempel på presentasjon for paradigmegeneratoren:
vuovdi+N+NomAg+Sg+Nom => subst. handlernomen entall nominativ
Starte med database for tagger med oversettinger til forskjellig bruk og språk
Stader der vi finn taggar i dag:
- i n-sme.fst, s-sme.fst -skripta
- gt/common/src/tag-no.regex, norsk
- gt/common/src/tag-sme.regex nordsamisk
- gt/common/src/tag-sjd.regex russisk (sic)
- gt/common/src/tag-no.regex, norsk
- i lista over hjelpefunksjonar for Korp
- NDS i configure
- i dokumentasjonen for dei morfologiske analysatorane våre
Innhald:
- Dei grammatiske termane som folk har lært på skolen
- For språka vi lokaliserer til: sme, nob, eng, fin, rus
- Referanse: Lingvist-taggar (dei som er i analysatoren)
TODO: Ciprian ser på dette i år.
Bug,
den viser baser bare for en av flere muligheter når PoS ikke er valg => skrive bz
Hva vi kan gjøre nå, før databasen er ferdig:
- Fjerne pluss
- Første steg: Taggar som no, men mellomrom og ikkje pluss mellom dei.
- Første steg: Taggar som no, men mellomrom og ikkje pluss mellom dei.
- Repetisjon av lemma
- Repetisjon av lemma skal bort. Dette blir styrt i conf.pl, og sannsynlegvis i smi.cgi.
Paradigme utan ordklasse
Bug,
den viser baser bare for en av flere muligheter når PoS ikke er valg => skrive bz
Det ligg eit dokument i techdoc som inneheld framlegg til forbetringar av paradigmegeneratoren,
/infra/web/ParadigmPresentation.html
Nettsidene våre
Fra møtet 14.10:
- forbedre innholdet i ramma som er (Trond, Ciprian 15.10)
- forbedre oversettelser (Jussi, Ivan, Laura/Detmar), deretter
- forbedring layout pluss tekniske ting i Forrest (Diskusjon med Børre)
- endre layout innafor forrest (også lage ny forside, bilde etc.), ekstern person, januar 2015
Ting som skal gjøres med strukturen for hjemmesida:
- Dele gtuit i to: rein techdoc og gt-ekstern.
- gt-ekstern sett opp som Divvun, med fleirspråklege tabbar på toppen av sida (men disse kan ikke linkes flerspråklig)
- Slå saman gt-techdoc og divvun-techdoc (Sjur: Etter jul)
- Generere språkvalg inn på sidene: Frå side x på samisk til same side x på norsk
Arbeid i nyinfra, neste veke
- Dokumentasjon for feilmeldinger ved kompilering
- Bedre feilmeldinger i make
- Opplæring i nyinfra, også for yaml- og testskriptskriving
Smenob/nobsme
Paradigmegenerering i NDS for smenob
Eit neste steg for paradigmegenereringa i NDS vil vere å la dei andre språka få glede av sme-forbetringane
Lene og Ryan har arbeidd mykje, og det er oppretta ein bugzilla for å fikse de siste detaljene
Generering av fad-gt-mergeliste
Lene: Jeg har sett litt på filene. Mange av ordene er ikke i vanlig smenob, men i src_non-accepted, så jeg vil foreslå å samkjøre med ord derfra også. Det er en fordel å ha med infoen src= for alle oversettinger.
Da får vi N antall oversettelser fra gamle filer og N antall oversetteler fra merge-fila.
- Merke oversettelsene som ikke skal være med (både fra gamle og nye filer)
- i hver sin mg
- i samme mg => ikke merka, blir ikke med (dette gjelder også fra de "gamle" filene
- i hver sin mg
- Merke med "trenger manuell redigering"
Viss fad-merge har samanfall i non-accepted blir non-accepted tatt med. Andre non-accepted forblir separat.
TODO:
- Lene lagar eksempel til Cip i csv
- Cip genererer ei kommaseparert liste av dei to katalogane (fad-merge + non-accepted)
Metadata
Metadata for de forskjellige ordbøkene skal oppdateres.
- NDS:
- Webdict: Dokumentasjonen er oppdatert.
- I filene: CC-informasjon skal være i alle filene, slik at de som henter filer til egne dicts osv er klar over CC-betingelsene (også gtweb osv)
- TODO: CC-informasjon i alle filer. Script: Sjekke om det står CC, viss ikkje, legg til CC (Ciprian, Trond)
- TODO: CC-informasjon i alle filer. Script: Sjekke om det står CC, viss ikkje, legg til CC (Ciprian, Trond)
- Problem: ord vi sjekkar sjekkar vi mot smenob.fst. Vi må ha tre smenob.fst, ein med src, ein med fad-merge og ein med non-accepted
- Todo: Trond lagar fleire fst-ar.
Oppfølgjingssaker
- Sametinget / Giellagáldu e-ordbøker
- CCF i Oslo 24.11.: http: //www.mn.uio.no/ifi/om/aktuelt/arrangementer/andre/nlpg.html (Ciprian?)