151014
Giellateknomøte 14.10.
Saksliste
- Programmerarstillinga
- programmerer-stillinga
- phd-stillinger
- bidix
- todo-lista
- Dubletter i korpus
- Detmars invitasjon til Tübingen
- Bruk av arbeidstid
- gtweb
- Rommet
- Diskusjonen om artiklar (slutten av diskusjonen)
Saker
programmerer-stillinga
Trond har snakka med Eystein, som delegerer intervjuansvaret til Trond.
phd-stillinger
programmerer phd.
Vi venter på instituttet.
lingvistisk phd
Trond tar opp saka.
bidix
ordbok til bidix
sme<tab>POS<tab>smn<tab>POS
finsmn/trans_dict/all_sme2smn.csv
albma A rievtis A albma A vuoigâ A albma A puigâ A albma A olmâ A <=== albma A penttâ A albma A uálgis A albma A uálgispeln A albma A uálgispeeli A albma A piiŋušpeeli A albma A puigâ A albma A rievtis A albma A vuoigâ A albma A olmâ A albma A penttâ A albma A olmâ A astat V enittiđ V astat V kiergâniđ V astat V happiittiđ V astat V noddiđ V astat V ostâđ V astat V juovdâđ V astat V ostâstuđ V astat V terttiđ V astat V ostâđ V <=== astat V lijgodiđ V
Desse skal over i bidix-format.
- Ciprian lager et skript for Levenshtein.
- Ciprian viser til filene
- Vi studerer filene, og
- diskuterer (denne veka)
Homonymi i bidix
finsmn/trans_dict$ wc -l all_sme2smn.csv 19390 all_sme2smn.csv finsmn/trans_dict$ cut -f1 all_sme2smn.csv |sort -u | wc -l 6401 finsmn/trans_dict$ cut -f3 all_sme2smn.csv |sort -u | wc -l 9455
I dag har vi
<e><p><l>gárdin<s n="n"/></l><r>kärdi<s n="n"/></r></p></e> <e><p><l>gárdin<s n="n"/></l><r>muorâkärdi<s n="n"/></r></p></e>
Når det er flere smn for en sme: generere apertium-sme-smn.sme-smn.lrx
Det er ulike modellar for å prioritere mellom ulike omsetjingar,
<rules>
<rule weight="1.0">
<rule weight="1.0">
<rule weight="1.0">
<rule weight="1.0">
</rules>
Automatarbeid, smn
Mål: Utnytte informasjonen i kolonnene i smn-ordbøkene
- Viss formene i kolonne y er bøyingsform av lemmaet i kolonne x er alt bra.
- Viss ikkje sjekkar vi.
Verb + bøyingsformer er:
cat smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv |grep 'đ '|cut -f1
Script: For ord nr 2, 3 på kvar linje, har dei lemma = ord 1?
Desse to filene har same innhald, og er dei som er i best stand.
aLanâddâđ aLanâd aLaniđ allaan a'ldadâllâđ a'ldadâlâm aldaniđ a'ldediđ aldeed alediđ a'lgâttiđ aalgât almaaštâllâđ almaaštâlâm
- smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv
- smnfin/src/Saami-suoma_ERRATA_03072015_smnfin.xml
cat finsmn/src/all_finsmn.xml |grep 'wf=' <t pos="" wf="páárust">párustiđ</t> <t pos="" l_par="murista" wf="roVom">rohhoođ</t> <t pos="" t_tld="~ haridiđ haariid" wf="haarijd">harijdiđ</t> <t pos="" l_par="olla tuimana" wf="korâstâlâm">korâstâllâđ</t> <t pos="" l_par="niuhottaa" wf="kyeccist">kye'cistiđ</t> <t pos="" l_par="ihmistä t. esim. ihoa" wf="iär'dud">iär'dudiđ</t> <t pos="" l_par="härnätä jtkta" wf="háárdám">härdiđ</t> <t pos="" l_par="härnätä jtkta toistuvasti" wf="haardâš">ha'rdâččiđ</t> <t pos="" l_par="olla ärtyisä" wf="kyeccist">kye'cistiđ</t>
I beste fall er dei to identisk, som her:
smnfin: addiittâllâđ addiittâlâm addiittâl finsmn: <t pos="" l_par="toisiaan" wf="addiittâlâm addiittâl">addiittâllâđ</t>
Døme på verb med fleire enn ei wf:
"moostâm masta">mostâđ</t> "ibárdâs paijeel">moonnâđ</t> "iä'náduum iä'náduVá">iä'náduđ</t>
Døme på verb med berre ei wf:
"ramâččâdâm">ramâččâttâđ</t> "kobdánâd">kobdánâddâđ</t> "kobdoot">ko'bdottiđ</t> "uulât">ulâttiđ</t> "olám">olleeđ</t> "keelijd">kelijdiđ</t> cat finsmn/src/all_finsmn.xml |grep 'wf='|grep 'đ</t>'|sed 's/wf=/™/'|cut -d"™" -f2|grep ' '
Men i finsmn er einskildformer vs. fleirordsuttrykk disambiguert.
Lene og Trond ser på dette, med utgangspunkt i finsmn.
todo-lista
Trond og Ciprian ser på det.
Dubletter i korpus
Ciprian har prosessert data. Vi har dublettpar av to typer:
(1) filer men nesten samme naven
2015-10-13/sme/news/minaigi/2000/75-103/nmk-buljoglad.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_nmk-buljoglad.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/od-1999.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-1999.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/od-ingaguttorm.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-ingaguttorm.txt.xml ...
(2) filer med uliker navn (se BZ bug #2092)
- Same fil med ulike namn
- Same fil med like namn med ulike konvensjonar
- Nesten same fil med ulike namn
- Nesten same fil med like namn med ulike konvensjonar
Tomi hadde eit skript for å sjekke dublettar i korpus.
Vi tar initiativ til eit møte med Divvun om dette.
Det er også andre dublettar:
Detmars invitasjon til Tübingen
November-desember?
Skrive til Detmar og:
framlegg om brukarloggar
Brukarloggar, ulike innfallsvinklar
Førebu oss på ei breitt perspektiv:
- dei ulike nettenestene
- ulike sider ved dei
- kva er det vi ikkje loggar, men som vi burde ha logga?
Fortelje om oss sjølv-foredrag (samiske språk, samisk språkteknologi)
Bruk av arbeidstid
Når det gjelder engasjementer og samarbeid med andre
- klar delegering av opplæring/oppfølging
- krav om bruk av dokumentasjon og egne notater
- vurdere arbeidsfelt mot
- forkunnskaper og tilstedeværelse
- tidsbruk til opplæring og oppfølging
- forkunnskaper og tilstedeværelse
- begrense tidsbruk i forhold til samarbeidspartnere, tidsbruk skal knyttes
Prioriterte område
- MT
- leksikografi
- modellering av morfologi <= vekta automater
- ICALL
Rommet
Sjur har kontakt med Kyrre, som diskuterer eit konkret tilbod med oss denne veka.
gtweb
... vart oppdatert denne veka. Det avslørte at
Tiltak: Lene går gjennom dokumentasjonen og kommenterer.
Diskusjonen om artiklar (slutten av diskusjonen)
- smesma-artikkel NEJALT - intern deadline 27.10 -
- Umeå: sirkumpolar (sjå førre møte)
- Umeå: Trond: Morfa
- Tromsø1 Sami symposium (2-3.2.16) - 11.11.2015 abstrakt http: //site.uit.no/samesymposia/
- smesmn MT: Hvor vanskelig er maskinoversetting fra nordsamisk til inarisamisk?
- Tromsø2 (4.2.16) - 15.11. Formal approaches to Saami linguistics (inarisamisk morfofonologi?)
- Uleåborg (vente for å få med bidix og MT)
- SDÁ som kanal?