151014

Giellateknomøte 14.10.

Saksliste

  • Programmerarstillinga
  • programmerer-stillinga
  • phd-stillinger
  • bidix
  • todo-lista
  • Dubletter i korpus
  • Detmars invitasjon til Tübingen
  • Bruk av arbeidstid
  • gtweb
  • Rommet
  • Diskusjonen om artiklar (slutten av diskusjonen)

Saker

programmerer-stillinga

Trond har snakka med Eystein, som delegerer intervjuansvaret til Trond. Administrasjonen kan ikke hjelpe til med det praktiske med intervjuene. Trond engasjerer en til å gjøre dette for oss.

phd-stillinger

programmerer phd.

Vi venter på instituttet.

lingvistisk phd

Trond tar opp saka.

bidix

ordbok til bidix

Ciprian sjekka inn i går:

sme<tab>POS<tab>smn<tab>POS

finsmn/trans_dict/all_sme2smn.csv

albma   A       rievtis A 
albma   A       vuoigâ  A
albma   A       puigâ   A
albma   A       olmâ    A <===
albma   A       penttâ  A
albma   A       uálgis  A
albma   A       uálgispeln      A
albma   A       uálgispeeli     A
albma   A       piiŋušpeeli     A
albma   A       puigâ   A
albma   A       rievtis A
albma   A       vuoigâ  A
albma   A       olmâ    A
albma   A       penttâ  A
albma   A       olmâ    A

astat   V       enittiđ V
astat   V       kiergâniđ       V
astat   V       happiittiđ      V
astat   V       noddiđ  V
astat   V       ostâđ   V
astat   V       juovdâđ V
astat   V       ostâstuđ        V
astat   V       terttiđ V
astat   V       ostâđ   V   <===
astat   V       lijgodiđ        V

Desse skal over i bidix-format.

  1. Ciprian lager et skript for Levenshtein.
  2. Ciprian viser til filene
  3. Vi studerer filene, og
  4. diskuterer (denne veka)

Homonymi i bidix

finsmn/trans_dict$ wc -l all_sme2smn.csv  19390 all_sme2smn.csv
finsmn/trans_dict$ cut -f1 all_sme2smn.csv |sort -u | wc -l    6401
finsmn/trans_dict$ cut -f3 all_sme2smn.csv |sort -u | wc -l    9455

I dag har vi

 <e><p><l>gárdin<s n="n"/></l><r>kärdi<s n="n"/></r></p></e>
 <e><p><l>gárdin<s n="n"/></l><r>muorâkärdi<s n="n"/></r></p></e>

Når det er flere smn for en sme: generere apertium-sme-smn.sme-smn.lrx

Det er ulike modellar for å prioritere mellom ulike omsetjingar, status i fst, rekkjefølgje i ordboka, redigeringsavstand til sme, ... Vi må sjå på dei når vi kjem så langt.

<rules>

<rule weight="1.0"> <match lemma="gárdin" tags="n.*"><select lemma="muorâkärdi" tags="n.*"/></match> </rule>

<rule weight="1.0"> <match lemma="fertet" tags="vblex.*"><select lemma="kolgâđ" tags="vblex.*"/></match> </rule>

<rule weight="1.0"> <match lemma="sápmi" tags="n.sg.*"><select lemma="säämi" tags="n.sg.*"/></match> </rule>

<rule weight="1.0"> <match lemma="sápmi" tags="n.pl.*"><select lemma="sämmilâš" tags="n.pl.*"/></match> </rule>

</rules>

Automatarbeid, smn

Mål: Utnytte informasjonen i kolonnene i smn-ordbøkene

  1. Viss formene i kolonne y er bøyingsform av lemmaet i kolonne x er alt bra.
  2. Viss ikkje sjekkar vi.

Verb + bøyingsformer er:

cat smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv |grep 'đ '|cut -f1

Script: For ord nr 2, 3 på kvar linje, har dei lemma = ord 1?

Desse to filene har same innhald, og er dei som er i best stand.

aLanâddâđ  aLanâd     
aLaniđ  allaan     
a'ldadâllâđ  a'ldadâlâm     
aldaniđ       
a'ldediđ  aldeed     
alediđ       
a'lgâttiđ  aalgât     
almaaštâllâđ  almaaštâlâm  
  1. smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv
  2. smnfin/src/Saami-suoma_ERRATA_03072015_smnfin.xml
cat finsmn/src/all_finsmn.xml |grep 'wf='

  <t pos="" wf="páárust">párustiđ</t>
  <t pos="" l_par="murista" wf="roVom">rohhoođ</t>
  <t pos="" t_tld="~ haridiđ haariid" wf="haarijd">harijdiđ</t>
  <t pos="" l_par="olla tuimana" wf="korâstâlâm">korâstâllâđ</t>
  <t pos="" l_par="niuhottaa" wf="kyeccist">kye'cistiđ</t>
  <t pos="" l_par="ihmistä t. esim. ihoa" wf="iär'dud">iär'dudiđ</t>
  <t pos="" l_par="härnätä jtkta" wf="háárdám">härdiđ</t>
  <t pos="" l_par="härnätä jtkta toistuvasti" wf="haardâš">ha'rdâččiđ</t>
  <t pos="" l_par="olla ärtyisä" wf="kyeccist">kye'cistiđ</t>

I beste fall er dei to identisk, som her:

smnfin:
addiittâllâđ  addiittâlâm addiittâl     
finsmn:
            <t pos="" l_par="toisiaan" wf="addiittâlâm addiittâl">addiittâllâđ</t>

Døme på verb med fleire enn ei wf:

"moostâm masta">mostâđ</t>
"ibárdâs paijeel">moonnâđ</t>
"iä'náduum iä'náduVá">iä'náduđ</t>

Døme på verb med berre ei wf:

"ramâččâdâm">ramâččâttâđ</t>
"kobdánâd">kobdánâddâđ</t>
"kobdoot">ko'bdottiđ</t>
"uulât">ulâttiđ</t>
"olám">olleeđ</t>
"keelijd">kelijdiđ</t>

cat finsmn/src/all_finsmn.xml |grep 'wf='|grep 'đ</t>'|sed 's/wf=/™/'|cut -d"™" -f2|grep ' '

Men i finsmn er einskildformer vs. fleirordsuttrykk disambiguert.

Lene og Trond ser på dette, med utgangspunkt i finsmn.

todo-lista

Trond og Ciprian ser på det.

Dubletter i korpus

Ciprian har prosessert data. Vi har dublettpar av to typer:

(1) filer men nesten samme naven

2015-10-13/sme/news/minaigi/2000/75-103/nmk-buljoglad.txt.xml
2015-10-13/sme/news/minaigi/2000/75-103/_nmk-buljoglad.txt.xml

2015-10-13/sme/news/minaigi/2000/75-103/od-1999.txt.xml
2015-10-13/sme/news/minaigi/2000/75-103/_od-1999.txt.xml

2015-10-13/sme/news/minaigi/2000/75-103/od-ingaguttorm.txt.xml
2015-10-13/sme/news/minaigi/2000/75-103/_od-ingaguttorm.txt.xml
...

(2) filer med uliker navn (se BZ bug #2092)

  1. Same fil med ulike namn
  2. Same fil med like namn med ulike konvensjonar
  3. Nesten same fil med ulike namn
  4. Nesten same fil med like namn med ulike konvensjonar

Tomi hadde eit skript for å sjekke dublettar i korpus.

Vi tar initiativ til eit møte med Divvun om dette.

Det er også andre dublettar:

Bug om dubletter i smn

Detmars invitasjon til Tübingen

November-desember?

Skrive til Detmar og:

framlegg om brukarloggar

Brukarloggar, ulike innfallsvinklar

Førebu oss på ei breitt perspektiv:

  • dei ulike nettenestene
  • ulike sider ved dei
  • kva er det vi ikkje loggar, men som vi burde ha logga?

Fortelje om oss sjølv-foredrag (samiske språk, samisk språkteknologi)

Bruk av arbeidstid

Når det gjelder engasjementer og samarbeid med andre

  • klar delegering av opplæring/oppfølging
  • krav om bruk av dokumentasjon og egne notater
  • vurdere arbeidsfelt mot
    • forkunnskaper og tilstedeværelse
    • tidsbruk til opplæring og oppfølging
  • begrense tidsbruk i forhold til samarbeidspartnere, tidsbruk skal knyttes opp mot felles publikasjoner

Prioriterte område

  • MT
  • leksikografi
  • modellering av morfologi <= vekta automater
  • ICALL

Rommet

Sjur har kontakt med Kyrre, som diskuterer eit konkret tilbod med oss denne veka. Deretter diskuterer vi rom + framtidsperspektiv.

gtweb

... vart oppdatert denne veka. Det avslørte at don't panic-sida ikkje var eksplisitt nok. Vi har etter det oppdatert dokumentasjonen, og den er betre.

Tiltak: Lene går gjennom dokumentasjonen og kommenterer.

Diskusjonen om artiklar (slutten av diskusjonen)

  • smesma-artikkel NEJALT - intern deadline 27.10 -
  • Umeå: sirkumpolar (sjå førre møte)
  • Umeå: Trond: Morfa
  • Tromsø1 Sami symposium (2-3.2.16) - 11.11.2015 abstrakt http: //site.uit.no/samesymposia/
  • smesmn MT: Hvor vanskelig er maskinoversetting fra nordsamisk til inarisamisk?
  • Tromsø2 (4.2.16) - 15.11. Formal approaches to Saami linguistics (inarisamisk morfofonologi?)
  • Uleåborg (vente for å få med bidix og MT)
  • SDÁ som kanal?