121213
FAD- og korpusmøte 20.11.2012
Til stades: Berit Merete, Børre, Marja, Ciprian, Sjur, Trond
Saker:
- Status
- Arbeid framover
- Autshomato
- Neste møte
Status
Gullgravinga
Ciprian har laga ei køyring (over 0.1) som M & BM har
Status: Eit par dagars arbeid att.
Problem: Komposita.
$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n>
11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n>
$3 0 -8.904 0.0 0.2222222 sommerhalvår<n><nt> geassi+jahkebealli<n>
OBS! vuohta er forsvunnet +Der/vuohta
7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n>
$66 0 -5.813 0.0 0.25 spesialist+helse+tjeneste<n><m> erenoamáš+dearvvas+bálvalus<n> => spesialist+helse+tjeneste<n><m> erenoamáš+dearvvas+Der/vuohta+bálvalus<n> erenoamášdearvvasvuohtabálvalus
dhcp806-ans:~ ttr000$ echo erenoamášdearvvasvuohtabálvalus | usme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% erenoamášdearvvasvuohtabálvalus erenoamáš+A+SgGenCmp+Cmp#dearvvas+A+Attr+Der/vuohta+N+SgNomCmp+Cmp#bálvalus+N+Sg+Nom ... dhcp806-ans:~ ttr000$ echo erenoamášdearvvasvuohtabálvalus | usme | lookup2cg 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% "<erenoamášdearvvasvuohtabálvalus>" "erenoamáš#dearvvasvuohta#bálvalus" N Sg Nom
Vi får lemma, men mistar delane. Jf:
dhcp806-ans:~ ttr000$ echo sátneheasta | usme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% sátneheasta sátni+N+SgNomCmp+Cmp#heasta+Ani+N+Sg+Nom dhcp806-ans:~ ttr000$ echo sátneheasta | usme | lookup2cg "<sátneheasta>" "sátne#heasta" Ani N Sg Nom
Desse orda er merka.
63 0 -5.822 0.0 0.1111111 rik<adj> sátnerikkis<a> = gt 34 0 -6.476 0.0 0.2 lære+verk<n><nt> sátni+oassi<n> = ap hum-tf4-ans161:second_run ttr000$ cat *candidates_ap* | grep sátnerikkis hum-tf4-ans161:second_run ttr000$ cat *candidates_ap* | grep 'sátni+rikkis' 354 0 -4.096 0.0 0.025 samiskspråklig<adj> priváhtarievttálaš<a> gt 22 0 -6.911 0.0 0.5625 privatrettslig<adj> priváhtarievttálaš<a>
l ~/big/st/nob/nowac/nowac-1.1.lemmas_repaired.freq #
- http: //www.tekstlab.uio.no/nowac/
- http: //www.hf.uio.no/iln/om/organisasjon/tekstlab/
- http: //www.hf.uio.no/iln/om/organisasjon/tekstlab/prosjekter/nowac/index.html
- http: //www.hf.uio.no/iln/om/organisasjon/tekstlab/tjenester/nowac-frequency.html
GJERA:
- Diskutere kolonnene med Francis (Trond)
- Bli ferdig med *.filtered (tidleg i neste veke) (Marja, Berit)
- Bruke NoWaC som språkmodell og køyre gt-parallellisering (Cip)
- Rydde opp i komposita (På vent)
- Skilje mellom fagord og andre ord
- Nye ordpar vil vi ha
- Lakuner i nobsme vil vi gjerne ha sjølv om det ikkje er fagord
- Ordpar vi allereie har filtrerer vi vekk
- nob-ord som har andre sme i FAD enn i nobsme er gode kandidatar til fagord
- Nye ordpar vil vi ha
- Møte for å evaluere dei to vegane i neste veke
Korpuskonvertering
Korpus-buggar
- 1482 maj P5 Pre- and Børre Gaup prepocess: problemer med kolon og linjeskift
- Denne vil vi fikse.
- Denne vil vi fikse.
- 1061 min P4 Corpus Børre Gaup Language identification ignores xml: lang value
- Dette ser ut til å vere overkommeleg.
- Dette ser ut til å vere overkommeleg.
- 1491 enh P5 Corpus Børre Gaup Introduce new attributes to improve sentence alignability
- Denne bør opp som sak på FAD-møtet.
- Denne bør opp som sak på FAD-møtet.
- 1391 enh P5 Corpus Børre Gaup Files declared in xsl meta file but missing in the converted corpus
- 1481 nor P5 Corpus Berit Nystad Esko... Underspecified translation direction (Berit)
- 1484 enh P5 Corpus Børre Gaup unequal number of object vs. meta files in the whole corpus
- 1531 nor P5 Corpus Børre Gaup Filnavn bør ikke inneholde spesielle samiske eller norske bokstaver
- 1074 nor P5 Corpus Ciprian Gerstenbe... Possible infinite template recursion because of input data
- 1494 maj P5 Pre- and Trond Trosterud Ø blir til både ø og ö i analysen
- Dette er ein bug som kan bli plagsom den dagen den blir plagsom.
TILTAK
- Ansvarlege: gå gjennom lista til neste møte.
Arbeid framover
Autshomato
Neste møte