121213

FAD- og korpusmøte 20.11.2012

Til stades: Berit Merete, Børre, Marja, Ciprian, Sjur, Trond

Saker:

  • Status
  • Arbeid framover
  • Autshomato
  • Neste møte

Status

Gullgravinga

Ciprian har laga ei køyring (over 0.1) som M & BM har sett på, med lemma & POS+.

Status: Eit par dagars arbeid att.

Problem: Komposita.

$67 0 -5.798 0.0 0.2087912 språk+regle<n><f> giella+njuolggadus<n> $167 0 -4.885 0.0 0.5604396 språk+regle<n><m> giella+njuolggadus<n>

11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n> $9 0 -7.805 0.0 1.0 sosial+satsing<n><m> sosiála+áŋgiruššat<v><iv><der4><der_n><n><pl><nom> $3 0 -8.904 0.0 0.2222222 sommerhalvår<n><nt> geassi+jahkebealli<n>

$3 0 -8.904 0.0 0.2222222 sommerhalvår<n><nt> geassi+jahkebealli<n> 11 0 -7.605 0.0 0.1212121 sovemedisin<n><m> oađđit+dálkkas<n> $9 0 -7.805 0.0 1.0 sosial+satsing<n><m> sosiála+áŋgiruššat<v><iv><der4><der_n><n><pl><nom>

OBS! vuohta er forsvunnet +Der/vuohta

7 0 -8.057 0.0 0.25 handel+avtale<n><m> efta+gávpi+šiehtadus<n>

$66 0 -5.813 0.0 0.25 spesialist+helse+tjeneste<n><m> erenoamáš+dearvvas+bálvalus<n>
=> spesialist+helse+tjeneste<n><m> erenoamáš+dearvvas+Der/vuohta+bálvalus<n>
erenoamášdearvvasvuohtabálvalus
dhcp806-ans:~ ttr000$ echo erenoamášdearvvasvuohtabálvalus | usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
erenoamášdearvvasvuohtabálvalus	erenoamáš+A+SgGenCmp+Cmp#dearvvas+A+Attr+Der/vuohta+N+SgNomCmp+Cmp#bálvalus+N+Sg+Nom
...

dhcp806-ans:~ ttr000$ echo erenoamášdearvvasvuohtabálvalus | usme | lookup2cg
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
"<erenoamášdearvvasvuohtabálvalus>"
	 "erenoamáš#dearvvasvuohta#bálvalus" N Sg Nom

Vi får lemma, men mistar delane. Jf:

dhcp806-ans:~ ttr000$ echo sátneheasta | usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
sátneheasta	sátni+N+SgNomCmp+Cmp#heasta+Ani+N+Sg+Nom

dhcp806-ans:~ ttr000$ echo sátneheasta | usme | lookup2cg
"<sátneheasta>"
	 "sátne#heasta" Ani N Sg Nom

Desse orda er merka.

63 0 -5.822 0.0 0.1111111 rik<adj> sátnerikkis<a>  = gt
34 0 -6.476 0.0 0.2 lære+verk<n><nt> sátni+oassi<n>  = ap

hum-tf4-ans161:second_run ttr000$ cat *candidates_ap* | grep sátnerikkis
hum-tf4-ans161:second_run ttr000$ cat *candidates_ap* | grep 'sátni+rikkis'

354 0 -4.096 0.0 0.025 samiskspråklig<adj> priváhtarievttálaš<a> gt
22 0 -6.911 0.0 0.5625 privatrettslig<adj> priváhtarievttálaš<a>

l ~/big/st/nob/nowac/nowac-1.1.lemmas_repaired.freq # l ~/big/st/nob/nowac/nowac-1.1.lemmas.freq l ~/big/st/nob/00_readme.txt

  • http: //www.tekstlab.uio.no/nowac/
  • http: //www.hf.uio.no/iln/om/organisasjon/tekstlab/
  • http: //www.hf.uio.no/iln/om/organisasjon/tekstlab/prosjekter/nowac/index.html
  • http: //www.hf.uio.no/iln/om/organisasjon/tekstlab/tjenester/nowac-frequency.html

GJERA:

  • Diskutere kolonnene med Francis (Trond)
  • Bli ferdig med *.filtered (tidleg i neste veke) (Marja, Berit)
  • Bruke NoWaC som språkmodell og køyre gt-parallellisering (Cip)
  • Rydde opp i komposita (På vent)
  • Skilje mellom fagord og andre ord
    • Nye ordpar vil vi ha
    • Lakuner i nobsme vil vi gjerne ha sjølv om det ikkje er fagord
    • Ordpar vi allereie har filtrerer vi vekk
    • nob-ord som har andre sme i FAD enn i nobsme er gode kandidatar til fagord
  • Møte for å evaluere dei to vegane i neste veke

Korpuskonvertering

Later- og skip-tagger (på vent) korpusarbeidet skal pågå kontinuerlig

Korpus-buggar

  • 1482 maj P5 Pre- and Børre Gaup prepocess: problemer med kolon og linjeskift
    • Denne vil vi fikse.
  • 1061 min P4 Corpus Børre Gaup Language identification ignores xml: lang value
    • Dette ser ut til å vere overkommeleg.
  • 1491 enh P5 Corpus Børre Gaup Introduce new attributes to improve sentence alignability
    • Denne bør opp som sak på FAD-møtet.
  • 1391 enh P5 Corpus Børre Gaup Files declared in xsl meta file but missing in the converted corpus
  • 1481 nor P5 Corpus Berit Nystad Esko... Underspecified translation direction (Berit)
  • 1484 enh P5 Corpus Børre Gaup unequal number of object vs. meta files in the whole corpus
  • 1531 nor P5 Corpus Børre Gaup Filnavn bør ikke inneholde spesielle samiske eller norske bokstaver
  • 1074 nor P5 Corpus Ciprian Gerstenbe... Possible infinite template recursion because of input data
  • 1494 maj P5 Pre- and Trond Trosterud Ø blir til både ø og ö i analysen
    • Dette er ein bug som kan bli plagsom den dagen den blir plagsom.

TILTAK

  • Ansvarlege: gå gjennom lista til neste møte.

Arbeid framover

Sjå ovafor.

Autshomato

Utsetje til neste møte.

Neste møte

Onsdag 19.12. 09.30