130318

FAD-møte 18.3.2013

Tilstede:

Berit Merete, Marja, Trond.

Saksliste

  • Status quo, done-filene og pipeline-filene
  • Framover

Status quo, done-filene og pipeline-filene

pipeline-filene

er ferdige, merka med $ og i nokre tilfelle med $?

  • gt
    • cat gt-pl.20121213_0*|wc -l 28066
    • cat gt-pl.20121213_0*|egrep '^\$'|wc -l 7108
    • cat gt-pl.20121213_0*|egrep '^\$'|egrep -v '^\$\?'|wc -l 6969
    • cat gt-pl.20121213_0*|egrep '^\$\?'|wc -l 139
  • ap
    • cat fad_nobsme_candidates_ap-pl.20121130_0*|grep '^\$'|wc -l 17308
Pipe Kandidatar Til ordbok Pros
gt 28066 7108 25,32%
ap 47836 17308 36,18%
Totalt 75902 24416 32,17%

Alle som er merka med $? (139 par) skal flyttes i en egen fil for en ny gjennomgang.

TILTAK

  1. Konvertere $? til eiga xml-fil (Cip)
  2. Konvertere $ til xml (Cip)

Framover

done-filene

TILTAK

  • Tiltaksliste (hald 00_readme.txt oppdatert):

sme:

  1. Sjekk alle 285 sme som ikkje blir analysert av usmeNorm
  2. Sjekke lemma-varianter (c="1", c="2") i nob-c_sme-c-fila, slette uriktig variant og beholde riktig variant. (151)
  3. Sjekke at POS for sme og nob stemmer overens
  4. Lage lister over sme-lemma som skal leksikaliseres
  5. Sjå på heilheita

nob:

  1. Ordne opp i nob-lemma: Bøygde former for grunnformer (58?)
  2. Liste over nob-lemma som skal leksikaliseres (3239?)
  3. Sjå på heilheita

sme og nob:

  1. done_fad_nobsme.20121130_nob-c_sme-c.xml TODO, lemma og POS må sjekkes
  2. done_fad_nobsme.20121130_nob-s_sme-s.xml TODO, lemma og POS må sjekkes
  3. done_fad_nobsme.20121130_nob-s_sme-c.xml TODO, sjekket mot usmeNorm, POS ok
  4. done_l-1_t-0.xml TODO, lemma og POS må sjekkes
  5. done_l-0_t-1.xml TODO, lemma og POS må sjekkes
  6. done_l-0_t-0.xml TODO, lemma og POS må sjekkes
  7. Ny sjekk på norske lemma (Trond)

Deadline:

  1. done-filene 8.4.

Neste møte

Mandag 8.4. kl. 13.00.