130318
FAD-møte 18.3.2013
Saksliste
- Status quo, done-filene og pipeline-filene
- Framover
Status quo, done-filene og pipeline-filene
pipeline-filene
er ferdige, merka med $ og i nokre tilfelle med $?
- gt
- cat gt-pl.20121213_0*|wc -l 28066
- cat gt-pl.20121213_0*|egrep '^\$'|wc -l 7108
- cat gt-pl.20121213_0*|egrep '^\$'|egrep -v '^\$\?'|wc -l 6969
- cat gt-pl.20121213_0*|egrep '^\$\?'|wc -l 139
- cat gt-pl.20121213_0*|wc -l 28066
- ap
- cat fad_nobsme_candidates_ap-pl.20121130_0*|grep '^\$'|wc -l 17308
Pipe | Kandidatar | Til ordbok | Pros |
---|---|---|---|
gt | 28066 | 7108 | 25,32% |
ap | 47836 | 17308 | 36,18% |
Totalt | 75902 | 24416 | 32,17% |
Alle som er merka med $? (139 par) skal flyttes i en egen fil for en ny gjennomgang.
TILTAK
- Konvertere $? til eiga xml-fil (Cip)
- Konvertere $ til xml (Cip)
Framover
done-filene
TILTAK
- Tiltaksliste (hald 00_readme.txt oppdatert):
sme:
- Sjekk alle 285 sme som ikkje blir analysert av usmeNorm
- Sjekke lemma-varianter (c="1", c="2") i nob-c_sme-c-fila, slette uriktig variant og beholde riktig variant. (151)
- Sjekke at POS for sme og nob stemmer overens
- Lage lister over sme-lemma som skal leksikaliseres
- Sjå på heilheita
nob:
- Ordne opp i nob-lemma: Bøygde former for grunnformer (58?)
- Liste over nob-lemma som skal leksikaliseres (3239?)
- Sjå på heilheita
sme og nob:
- done_fad_nobsme.20121130_nob-c_sme-c.xml TODO, lemma og POS må sjekkes
- done_fad_nobsme.20121130_nob-s_sme-s.xml TODO, lemma og POS må sjekkes
- done_fad_nobsme.20121130_nob-s_sme-c.xml TODO, sjekket mot usmeNorm, POS ok
- done_l-1_t-0.xml TODO, lemma og POS må sjekkes
- done_l-0_t-1.xml TODO, lemma og POS må sjekkes
- done_l-0_t-0.xml TODO, lemma og POS må sjekkes
- Ny sjekk på norske lemma (Trond)
Deadline:
- done-filene 8.4.
Neste møte
Mandag 8.4. kl. 13.00.