170918
Møte om sørsamisk kmd-prosjekt: 18.9.2017
Til stades: Risten Birje, Kevin Trond
Saker
- Bakgrunn
- Status
- Framover
Bakgrunn
Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide.
Sist hadde vi filer i desse mappene:
words/dictsnobsma/inc/candidates
Input til filene var:
- Snitt av ulike ordbøker
- oppdeling av nob-samansetjingar og generering av sma-samansetjingar
- synonymi-hopping
- og så ein metode til
og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar
koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar:
Dette står òg godt forklart i
Målet er å få nye oppslag i nobsma.
Mappene under inc/ er:
- candidates, done1, done2, done3
Under inc ligg også N_missing_nowac.freq
Status
Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor)
Det som står att no er 2661 nob-ord i candidates.
Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta,
Candidates-filene inneheld 2661 nob-ord. Her er alle filene,
tf4-hsl-m0024:candidates trond$ head -1 ?_* ==> A_intersection_multis <== ==> A_intersection_singles <== + på gode ==> A_rest <== + på gode - ferdig ==> A_syn_ana_00_multis <== + på gode ==> A_syn_ana_00_singles <== + på gode ==> N_decomplow_ana_00_multis_nob <== ==> N_intersection_multis <== ==> N_intersection_singles <== + på gode ==> N_precomplow_ana_00_multis_nob <== + på gode ==> N_precomplow_ana_00_singles_nob <== + på gode ==> N_rest <== ==> N_syn_ana_00_multis <== ==> N_syn_ana_00_singles <== ==> V_intersection_multis <== ==> V_intersection_singles <== + på gode ==> V_rest <== + på gode ==> V_syn_multis <== ==> V_syn_singles <== + på gode
Her er oversyn over alle filene:
- A_intersection_multis
- A_intersection_singles
- A_rest
- A_syn_ana_00_multis
- A_syn_ana_00_singles
- N_decomplow_ana_00_multis_nob
- N_intersection_multis
- N_intersection_singles
- N_precomplow_ana_00_multis_nob
- N_precomplow_ana_00_singles_nob
- N_rest
- N_syn_ana_00_multis
- N_syn_ana_00_singles
- V_intersection_multis
- V_intersection_singles
- V_rest
- V_syn_multis
- V_syn_singles
13 av dei har +-merker, og er i det minste delvis gått gjennom:
34 N_precomplow_ana_00_multis_nob 27 A_intersection_singles 16 V_intersection_singles 16 N_precomplow_ana_00_singles_nob 15 N_intersection_singles 14 N_syn_ana_00_multis 11 N_rest 6 V_syn_multis 6 A_syn_ana_00_multis 5 V_rest 5 A_syn_ana_00_singles 4 A_rest 1 V_syn_singles
Metode
Jf. 00_readme.txt. Døme ledig:
A_intersection_multis:ledig tovme bargguheapme/guorosnaga/guorus/rabas 60 2 132 0 A_intersection_multis:ledig latjkes bargguheapme/guorosnaga/guorus/rabas 60 19 132 0 A_intersection_multis:ledig gåaroes bargguheapme/guorosnaga 60 102 17 0 A_syn_ana_00_singles:+arbeidsledig barkehts bargguheapme 11 102 33 0
Sjølv om det står bargguheapme i sme-kolonna for "ledig", er dette ikkje relevant.
Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig),
Framover
- RB går gjennom filene i candidates.
- Kevin legg resultatet til i nobsma etterpå
- Deretter tenkjer vi oss om
- Eitt naturleg neste steg er topp-200 i revidert nowac-missing:
- T/K oppdaterer dagens nowac-missing-liste
- T/K oppdaterer dagens nowac-missing-liste
- Eit anna steg er andre korpussamlingar (og då tar vi nytt møte)
- Eitt naturleg neste steg er topp-200 i revidert nowac-missing: