170918

Møte om sørsamisk kmd-prosjekt: 18.9.2017

Til stades: Risten Birje, Kevin Trond

Saker

  • Bakgrunn
  • Status
  • Framover

Bakgrunn

Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide.

Sist hadde vi filer i desse mappene:

words/dictsnobsma/inc/candidates

Input til filene var:

  • Snitt av ulike ordbøker
  • oppdeling av nob-samansetjingar og generering av sma-samansetjingar
  • synonymi-hopping
  • og så ein metode til

og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar

koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar:

Dette står òg godt forklart i 00_readme.txt i inc/candidates.

Målet er å få nye oppslag i nobsma.

Mappene under inc/ er:

  • candidates, done1, done2, done3

Under inc ligg også N_missing_nowac.freq som inneheld 5017 vanlege substantiv frå NOWAC-korpuset for norsk som ikkje finst i nobsma, med sme omsetjing RB har arbeidd ein del med denne, og omsett 82 ord

Status

Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor) er allereie gjort. Done-mappene 1, 2, 3 inneheld 6225 oppslag. Oppslaga i done er allereie lagt inn i src/*.xml (flott!).

Det som står att no er 2661 nob-ord i candidates. RB har sett gjennom listene i {candidates}, og satt + på gode

Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta, men vi bør vurdere om det er vits i å køyre ei 5. køyring)

Candidates-filene inneheld 2661 nob-ord. Her er alle filene, med oversyn over kommentaren til kvar av dei (første linja i fila, der første linje er tom er det ingen kommentar):

tf4-hsl-m0024:candidates trond$ head -1 ?_*
==> A_intersection_multis <==


==> A_intersection_singles <==
+ på gode

==> A_rest <==
+ på gode - ferdig

==> A_syn_ana_00_multis <==
+ på gode

==> A_syn_ana_00_singles <==
+ på gode

==> N_decomplow_ana_00_multis_nob <==


==> N_intersection_multis <==


==> N_intersection_singles <==
+ på gode

==> N_precomplow_ana_00_multis_nob <==
+ på gode

==> N_precomplow_ana_00_singles_nob <==
+ på gode

==> N_rest <==


==> N_syn_ana_00_multis <==


==> N_syn_ana_00_singles <==


==> V_intersection_multis <==


==> V_intersection_singles <==
+ på gode

==> V_rest <==
+ på gode

==> V_syn_multis <==


==> V_syn_singles <==
+ på gode

Her er oversyn over alle filene:

  • A_intersection_multis
  • A_intersection_singles
  • A_rest
  • A_syn_ana_00_multis
  • A_syn_ana_00_singles
  • N_decomplow_ana_00_multis_nob
  • N_intersection_multis
  • N_intersection_singles
  • N_precomplow_ana_00_multis_nob
  • N_precomplow_ana_00_singles_nob
  • N_rest
  • N_syn_ana_00_multis
  • N_syn_ana_00_singles
  • V_intersection_multis
  • V_intersection_singles
  • V_rest
  • V_syn_multis
  • V_syn_singles

13 av dei har +-merker, og er i det minste delvis gått gjennom:

  34 N_precomplow_ana_00_multis_nob
  27 A_intersection_singles
  16 V_intersection_singles
  16 N_precomplow_ana_00_singles_nob
  15 N_intersection_singles
  14 N_syn_ana_00_multis
  11 N_rest
   6 V_syn_multis
   6 A_syn_ana_00_multis
   5 V_rest
   5 A_syn_ana_00_singles
   4 A_rest
   1 V_syn_singles

Metode

Jf. 00_readme.txt. Døme ledig:

A_intersection_multis:ledig        tovme        bargguheapme/guorosnaga/guorus/rabas        60        2        132        0
A_intersection_multis:ledig        latjkes        bargguheapme/guorosnaga/guorus/rabas        60        19        132        0
A_intersection_multis:ledig        gåaroes        bargguheapme/guorosnaga        60        102        17        0
A_syn_ana_00_singles:+arbeidsledig        barkehts        bargguheapme        11        102        33        0

Sjølv om det står bargguheapme i sme-kolonna for "ledig", er dette ikkje relevant. sme-kolonnen er berre til hjelp, og skal ikkje vere med i arbeidet framover. Målet er å få samsvar mellom nob- og sma-kolonna. Sjølv om vi ikkje hadde hatt arbeidsledig i ei anna fil ville det ha vore riktig å ignorere sme-kolonna.

Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig), men at vi har ein omsetjingskandidat, som det i beste fall er mogleg å seie "ja" til.

Framover

  1. RB går gjennom filene i candidates.
  2. Kevin legg resultatet til i nobsma etterpå
  3. Deretter tenkjer vi oss om
    1. Eitt naturleg neste steg er topp-200 i revidert nowac-missing:
      1. T/K oppdaterer dagens nowac-missing-liste
    2. Eit anna steg er andre korpussamlingar (og då tar vi nytt møte)