150310

kmd-møte 10.3.15.

Kevin, Sandra, Trond.

Saker

  • Status
  • Framover

Status

sme2smj-lemmaX.fst er ferdig og produserer kandidatlister i nobsmjsme Vi har kandidatlister nob-smj-sme

  • decomp_ana 400
  • precomp_ana 4983
  • decomp_noana 169
  • precomp_noana 3063

Der:

  • decomp = match der du finn alle delane
    • sykkelstyre -> sykkel ok, styre ok -> sykkelstyre
  • precomp = match der du finn delane som delar av andre samansetjingar
    • ordboka har barnespråk→mánágiella og bruksrett→adnemriektá/ávkkimriektá, så får me forslag bruksspråk→ávkkitgiella/adnemgiella

No er det slik:

videreføre      joarkket        fievrridit      241     0       160     14
+videreføre      joarkket        joatkašuvvat    241     0       31      14
videreføre      joarkket        joatkit 241     0       448     14
=videreføre      joarkket

Det vil vere lettare med:

videreføre joarkket joatkit/fievrridit/joatkašuvvat 241 0 448 14

Men likevel:

innskrenkning   gártjedibme     gáržžádus       11      0       3       0
innskrenkning   gártjodus       gáržžádus       11      0       3       0

Her skal vi framleis ha:

bindeledd       Aktisasjvuohtaladás     oktavuođalađas  6       0       0       0
kontaktledd     Aktisasjvuohtaladás     oktavuođalađas  0       0       0       0

og ikkje slå saman til:

kontaktledd/bindeledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0

Dei som er noana er av to typar, den eine er der pga fleirordsuttrykk:

Euruhpárádde    Euruhpárádde    +? = ekte
Finnmárkku báhppa       Finnmárkku báhppa       +? = toords-uttrykk

Den siste typen kan vi fjerne, og analysere som separate ord. Ei anna sak er at desse fleirordsuttrykka sannsynlegvis ikkje er oppslagsord i seg sjølv ==> vi kan vente med dei.

Filforklaring:

  • decomp : : input is compound analysed, parts are translated with existing dictionaries and glued back together
  • precomp : : existing dictionaries are compound analysed to create a dictionary of compound-part-translations; then input is compound analysed, parts are translated using the decompounded dictionaries, and glued back together
  • anymalign : : from parallel word alignment (see para/anymalign)
  • xfst : : using =$GTHOME/words/dicts/smesmj/scripts/sme2smj-$PoS.fst=
  • lexc : : using =$GTHOME/words/dicts/smesmj/bin/smesmj.fst=

Markeringsmetode:

Utgangspunkt (korrekt er kirkeliv = girkkoiellem)

Kandidat i decomp:

kirkeliv girkkoielle girkoeallin

Resultat etter manuell gjennomgang: enten a eller b:

  • a. @kirkeliv girkkoielle girkoeallin
  • b. kirkeliv girkkoiellem girkoeallin

viss a, fjern første kirkeliv-instans, viss b, fjern alle kirkeliv-instansar, i resten av filene: - (viss ei linje er markert som dårleg, fjern *paret*; viss markert som bra, fjern alle forslag med det nob-ordet)

~$cat ../unhammer/freecorpus/evttohus/out/nobsmjsme/*_ana|grep kirkeliv
kirkeliv        girkkoielle        girkoeallin        33        0        17        5
kirkeliv        girkkoiellem        girkoeallin        33        0        17        13 
kirkeliv        girkkoiellem        girkoeallin        33        0        17        13
kirkeliv        girkkoiellet        girkoeallin        33        0        17        13
kirkeliv        girkkoielle        girkoeallin        33        0        17        5
kirkeliv        girkkohægga        girkoeallin        33        0        17        0
kirkeliv        girkkoviesso        girkoeallin        33        0        17        0
kirkeliv        girkkoviessom        girkoeallin        33        0        17        0
kirkeliv        girkkoviessot        girkoeallin        33        0        17        0
kirkeliv        girkkovájmmo        girkoeallin        33        0        17        0
kirkeliv        girkkoæládus        girkoeallin        33        0        17        0
kirkeliv        girkkoiellet        girkoeallin        33        0        17        13
kirkeliv        girkkoielle        girkoeallin        33        0        17        5

Framover

Kva:

@ foran former som ikkje er ok (måte: merk unntaka)
* foran former du skal sjå på seinare
+ for ok (viss det er ei fil kor det meste er ikke-ok)

Lage filer for manuell gjennomgang

Gå gjennom filene i denne rekkjefølgja:

  • decomp før precomp
  • eventuelt først ei fil med kandidatar som kom frå fleire metodar
  • bolkar på 1000 etter frekvens, baklengssortert inni kvar bolk?

Lagring, svn

Lagre filene her: main/words/dicts/nobsmj/inc

Skriv ei readme-fil der rekkjefølgja går fram

Anna mens eg har det i hovudet

Rettskrivingsendring ijja→iddja:

Skript dette (Sandra sender Kevin ei liste).

sma

Som for smj, men filtrere mot eksisterande.