150310
Contents:
kmd-møte 10.3.15.
Kevin, Sandra, Trond.
Saker
- Status
- Framover
Status
sme2smj-lemmaX.fst er ferdig og produserer kandidatlister i nobsmjsme
- decomp_ana 400
- precomp_ana 4983
- decomp_noana 169
- precomp_noana 3063
Der:
- decomp = match der du finn alle delane
- sykkelstyre -> sykkel ok, styre ok -> sykkelstyre
- sykkelstyre -> sykkel ok, styre ok -> sykkelstyre
- precomp = match der du finn delane som delar av andre samansetjingar
- ordboka har barnespråk→mánágiella og bruksrett→adnemriektá/ávkkimriektá, så får me forslag bruksspråk→ávkkitgiella/adnemgiella
No er det slik:
videreføre joarkket fievrridit 241 0 160 14 +videreføre joarkket joatkašuvvat 241 0 31 14 videreføre joarkket joatkit 241 0 448 14 =videreføre joarkket
Det vil vere lettare med:
videreføre joarkket joatkit/fievrridit/joatkašuvvat 241 0 448 14
Men likevel:
innskrenkning gártjedibme gáržžádus 11 0 3 0 innskrenkning gártjodus gáržžádus 11 0 3 0
Her skal vi framleis ha:
bindeledd Aktisasjvuohtaladás oktavuođalađas 6 0 0 0 kontaktledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0
og ikkje slå saman til:
kontaktledd/bindeledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0
Dei som er noana er av to typar, den eine er der pga fleirordsuttrykk:
Euruhpárádde Euruhpárádde +? = ekte Finnmárkku báhppa Finnmárkku báhppa +? = toords-uttrykk
Den siste typen kan vi fjerne, og analysere som separate ord. Ei anna sak er at desse fleirordsuttrykka sannsynlegvis ikkje er oppslagsord i seg sjølv ==> vi kan vente med dei.
Filforklaring:
- decomp : : input is compound analysed, parts are translated with
- precomp : : existing dictionaries are compound analysed to create a
- anymalign : : from parallel word alignment (see para/anymalign)
- xfst : : using =$GTHOME/words/dicts/smesmj/scripts/sme2smj-$PoS.fst=
- lexc : : using =$GTHOME/words/dicts/smesmj/bin/smesmj.fst=
Markeringsmetode:
Utgangspunkt (korrekt er kirkeliv = girkkoiellem)
Kandidat i decomp:
kirkeliv girkkoielle girkoeallin
Resultat etter manuell gjennomgang: enten a eller b:
- a. @kirkeliv girkkoielle girkoeallin
- b. kirkeliv girkkoiellem girkoeallin
viss a, fjern første kirkeliv-instans, viss b, fjern alle kirkeliv-instansar, i resten av filene:
~$cat ../unhammer/freecorpus/evttohus/out/nobsmjsme/*_ana|grep kirkeliv kirkeliv girkkoielle girkoeallin 33 0 17 5 kirkeliv girkkoiellem girkoeallin 33 0 17 13 kirkeliv girkkoiellem girkoeallin 33 0 17 13 kirkeliv girkkoiellet girkoeallin 33 0 17 13 kirkeliv girkkoielle girkoeallin 33 0 17 5 kirkeliv girkkohægga girkoeallin 33 0 17 0 kirkeliv girkkoviesso girkoeallin 33 0 17 0 kirkeliv girkkoviessom girkoeallin 33 0 17 0 kirkeliv girkkoviessot girkoeallin 33 0 17 0 kirkeliv girkkovájmmo girkoeallin 33 0 17 0 kirkeliv girkkoæládus girkoeallin 33 0 17 0 kirkeliv girkkoiellet girkoeallin 33 0 17 13 kirkeliv girkkoielle girkoeallin 33 0 17 5
Framover
Kva:
@ foran former som ikkje er ok (måte: merk unntaka) * foran former du skal sjå på seinare + for ok (viss det er ei fil kor det meste er ikke-ok)
Lage filer for manuell gjennomgang
Gå gjennom filene i denne rekkjefølgja:
- decomp før precomp
- eventuelt først ei fil med kandidatar som kom frå fleire metodar
- bolkar på 1000 etter frekvens, baklengssortert inni kvar bolk?
Lagring, svn
Lagre filene her: main/words/dicts/nobsmj/inc
Skriv ei readme-fil der rekkjefølgja går fram
Anna mens eg har det i hovudet
Rettskrivingsendring ijja→iddja:
Skript dette (Sandra sender Kevin ei liste).
sma
Som for smj, men filtrere mot eksisterande.