Meeting_2014-03-18

T&S-møte

Saker

  • twolc-testing
  • korpus
  • KMD
  • smenob
  • numra
  • sme i ny infra
  • samest
  • hfst vs. xfst
  • Bugzilla

twolc-testing

- klar for å bli rulla ut (berre xerox, vil kreva at dei fleste par blir retta)

Pair-test i twolc-fila

! Positive testar:
!€# aerpie#eeke
!€0 aerpie-eeke

! Negative testar:
!$# aerpie#eeke
!$0 aerpie0eeke

Testing fungerer på ein annan måte i hfst, og krev testdata på eit anna format. Omskriving er ikkje trivielt. Hfst-formatet ser slik ut:

g:g æ:æ h:h t:t j:j a:e %>:%> %^COMPDISIMP:0 b:b e:e

Sjur ber hfst-gjengen om å leggja til støtte for Xerox-par i hfst-pair-test, og køyrer ut twolc-testinga for Xerox.

korpus

  • Børre har kontakta Avvir, nye xml-data kjem
  • stort sett ferdig med å retta feil i konverteringa
    • språkgjenkjenning? Enno ikkje bra nok, jf dev-korp - søk på lij, jih i sme

KMD

Ingen tildelingsbrev enno - Sjur har skrive til dei og spurt.

smenob

Jf. e-post frå fran. Dette må det arbeidast med.

numra m.fl.

Jf. e-post frå trond. Nokre språk er skrivne mai: 5, andre 5: mai. Alle språk må fylgja same logikk, og dei avvikande språka må skrivast om.

$ hfst-lookup -q sma/src/transcriptor-date2text-desc.hfst 
> 2.2.
2.2.	goevten_mubpie_biejjie	0.000000

> 2.3.
2.3.	njoktjen_mubpie_biejjie	0.000000

Å gjera:

  • sjekka/ endra Makefile.am med invert net for alle pråk for xfst
  • hfst fungerer sannsynlegvis som det skal (sjekk)
  • sjekka / skriva om lexc-koden for sme til same format som for dei andre

Vi bør også fikse http://giellatekno.uit.no/num.nno.html etc. Den bør bli integrert og få eitt språk.

sme i ny infra

I prioritert rekkjefylgje:

  1. +Err/Sub synleg i analysane
  2. dialektar

Jf. /lang/sme/KompilereFST.html - fst-spesifiseringane skal stemme med røyndomen (røyndomen må rettast).

SamEst

Trond kallar inn til møte.

hfst vs. xfst

Xfst/Xerox er eit problem, fordi dei ulike versjonane oppfører seg ulikt, og det gjer at ulike folk får ulike resultat med den same koden, og for nokre språk gjev Xerox og Hfst ulike svar.

Xfst-fordelar:

  • lett å installera - hent binærfiler
  • lett å testa twolc, xfst pga interne kommandoliner som kan brukast til utvikling og testing
  • Xerox er framleis/som oftast mykje raskare til å kompilera fst-ar

Svar:

  • be Krister og gjengen om å laga nedlastbare binærfiler for brukarane?
    • finst for Windows? Kan de laga for Mac?
    • er MacPorts eit mogleg alternativt svar? Ja
  • hfst-xfst har no ei kommandoline - svar 2.b
  • hfst-twolc har ikkje kommandoline for aka^WG osb.
    • echo test
hfst-lookup lang-hfst-twolc.bin

xerox er eit bra verkty der det fungerer godt. hfst kan bli brukt i produksjon etterpå. For hfst i utviklingsarbeidet må vi evt. klare oss utan eit program hfst-twolc.

Sjur diskuterer dette eksplisitt med Hfors på eit tidspunkt.

BZ

BZ Open bugs: 170 bugs found.

blo-cri and P1-P2.

ID SevPriAssignee Reporter Comp Summary
1756 blo P2 heli1401@gmail.com lene.antonsen@uit.no Konteaks Konteaksta er hacket
1670 blo P4 borre.gaup@uit.no thomas.omma@uit.no Suggesti illegal compounds
906 cri P2 tomi.k.pieski@uit.no trond.trosterud@uit.no Systemat eee strings
1344 cri P2 sjur.n.moshagen@uit.no lene.antonsen@uit.no Compilat regex-filer for kompilering av ifst til dict og oahpa
1566 cri P2 lene.antonsen@uit.no lene.antonsen@uit.no sme-oahp Sahka: eksempelsvar fungerer ikke
1754 cri P2 sjur.n.moshagen@uit.no lene.antonsen@uit.no Compilat Filtrering av Use/NG bare for MT og Oahpa
1780 cri P2 borre.gaup@uit.no lene.antonsen@uit.no xml conv smj og sma er definert som sme
1430 maj P1 borre.gaup@uit.no linda.wiechetek@uit.no Corpus a metainformation gets mixed up with actual text
915 maj P2 tomi.k.pieski@uit.no thomas.omma@uit.no Systemat PlGen as first part and hyphenation:
1024 maj P2 tomi.k.pieski@uit.no lene.antonsen@uit.no Text cor ocr-feil og språkmerkingsfeil i sma
1296 maj P2 borre.gaup@uit.no trond.trosterud@uit.no Stem lex uløste problemer med abbr
1538 maj P2 trond.trosterud@uit.no sjur.n.moshagen@uit.no sme-oahp Number, clock and date fst's are not properly documentet, no new infra version
1687 maj P2 maja.l.kappfjell@uit.no lene.antonsen@uit.no Continua Navn fra smi-propernouns.lexc lar seg ikke analysere/generere
1709 maj P2 trond.trosterud@uit.no lene.antonsen@uit.no sma morp Hætta blir til Hæ9tta
1712 maj P2 ciprian.gerstenberger@uit.no lene.antonsen@uit.no CGI (Int endring av pipe-line for sme (cgi)
1755 maj P2 maja.l.kappfjell@uit.no lene.antonsen@uit.no Stem lex Lemmaer forsvunnet fra sma-leksikon
1794 maj P2 trond.trosterud@uit.no lene.antonsen@uit.no NDS sme: Miniparadigme for substantiver mangler
1831 maj P2 ryan.txanson@gmail.com lene.antonsen@uit.no NDS sánit: Problemer med lokaliseringa: det dukker engelsk opp