Meeting_2012-03-06

"Måndagsmøte"

Saksliste:

  • endringane i transducer-kompileringa
  • Hunspell + tex-hyph til 1. april
  • korpus, tmx og FAD
  • hfst, cg og talesyntese
    • diskusjonen med Tino
    • hfst-proc - GSoC med Apertium?
    • lookup2cg
  • NB/Mo
  • Bugzilla
  • Samisk på smarttelefonar og interaktive lesebrett
  • Hash i lemma
  • prioriteringar framover

Endringane i transducer-kompileringa

Jf. svn-log r54783, r54785. Viktig: M4 er ute, og vi bruker fst-manipulering i staden. Save-fila byggjer på save-hyph. Grenser er synlege i twoltrans. Stavekontrollen (hunspell, plx) bruker også same transducer.

Som ein del av desse endringane har >7 vorte endra til [>] for å unngå at >70 blir analysert som >0. I tillegg er desse symbola no koda systematisk for både venstre og høgre side (slik at vi har morfologiske skiljeteikn for både prefigerande og suffigerande morfologi).

%<+PUNCT+LEFT:%[%<%]   # ;
%>+PUNCT+RIGHT:%[%>%]   # ;

Hunspell + tex-hyph til 1. april

M4-arbeidet vart gjort pga. fristen for å få hunspell ferdig til april. Sjur og Børre arbeider med hunspell.

plx: Kva med å halvere den plx-fila som blir generert med 1 verb, 1 substantiv, 1 adjektiv, 1 propernoun?

korpus, tmx og FAD

  • TMX (beta) er på nett
    • Børre og Berit Merete ser på typos
  • Ordparallellisering: Ciprian
  • Autshomato: Børre (og Sjur)

TILTAK

  • Skriv intern dokumentasjon for Autsh/OmegaT-testing (Børre, Sjur)
  • Framgang med typos og ordparallellisering til neste møte
  • Neste FAD-møte 12.3. kl. 14.30

hfst, cg og talesyntese

diskusjonen med Tino

lookup2cg

Sjur: Er avhengig av ein perl-fri pipeline for talesyntese (ferdig i 2012), og vil ikkje gå inn på eit prosjekt med å flikke på lookup2cg.

Trond: Viss vi kan få ein fst-basert postprosessor på beina snart kan dette vere ein veg å gå.

TILTAK

  • lage pre- og postprosessing som fst, for hfst (=hfst-proc + transducer-manip.)
    • xerox vil framleis trenga preprocess.pl
    • xerox-varianten vil innehalde ein nedstrippa perl-basert lookup2cg, men elles bruke fst for postprosessering frå LANG.fst.
  • Deadline: tidleg mai.

hfst-proc - GSoC med Apertium?

Francis vil ha hfst-proc som GSoC-prosjekt. Det er overlapp med prosjektet vårt, men det er viktige skilnader.

Input, default (vi går ut i frå at PrfPrc er korrekt lesing):

"<doapmalan>"
	 "doapmat" V PrfPrc
		"doapmat" Der/l
			"doapmat" V IV
	 "doapmat" V Actio Nom
		"doapmat" Der/l
			"doapmat" V IV

Forslag til nytt input-format (til CG) ("//" er ikkje endeleg symbol, berre eit eksempel):

"<doapmalan>"
	 "doapmat" V IV // Der/l // V PrfPrc
	 "doapmat" V IV // Der/l // V Actio Nom

Output (i begge tilfelle):

"<doapmalan>"
	 "doapmat" V PrfPrc
		"doapmat" Der/l
			"doapmat" V IV

TILTAK

  • diskuter med Lene (Trond)

NB/Mo

Børre skal ha møte med Johanne på fredag. Trond prata med Freddy, dei pratar på nytt når han har lese e-posten frå Trond.

Bugzilla

Trond og Sjur tar opp dei ulike bugane med respektive ansvarlege.

Samisk på smarttelefonar og interaktive lesebrett

Få samisk til å fungera på iPhone og andre smarttelefonar. Dette er viktig for FAD.

Dette er ei politisk sak (få Apple, og evt. Google, til å inkludere samisk). Men først må dei samiske løysingane bli utarbeidde.

Hash i lemma

I dag er dei for human eyes only. Vi diskuterer om vi vil ha det eller ikkje, i neste veke.

Prioriteringar framover

  1. Hunspell/orddelling (Avvir) 1.4.
  2. Bugzilla (jf. tidsfristene)
  3. Pre- og postprosessering
  4. FAD/korpus: 12.3. og 31.3.