Meeting_2015-03-10
T&S-møte 10.3.
Saker:
- Abbr
- Diskusjonen førre veka med Ciprian og Lene
- prosjekt framover - status og oversikt
Abbr
Støtte for alle språk no - men funkar ikkje (funkar berre for sme).
Det burde vera nok med (for xerox-basert abbr-generering):
./configure make
Funkar berre for sme, hfst funkar for sma, ingenting for smj. Ei
abbr.txt blir lagt i tools/preprocess/abbr.txt.
Trond har same problem som Sjur (testa med Hfst, ikkje Xerox).
Alternativ til abbr og preprocess
Vi vil over til fst-basert tokenisering og analyse. Det er no mogleg, men må
echo "text | hfst-proc2 --xerox \ tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv | l
Resultat med ulike opsjonar:
Direkte til CG-format (inneheld + og er dermed feil):
echo "don" | hfst-proc2 --cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst "<don>" "dohte" Pron Dem Sg Ill Attr "dohte" Pron Dem Sg Gen
Xerox-analyseformat:
echo "datne leah dr. Bergsland." \ | hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst \ | cg-conv \ | vislcg3 -g src/syntax/disambiguation.cg3 "<datne>" "datne" Pron Pers Sg2 Nom "<leah>" "lea" V Ind Prs Sg2 @+FMAINV "<dr.>" "dr" N ABBR Attr "<Bergsland>" "Bergsland" N Prop Sem/Plc Sg Nom "<.>" "." CLB
Diskusjonspunkt (neste veke?):
- handteringa av samansette ord (lemmaform)
- handteringa av avleiinga (stjerne vs underlesingar)
Arbeidet med fst-basert tokenisering
Arbeidet må ordnast stegvis, og testast for kvart steg:
Steg 1)
cat tekst | preprocess --abbr=tools/preprocess/abbr.txt cat tekst | hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | grep -v '^$'
Steg 2)
hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst analyser-disamb-gt-desc.*fst
Steg 3)
Dette blir eit arbeidspunkt:
cg-conv lookup2cg
Steg 4)
Det kan henda at nokre endringar i andre komponentar krev endringar i
Gullkorpus for sme ligg i test/ (spør Lene)
Møte neste veke om arbeidspunkta: tysdag kl 9.30 (forslag, sjekk med andre).
Diskusjonen førre veka med Ciprian og Lene
- ciprian har ikkje (nok) tid til ny infra
- trond gjorde ting utan å sjekka alle konsekvensar -> jobben vart halvgjort
Vi analyserte dei noverande skripta, Trond deltek i diskusjonen pr e-post.
prosjekt framover - status og oversikt
Vi kjem attende til denne saka.