181003
Giellateknomøte 3. oktober 2018
Tilstede: Trond, Chiara, Ciprian, Lene
Saksliste
- ELAN
- Korp (Uleåborg)
- Korp (Stockholm)
- Samarbeid med HU Berlin (epost - cip)
- NDS
- sent-proc.sh
- hfst-tokenize
ELAN
Cip har arbeidd mykje: Køyrd siste POS-analyse, tatt omsyn til det som kom fram i Kautokeino
To buggar:
- hfst-kolon-saka: Når det blir delt eit token utan mellomrom
- +Foc/Pos-ge blir analysert som compound etter de , og etter substantiv, men som suffiks etter propernoun.
Resultaten av bug (2) er at det er uleseleg output frå elan. Lene ser på bug (2), Ciprian på bug (1).
Strengar til debugging: Sjå nederst i dette dokumentet
Når dette er i orden har vi rett og slett ein fungerande analyse. Ciprian sender deretter eit analysert elan-korpus til Oslo (med forklaringar), seinast på fredag. Forklaringa går inn på derivasjon, samansetjing, og interaksjonen mellom dei to.
Korp (Uleåborg)
Lene har laga ei liste over ting å sjå på (Bz), det er saker til Sjur, Børre, Trond, oss alle. Deretter skal vi køyre på nytt.
Tagger
Tiltak: Lene legger inn filtrene for å fjerne disse taggene, inntil videre.
fkv
sms
Tiltak:
- Trond, Sjur ser på dette (Jaska også)
- Legge til filter for sms (Lene, etterpå)
Ex/-saka
smn, sma, sme, smj
Oppdatering av functions.cg3 via korp.cg3
4) Jeg viser til BZ 2516. Hvis det er slik som jeg antyder i den siste buggmeldinga, så berører dette den syntaktiske analysen for alle språkene våre, dvs at oppdateringer og rettinger fra 2018 ikke er med. Så dette må vi se på før kjøring av ny analyse. Jeg ber spesielt Sjur kommentere denne BZ, fordi jeg har begrenset med kunnskap om oppsettet på Stallo, og jeg er ikke i stand til å gjøre rettinger i skriptet så lenge det ikke er snakk om å bytte en analysator, men det er det ikke snakk om her.
Dyn
lemmaforvrenging i lookup2cg
echo Aarborten-almetjh | hfst-lookup -q src/analyser-gt-desc.hfstol | cut -f1,2 | lookup2cg|vislcg3 -g src/syntax/disambiguator.cg3 "<Aarborten-almetjh>" "Aarborten-#almetje" N <sma> Pl Nom
Oversyn over Bz-meldingane
(Denne lista + kommentarane er kopiert frå Sjur&Trond-møtet 1.10.)
Sev Pri Assign Reportr Comp Summary Comment&Action 2517 cri P2 Jack Lene Morpholo xfst sms does not compile: doesn't find ProperNoun-smi- - easy, should be done imm -> P1 2516 enh P5 Børre Lene Corpus a smn analysen inneholder <smn> tagger - Trond + Sjur ser på dette 2513 enh P5 Sjur Lene Continua V+Ex/IV+Der/PassS+V+ - major, requires time -> P3 2512 maj P2 Thomas Lene Continua Analyse for dynamiske sammensetninger bokstav + tall - ikkje berre Thomas, alle må sjå på dette --> møte 2511 enh P5 Sjur Lene Analysis tegn som ikke blir gjenkjent som missing - private use, irrelevant 2510 enh P5 Lene Lene Tags Ha acronymer som er propernouns i smi-propernouns - krev diskusjon -> møte 2509 maj P2 Børre Lene Corpus a HFST-korpusanalysen klarer ikke URLer - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst 2508 nor P5 Ciprian Sjur lookup2c lookup2cg forvrenger sma-lemma - er det noko å prioritera? Sjå på det, evt WONTFIX? 2507 nor P5 Sjur Sjur Analysis Handteringa av tvetydig setningsinndeling og abbr - jobbar med saka 2506 nor P4 Thomas Lene Continua Skrivefeil som blir godtatt som Px-substantiver - ventar på at Thomas blir frisk
Vår korp-workshop i Uleåborg
- Få deltakarliste frå Jussi (Trond)
- Sende brev til deltakarane og spørje om interesse
- Vurdere ulike dokumentasjonseksempel (Stockholm)
skilnad mellom korp og korp_2018
- Gammal korp-backend køyrde utan å restarte (nds må restarte)
- For ny korp-backend må vi restarte
Tiltak, tidsplan
Tiltak
- Korpusprosessering:
- korp_2018: Chiara og Ciprian restartar + dokumenterer i Don't Panic.
Tidsplan for ny køyring av innhald til Korp
- Andre enn sms: i slutten av denne veka
- sms: Når vi har fiksa buggane (Børre kan for så vidt køyre sms også)
Korp (Stockholm)
Denne saka gjeld Korp-seminaret i Stockholm
Ciprians presentasjon
- Presentasjon:
- Kor mange korpora, kor store, kor mykje analyse
- log-data
- integrering ordbøker - korp - log frå Korp eller frå NDS
- Kor mange korpora, kor store, kor mykje analyse
- popup-presentasjon av morfosyntaktisk analyse
Våre ønsker:
- parallellkorpus som default-modus for visse Korp-instansar
- lyd i Korp (legge LIA Sápmi), deretter multimodalitet
- sortering av treff, f.eks. sortering i forhold til korpusdel, ficti før admin osv
- Betre (meir relevant) CQP-dokumentasjon (vi skriv dokumentasjon sjølv, kanskje utkast til Uleåborg)
- Se på muligheter for brukereksempler osv i grensesnittet
- Lene har laga en video (sjå på den før Uleåborg)
- Olli har laget dokumentasjon på finsk, se på den
- Göteborg har ei side med øvingar i Korp-bruk
- Spørsmål til Göteborg: Har dei erfaringar med dokumentasjon?
- Se på muligheter for brukereksempler osv i grensesnittet
- Bug: søk med N1-N2 antall ord mellom to ord (Viktig)
- Word alignment: Er det meir å seie om dette?
- Ordbild, implementering av lemgram
- korleis skal ordbild implementerast i mysql (frekvens frå korpus)
- enten: liste over formene i kvart paradigme (test/data/testparadigm), sette inn i mysql, som dei gjer i Helsingfors
- eller: implementere karp og hente ordbild frå karp (spurv med kanonar?)
- korleis skal ordbild implementerast i mysql (frekvens frå korpus)
Tiltak
- Ciprian lagar presentasjon, vi kommenterer
Samarbeid med HU Berlin (epost - cip)
Vi svarer henne positivt til søknad og ser kva som skjer.
NDS
Ingen ting akkurat no.
spansk
- Trond har sett på fst med Sjur. Vi har no integrert tyrkisk, skal integrere spansk.
- Paradigmegenering for verb: Dette er stort, og vi må sjå på det. Som ein første versjon kan vi kopiere person-numerus frå sme.
Tiltak:
- fst: Trond snakkar med Sjur
- Overføre frå excel til xml: Ciprian (evt. Chiara/Trond) ser på det etter Stockholm
- Så kjem resten etter kvart.
sent-proc.sh
Bør endres til riktig HFST-pipeline og XFST-pipeline. Sjå oppdatert sent-proc.sh.
hfst-tokenize
Vi må sikre at hfst-tokenize er godt dokumentert på ein stad.
hfst-tokenize --help er ikkje nok:
- lista over options er ikkje fullstendig
- output frå ulike options er ikkje dokumentert
Tiltak:
- Få klarheit, og skrive dokumentasjon på våre sider
- få full liste inn i --help, og evt. dokumentasjon inn på kitwiki.
Output til debugging
"<dege>" "ge" Pcle <W:0.0000000000> "<ge>" <sme> "de" Adv <W:0.0000000000> "<de>" echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "<dege>" "ge" Pcle <W:0.0000000000> "<ge>" @PCLE "de" Adv <W:0.0000000000> "<de>" :\n "<dege>" "ge" Pcle <W:0.0000000000> "<ge>" <sme> "de" Adv <W:0.0000000000> "<de>" :\n tf-hsl-m0016:sme ttr000$ echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "<dege>" "ge" Pcle <W:0.0000000000> "<ge>" @PCLE "de" Adv <W:0.0000000000> "<de>" :\n tf-hsl-m0016:sme ttr000$ echo biilage |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "<biilage>" "ge" Pcle <W:0.0000000000> "<ge>" @PCLE "biila" N Sem/Veh Sg Nom <W:0.0000000000> "<biila>" tf-hsl-m0016:sme ttr000$ echo Trondge |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "<Trondge>" "Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> @HNOUN :\n echo dege| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 "<de>" "de" Adv <W:0.0000000000> <sme> "<ge>" "ge" Pcle <W:0.0000000000> <sme> :\n echo biilage| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 "<biilage>" "biila" N Sem/Veh Sg Nom Foc/Pos-ge <W:0.0000000000> <sme> :\n echo Trondge| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 "<Trondge>" "Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> <sme> "Trond" N Prop Sem/Mal Sg Gen Foc/Pos-ge <W:0.0000000000> <sme> :\n