181003

Giellateknomøte 3. oktober 2018

Tilstede: Trond, Chiara, Ciprian, Lene

Saksliste

  • ELAN
  • Korp (Uleåborg)
  • Korp (Stockholm)
  • Samarbeid med HU Berlin (epost - cip)
  • NDS
  • sent-proc.sh
  • hfst-tokenize

ELAN

Cip har arbeidd mykje: Køyrd siste POS-analyse, tatt omsyn til det som kom fram i Kautokeino

To buggar:

  1. hfst-kolon-saka: Når det blir delt eit token utan mellomrom
  2. +Foc/Pos-ge blir analysert som compound etter de , og etter substantiv, men som suffiks etter propernoun.

Resultaten av bug (2) er at det er uleseleg output frå elan. Lene ser på bug (2), Ciprian på bug (1).

Strengar til debugging: Sjå nederst i dette dokumentet

Når dette er i orden har vi rett og slett ein fungerande analyse. Ciprian sender deretter eit analysert elan-korpus til Oslo (med forklaringar), seinast på fredag. Forklaringa går inn på derivasjon, samansetjing, og interaksjonen mellom dei to.

Korp (Uleåborg)

Lene har laga ei liste over ting å sjå på (Bz), det er saker til Sjur, Børre, Trond, oss alle. Deretter skal vi køyre på nytt.

Tagger

1) Det er en del tagger som ikke bør være med (Dial, Area), bl.a. lager de i noen tilfeller mange lesninger som ikke blir disambiguert. Lene kan legge inn de filtrene som fjerner dem for disamb-analysatoren, og så kan man reversere dette seinere, hvis man vil.

Tiltak: Lene legger inn filtrene for å fjerne disse taggene, inntil videre.

fkv

må testes (Trond)

sms

sms er ikke boks, må lages regler i src/Makefile.am, men den kompilerer ikke, se BZ 2517. Trond får den til å kompilere, men det tar mange timar. Problem: smi-propernouns

Tiltak:

  • Trond, Sjur ser på dette (Jaska også)
  • Legge til filter for sms (Lene, etterpå)

Ex/-saka

3) Se BZ 2513 om manglende Ex/V for smj og sma. Denne bør løses før kjøring til Korp, fordi smj og sma har et annet mønster enn sme, det blir to PoS tagger i samme streng (selv om begge er V i dette tilfellet)

smn, sma, sme, smj

Desse ser grei ut.

Oppdatering av functions.cg3 via korp.cg3

4) Jeg viser til BZ 2516. Hvis det er slik som jeg antyder i den siste buggmeldinga, så berører dette den syntaktiske analysen for alle språkene våre, dvs at oppdateringer og rettinger fra 2018 ikke er med. Så dette må vi se på før kjøring av ny analyse. Jeg ber spesielt Sjur kommentere denne BZ, fordi jeg har begrenset med kunnskap om oppsettet på Stallo, og jeg er ikke i stand til å gjøre rettinger i skriptet så lenge det ikke er snakk om å bytte en analysator, men det er det ikke snakk om her.

Dyn

5) Jeg viser til BZ 2512 om +Dyn taggen. Slik som den er nå, så ødelegger den analysen. Skal dette løses i arbeidet med språkfelles numeral og abbr filer?

lemmaforvrenging i lookup2cg

8) BZ 2508 gjelder XSFT, men den gale analysen er ikke med i grep-korpus etter disambiguering,, og gjelder dermed ikke analysen for Korp denne gangen.

echo Aarborten-almetjh | hfst-lookup -q src/analyser-gt-desc.hfstol | cut -f1,2 | lookup2cg|vislcg3 -g src/syntax/disambiguator.cg3 
"<Aarborten-almetjh>"
	"Aarborten-#almetje" N <sma> Pl Nom

Oversyn over Bz-meldingane

(Denne lista + kommentarane er kopiert frå Sjur&Trond-møtet 1.10.)

      Sev  Pri Assign  Reportr Comp      Summary                                                  Comment&Action
2517  cri  P2  Jack    Lene    Morpholo  xfst sms does not compile: doesn't find ProperNoun-smi-  - easy, should be done imm -> P1
2516  enh  P5  Børre   Lene    Corpus a  smn analysen inneholder <smn> tagger                     - Trond + Sjur ser på dette
2513  enh  P5  Sjur    Lene    Continua  V+Ex/IV+Der/PassS+V+                                     - major, requires time -> P3
2512  maj  P2  Thomas  Lene    Continua  Analyse for dynamiske sammensetninger bokstav + tall     - ikkje berre Thomas, alle må sjå på dette --> møte
2511  enh  P5  Sjur    Lene    Analysis  tegn som ikke blir gjenkjent som missing                 - private use, irrelevant
2510  enh  P5  Lene    Lene    Tags      Ha acronymer som er propernouns i smi-propernouns        - krev diskusjon -> møte
2509  maj  P2  Børre   Lene    Corpus a  HFST-korpusanalysen klarer ikke URLer                    - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst
2508  nor  P5  Ciprian Sjur    lookup2c  lookup2cg forvrenger sma-lemma                           - er det noko å prioritera? Sjå på det, evt WONTFIX?
2507  nor  P5  Sjur    Sjur    Analysis  Handteringa av tvetydig setningsinndeling og abbr        - jobbar med saka
2506  nor  P4  Thomas  Lene    Continua  Skrivefeil som blir godtatt som Px-substantiver          - ventar på at Thomas blir frisk

Vår korp-workshop i Uleåborg

  • Få deltakarliste frå Jussi (Trond)
  • Sende brev til deltakarane og spørje om interesse
  • Vurdere ulike dokumentasjonseksempel (Stockholm)

skilnad mellom korp og korp_2018

  • Gammal korp-backend køyrde utan å restarte (nds må restarte)
  • For ny korp-backend må vi restarte

Tiltak, tidsplan

Tiltak

  • Korpusprosessering: Cipran skriv til Sjur og Børre om tilstanden på desse punkta, vi vil ha ein ny analyse. Vi andre ser også på lista ovafor. Det viktige her er å ha mest mogleg på plass så fort som mogleg, for å halde fram arbeidet med debugging.
  • korp_2018: Chiara og Ciprian restartar + dokumenterer i Don't Panic.

Tidsplan for ny køyring av innhald til Korp

  • Andre enn sms: i slutten av denne veka
  • sms: Når vi har fiksa buggane (Børre kan for så vidt køyre sms også)

Korp (Stockholm)

Denne saka gjeld Korp-seminaret i Stockholm

Ciprians presentasjon

  • Presentasjon:
    • Kor mange korpora, kor store, kor mykje analyse
    • log-data
    • integrering ordbøker - korp - log frå Korp eller frå NDS
  • popup-presentasjon av morfosyntaktisk analyse

Våre ønsker:

  • parallellkorpus som default-modus for visse Korp-instansar
  • lyd i Korp (legge LIA Sápmi), deretter multimodalitet
  • sortering av treff, f.eks. sortering i forhold til korpusdel, ficti før admin osv
  • Betre (meir relevant) CQP-dokumentasjon (vi skriv dokumentasjon sjølv, kanskje utkast til Uleåborg)
    • Se på muligheter for brukereksempler osv i grensesnittet
    • Lene har laga en video (sjå på den før Uleåborg)
    • Olli har laget dokumentasjon på finsk, se på den
    • Göteborg har ei side med øvingar i Korp-bruk
    • Spørsmål til Göteborg: Har dei erfaringar med dokumentasjon?
  • Bug: søk med N1-N2 antall ord mellom to ord (Viktig)
  • Word alignment: Er det meir å seie om dette?
  • Ordbild, implementering av lemgram
    • korleis skal ordbild implementerast i mysql (frekvens frå korpus)
    • enten: liste over formene i kvart paradigme (test/data/testparadigm), sette inn i mysql, som dei gjer i Helsingfors
    • eller: implementere karp og hente ordbild frå karp (spurv med kanonar?)

Tiltak

  • Ciprian lagar presentasjon, vi kommenterer

Samarbeid med HU Berlin (epost - cip)

Vi svarer henne positivt til søknad og ser kva som skjer.

NDS

Ingen ting akkurat no.

spansk

  • Trond har sett på fst med Sjur. Vi har no integrert tyrkisk, skal integrere spansk.
  • Paradigmegenering for verb: Dette er stort, og vi må sjå på det. Som ein første versjon kan vi kopiere person-numerus frå sme.

Tiltak:

  • fst: Trond snakkar med Sjur
  • Overføre frå excel til xml: Ciprian (evt. Chiara/Trond) ser på det etter Stockholm
  • Så kjem resten etter kvart.

sent-proc.sh

Skriptet har no HFST i XFST-pipeline, og det gir dårlig output.

Bør endres til riktig HFST-pipeline og XFST-pipeline. Sjå oppdatert sent-proc.sh. Ciprian ser på dette.

hfst-tokenize

Vi må sikre at hfst-tokenize er godt dokumentert på ein stad.

hfst-tokenize --help er ikkje nok:

  • lista over options er ikkje fullstendig
  • output frå ulike options er ikkje dokumentert

Tiltak:

  • Få klarheit, og skrive dokumentasjon på våre sider
  • få full liste inn i --help, og evt. dokumentasjon inn på kitwiki.

Output til debugging

"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" <sme>
		"de" Adv <W:0.0000000000> "<de>"

echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3 
"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
		"de" Adv <W:0.0000000000> "<de>"
:\n

"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" <sme>
		"de" Adv <W:0.0000000000> "<de>"
:\n


tf-hsl-m0016:sme ttr000$ echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3 
"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
		"de" Adv <W:0.0000000000> "<de>"
:\n

tf-hsl-m0016:sme ttr000$ echo biilage |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3 
"<biilage>"
	"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
		"biila" N Sem/Veh Sg Nom <W:0.0000000000> "<biila>"
		
tf-hsl-m0016:sme ttr000$ echo Trondge |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3 
"<Trondge>"
	"Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> @HNOUN
:\n


echo dege| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 
"<de>"
	"de" Adv <W:0.0000000000> <sme>
"<ge>"
	"ge" Pcle <W:0.0000000000> <sme>
:\n

echo biilage| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 
"<biilage>"
	"biila" N Sem/Veh Sg Nom Foc/Pos-ge <W:0.0000000000> <sme>
:\n

echo Trondge| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 
"<Trondge>"
	"Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> <sme>
	"Trond" N Prop Sem/Mal Sg Gen Foc/Pos-ge <W:0.0000000000> <sme>
:\n