Meeting_2018-10-01
Sjur- og Trondmøte 1.10.2018
Saksliste
- preprosessering, segmentering
- Irrelevante aggar i disam-analysatorane
- Bugzilla
preprosessering, segmentering
Vi arbeider med hfst-pipeline, ser på diskusjonen og Bz.
Linda ser på dette i dagane som kjem.
Vi vil ta hfst-proc i bruk i cgi-bin og i smedis (Trond)
- abbr -- sjur driv med omorg av sme
- sma -- her har sjur laga nytt mønster slik vi vil ha det.
Arbeidet med LIA og Korp held fram (Ciprian, innspel frå alle).
Tentativ klassifisering av setningsgrenseidentifisering:
Abbr-transitivitet:
- transitiv = må vere same setning
- intransitiv = kan vere same setning, men må ikkje
Tentativ rettesnor:
Korrekt tekst:
- Foran namn med stor bokstav: Transitiviteten avgjer
- Foran anna ord med stor bokstav: Alltid setningsgrense
- Foran liten bokstav: Aldri setningsgrense
- Foran (arabiske) tal: Transitiviteten avgjer
Grammatikkontroll:
- Foran liten bokstav: Transitiviteten avgjer
- Foran stor bokstav: Transitiviteten avgjer???
- Foran namn med stor bokstav: Transitiviteten avgjer
- Foran arabiske tal: Transitiviteten avgjer
Irrelevante taggar i disamb-analysatorane
Lene har fjerna irrelevante taggar for samiske språk, Trond ser på andre språk.
Bugzilla
Buggar opna i september
Sev Pri Assign Reportr Comp Summary Comment&Action 2517 cri P2 Jack Lene Morpholo xfst sms does not compile: doesn't find ProperNoun-smi- - easy, should be done imm -> P1 2516 enh P5 Børre Lene Corpus a smn analysen inneholder <smn> tagger - Trond + Sjur ser på dette 2513 enh P5 Sjur Lene Continua V+Ex/IV+Der/PassS+V+ - major, requires time -> P3 2512 maj P2 Thomas Lene Continua Analyse for dynamiske sammensetninger bokstav + tall - ikkje berre Thomas, alle må sjå på dette --> møte 2511 enh P5 Sjur Lene Analysis tegn som ikke blir gjenkjent som missing - private use, irrelevant 2510 enh P5 Lene Lene Tags Ha acronymer som er propernouns i smi-propernouns - krev diskusjon -> møte 2509 maj P2 Børre Lene Corpus a HFST-korpusanalysen klarer ikke URLer - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst 2508 nor P5 Ciprian Sjur lookup2c lookup2cg forvrenger sma-lemma - er det noko å prioritera? Sjå på det, evt WONTFIX? 2507 nor P5 Sjur Sjur Analysis Handteringa av tvetydig setningsinndeling og abbr - jobbar med saka 2506 nor P4 Thomas Lene Continua Skrivefeil som blir godtatt som Px-substantiver - ventar på at Thomas blir frisk
Ny prioritering? Sjå merknader over, i merknadsfeltet til høgre.