Meeting_2018-10-01

Sjur- og Trondmøte 1.10.2018

Saksliste

  • preprosessering, segmentering
  • Irrelevante aggar i disam-analysatorane
  • Bugzilla

preprosessering, segmentering

Vi arbeider med hfst-pipeline, ser på diskusjonen og Bz.

Linda ser på dette i dagane som kjem. Vi ser alle på gullkorpus

Vi vil ta hfst-proc i bruk i cgi-bin og i smedis (Trond)

  • abbr -- sjur driv med omorg av sme
  • sma -- her har sjur laga nytt mønster slik vi vil ha det.

Arbeidet med LIA og Korp held fram (Ciprian, innspel frå alle).

Tentativ klassifisering av setningsgrenseidentifisering:

Abbr-transitivitet:

  • transitiv = må vere same setning
  • intransitiv = kan vere same setning, men må ikkje

Tentativ rettesnor:

Korrekt tekst:

  • Foran namn med stor bokstav: Transitiviteten avgjer
  • Foran anna ord med stor bokstav: Alltid setningsgrense
  • Foran liten bokstav: Aldri setningsgrense
  • Foran (arabiske) tal: Transitiviteten avgjer

Grammatikkontroll:

  • Foran liten bokstav: Transitiviteten avgjer
  • Foran stor bokstav: Transitiviteten avgjer???
  • Foran namn med stor bokstav: Transitiviteten avgjer
  • Foran arabiske tal: Transitiviteten avgjer

Irrelevante taggar i disamb-analysatorane

Lene har fjerna irrelevante taggar for samiske språk, Trond ser på andre språk.

Bugzilla

Buggar opna i september

      Sev  Pri Assign  Reportr Comp      Summary                                                  Comment&Action
2517  cri  P2  Jack    Lene    Morpholo  xfst sms does not compile: doesn't find ProperNoun-smi-  - easy, should be done imm -> P1
2516  enh  P5  Børre   Lene    Corpus a  smn analysen inneholder <smn> tagger                     - Trond + Sjur ser på dette
2513  enh  P5  Sjur    Lene    Continua  V+Ex/IV+Der/PassS+V+                                     - major, requires time -> P3
2512  maj  P2  Thomas  Lene    Continua  Analyse for dynamiske sammensetninger bokstav + tall     - ikkje berre Thomas, alle må sjå på dette --> møte
2511  enh  P5  Sjur    Lene    Analysis  tegn som ikke blir gjenkjent som missing                 - private use, irrelevant
2510  enh  P5  Lene    Lene    Tags      Ha acronymer som er propernouns i smi-propernouns        - krev diskusjon -> møte
2509  maj  P2  Børre   Lene    Corpus a  HFST-korpusanalysen klarer ikke URLer                    - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst
2508  nor  P5  Ciprian Sjur    lookup2c  lookup2cg forvrenger sma-lemma                           - er det noko å prioritera? Sjå på det, evt WONTFIX?
2507  nor  P5  Sjur    Sjur    Analysis  Handteringa av tvetydig setningsinndeling og abbr        - jobbar med saka
2506  nor  P4  Thomas  Lene    Continua  Skrivefeil som blir godtatt som Px-substantiver          - ventar på at Thomas blir frisk

Ny prioritering? Sjå merknader over, i merknadsfeltet til høgre.