Meeting_2011-06-27

Trond

  • korpusstrukteren (kva er kor, generell info (Lene sitt utgangspunkt))
  • konverteringsrutinene ("korleis konverteringa skal fungere")
  • praktisk konvertering av freecorpus (har vi twig og perl på plass?)
  • feilmeldingane i tmp/
  • bruk av dei filspesifikke .xsl-filene ("korleis føre inn rettingar")
  • å legge til nye filer / bruke convert2xml.pl til konvertering av nye filer
  • gullstandardfilene, korleis dei går inn i heilskapen, korleis dei er merka, konvertert

Lene

brukere av korpuset. dvs.

  • struktur,
  • varianter av ccat-kommandoen,
  • hva gjør vi hvis vi finner feil,
  • om:
    • xsl-filene,
    • gullkorpuset,
    • det analyserte korpuset på divvun-serveren,
  • regler for bruk av bound...

Trond2

brukarperspektivet gjeld (bør gjelde) for oss alle:

  • korleis vi ser på korpuset (ccat)
  • korleis vi legg inn rettingar i .xsl-filene

Eit av problema med korpuset er jo at både brukarane og konverterarane i for liten grad har sett på resultatet.

Forslag

Brukarperspektiv:

  • struktur (vic, lokalt, xserve + free, bound - alt er svn)
    • orig
    • converted
    • stable
    • goldstandard
  • ccat og andre måtar å bruka korpuset på
  • om konverteringsprosessen
    • fyrste steg (til førebels xml (= xhtml, docbook, m.m.)
    • andre steg (til rå korpusxml - hovudkonverteringa)
    • tredje steg (til nesten ferdig korpusxml - xsl-fil)
    • fjerde steg (finpuss - språkattkjenning, feilmerkingskonvertering)
  • feilretting:
    • utanfor goldstandard
    • i goldstandard
    • etter feiltype:
      • skrivefeil
      • strukturfeil
      • feil språk
      • andre konverteringsfeil
  • xsl-filene:
    • kva, kor
    • korleis dei blir brukte
  • bruksreglar for bound

Konverteringsperspektiv:

  • leggja til nye filer
  • konvertera filer
  • feilmeldingane in tmp/
  • omkonvertera allereie konverterte dokument:
    • sjekka regresjonar + progresjonar
    • sjekka inn nykonverteringa
  • korleis testa konverteringa:
    • sjå på før- og eter-teksten
    • analysera alle ord
    • sjekka alle setningar - at dei er setningar (og blir avslutta med .?! osb.)

Feilbehandling

Automatisk generert feilskriving i news

bilde: Leif titt: Čiekčamat mtitt: Ii tekst: Álgočiekčamat ingress: Mannan byline: Johan BILDETEKST: Dá ÐMun ÐGalanihtoguovllus DagÈ ÒVassdalenisÓ oahpponeavvo-ráhkadeapmaiÓ

filer hvor de nordsamiske bokstavene er forsvunnet: Reportáaid Dieuid osv

Vi har ei felles common.xsl som blir brukt for alle konverteringar. Her er det mogleg å leggje inn ei retting av typen "bilde: LÁIDEJIT".

Sametinget har enno ikkje (?) fått i stand ein klausul for språkteknologisk forsking for tekst produsert med støtte av Sametinget.

Samarbeidsavtalen mellom fylkeskommunane og Sametinget bør inkludera overlevering av samiske dokument (og norske parallellfiler) til den samiske korpussamlinga.

Wordcount bør være med i metadata.

metadata mangler i xml-filene: /apache_corpus/boundcorpus/orig/sme/news/Avvir_xml-filer/Avvir_2010_xml-filer (sjekka f.eks. year, ingen av filene inneholder ordet).