Linguist Meeting2012-09-07
Lingvistmøte
Til stades: Inga, Maja, Sjur, Thomas
Saker:
- Rutinar kring ny infra
- Referansekorpus-
- twol-testing
- lemma-testing (no i sma, snart i smj)
Rutinar kring ny infra
Ideell arbeidsgang:
- rediger
- make check
- tilbake til 1 til alt er ok
- sjekk inn
Testdata skal vera direkte i koden (jf twolc-fila) - Sjur lagar tilsvarande rutinar for lexc.
Almenne rutinar
- bugzilla - Inga og Maja har default-andsvaret for kvart sitt språk, men kan senda andsvaret vidare om dei vil (med stutt grunngjeving).
Referansekorpus
Vi vil ha eit referansekorpus for kvart språk. Det skal brukast til å sjekka at at analysene held seg stabile trass i endringar i koden. Har vi eitt for nordsamisk? Ja, her: $GTBIG/gt/sme/corp/testkorpus.txt.
Innhald i ref-korpuset bør vera:
- heile setningar
- gjerne setnignar med feil
- ortografiske feil
- morfosyntaktiske feil
- syntakiske feil
- => mål: vi vil sikra oss at feila blir analyserte/ikkje analyserte på ein konsistent måte, slik at vi ikkje får tilfeldig/random/arbitrær variasjon i handteringa av feil
- ortografiske feil
- morfologi:
- alle bøyingsformer
- alle stammetypar
- mykje (produktiv) derivasjon
- mange ulike typar samansetjingar
- eksempelord finn de i: $GTHOME/gt/sme/testing/speller-testbed-sme.txt
- alle bøyingsformer
- syntaks:
- lange setningar
- topikaliserte setnignar
- innskotne leddsetningar
- andre uvanlege (men grammatiske!) ordstillingar
- lange setningar
- fonotaks: all variasjon i ...
- stadieveksling
- omlyd
- vokalreduksjon
- andre morfofonologiske prosessar
- stadieveksling
- kommentarar kan leggjast inn med # som fyrste teikn på lina. Kommentaren kjem først, på lina over setninga kommentaren gjeld. Det kan vera fleire liner med kommentarar etter kvarandre.
Mål med data i referansekorpuset: Vi vil ha størst mogleg variasjon og breidde i fonotaks, morfologi og syntaks, slik at vi testar alle delar av dei grammatiske modellane våre.
Data skal liggja her:
$GTHOME/newinfra/langs/$GTLANG/test/data/ref-korpus.txt
twol-testing
Det finst ferdige testpar i twol-filene:
!€# dåeried%>%^DISIMPem !€0 dåer0ed00em !$# dåeried%>%^DISIMPem !$0 dåeried00em
make check vil veldig snart testa desse para, og dermed heile tida gje oss tilbakemelding om alt er ok i twol-reglane.
lemma-testing
No i sma, snart i smj - i dag?
- lemma skal vera felles for alle variantar av stammen!
- når ein sorterer, varsku alle fyrst slik at alle kan sjekka inn eigne endringar!
LexC-kodingsstandard
Her er nokre kodingsideal for LexC-koden vår:
- éi lexc-oppføring pr leksem pr stamme
- færrast mogleg fortsettingsleksikon
- i bøyingsleksikona: skriv ut eksempel på korleis paradigmet skal sjå ut
- bruk mellomrom og innrykk i fleng for å gjera koden oversiktleg og lettlesen
- bruk kommentarar så mykje som mogleg for å klargjera kva som skjer i koden
- kommentarane skal skrivast med ein "nybyrjar i LexC" for auge - ein slik person skalu kunna lesa kommentarane og skjøna kva som skjer i koden.
Vi innfører "code reviews" - kodesjekk - av kvarandre, for å auka sjansane for å finna feil, og for å hjelpa kvarandre med å skriva ein meir vedlikehaldsvenleg kode.
Oppsummering
Vi definerer kva analysene skal vera fyrst, og jobbar oss fram til at vi får det.