170531
sme-nob MT møte 31.5.17
Tilstede: Kevin, Trond, Lene
Saker:
- Kompilering og størrelse av sme-nob.t1x.bin
- Sámi dieđalaš áigečála som pdf
- caseprep : vi har to systemer
- om hvordan vi skal løse riktig valg av pro.
- ends-with og starts-with i test i regler t1x-fila
- t4x må kunna handtera alle kombinasjonar
- fungerer --trace på mac no? Ja.
- bidix-sanity for nob
- Fleirordsuttrykk, nob i bidix
- Kronikk i Nordlys
Kompilering og størrelse av sme-nob.t1x.bin
apertium-sme-nob$ which apertium-preprocess-transfer /usr/local/bin/apertium-preprocess-transfer apertium-sme-nob$ ls -lah $(which apertium-preprocess-transfer) -rwxr-xr-x 1 root wheel 50K 18 mai 06:26 /usr/local/bin/apertium-preprocess-transfer
-rwxr-xr-x 1 root admin 19480 May 26 15: 24 /usr/local/bin/apertium-preprocess-transfer
TILTAK::
- Kevin har spørt Tino om korfor nightly har gammal preprocess-transfer, så oppdaterer me igjen seinare.
Sámi dieđalaš áigečála som pdf
TILTAK::
- Kevin tar kontakt med Børre om dette.
caseprep :vi har to systemer
t1x: caseprep på substantiv-chunks og på verb-chunks, ingen interaksjon mellom verb/substantiv her
"caseprep-verb"
Viss verbet kjem etterpå treng vi caseprep i t2x, vi kan vise til chunking som vi har tilgang til i t2x.
I andre tilfelle løyser vi det i t1x.
om hvordan vi skal løse riktig valg av pro
Alle setningene under her får sin pro i denne regelen i tx3: <rule comment="REGLA: adv-FV.neg IV - out: pro 2 1
I denne regelen er ikke hovedverbet med i vurdering av hvilken pro som skal inn, og det er hovedverbet som har taggingen "pers" "impers" (vi trenger også en ekstra tagging av verb som alltid skal ha 'det', som værverb)
echo Ii lean arván. | apertium -d. sme-nob Det hadde ikke regnet. <== værverb, bør ha en egen "detpers" tagg H_n hadde ikke regnet. echo Ii arván. | apertium -d. sme-nob Det regnet ikke. Ii lean borran. | apertium -d. sme-nob Det hadde ikke spist. <== hovedverbet er "pers", vi ønsker 'h_n' echo Ii lean guhton. | apertium -d. sme-nob Det hadde ikke beitet. <== hovedverbet er "impers", vi ønsker 'den'
Endring /tillegg til taggen som i bidix i dag er "impers". Vi endrar taggen til:
pers-pro (verb som får han/hun som subjekt) agreem-pro (verb som får den/det) incongr-pro = inkongruent = (verb som alltid får "det", dvs. værverb, jf. liste i t1x)
TILTAK:
- Lene legger til tagger i bidix
Kan vi løse problemet med riktig valg av pro nær finittverb, basert på hovudverb langt vekke, på annen måte enn å lage regler i t3x for alle varianter av slike setninger? Setningstypene er mange:
- Ii borran.
- Ii dalle borran.
- Ii lean olles beaivvi borran.
Hovedverbet kommer lenger ut i setninga så variabel vil ikke fungere, må matcha heile chunken.
TILTAK:
- Vi lager flere regler i t3x
For vêrverb må me anten laga ny bidix-tagg (detpers?) eller ta i bruk def-list weather-verbs i t1x.
echo Ii guhton. | apertium -d. sme-nob Det beitet ikke. <== den echo Ii arván. | apertium -d. sme-nob Det regnet ikke. <== det : er det fleire enn vêrverb som burde ha «det» som standard?
Der me må disambiguera mellom h_n og den, kan me gi tvetydig tagging av verbet, både impers og pers:
<e><p><l>šaddat<s n="vblex"/><s n="iv"/></l><r>bli<s n="vblex"/><s n="pers"/></r></p><par n="__verb"/></e> <e><p><l>šaddat<s n="vblex"/><s n="iv"/></l><r>bli<s n="vblex"/><s n="impers"/></r></p><par n="__verb"/></e>
og så la lex-fila velja rett tagg:
SELECT:fallback ("bli"i) + (impers) (0 ("<šaddat>"i)) ;
ends-with og starts-with i test i regler t1x-fila
<list-item v="jente"/> <list-item v=".*jente"/> <== ikkje slik Men slik: <ends-with caseless="yes"><clip pos="2" side="tl" part="lemh"/><lit v="jente"/></ends-with> <!ELEMENT ends-with (%value;,%value;)> $ grep -e -with /usr/local/share/apertium/transfer.dtd <!ENTITY % condition "(and|or|not|equal|begins-with|begins-with-list|ends-with|ends-with-list|contains-substring|in)"> <!ELEMENT begins-with (%value;,%value;)> <!ATTLIST begins-with caseless (no|yes) #IMPLIED> <!ELEMENT ends-with (%value;,%value;)> <!ATTLIST ends-with caseless (no|yes) #IMPLIED> <!ELEMENT begins-with-list (%value;,list)> <!ATTLIST begins-with-list caseless (no|yes) #IMPLIED> <!ELEMENT ends-with-list (%value;,list)> <!ATTLIST ends-with-list caseless (no|yes) #IMPLIED>
Tests if the left part contains the right part at the beginning. Both parts of the test may both be a clip (see below), a literal string ('lit'), a literal tag ('lit-tag') or the value of a variable ('var') defined in the def-vars section. When the attribute 'caseless' is set to 'yes', the comparison is made without attending to the case. --> <!ELEMENT ends-with (%value;,%value;)> <!ATTLIST ends-with caseless (no|yes) #IMPLIED> <!-- Tests if the left part contains the right part at the end. Both parts of the test may both be a clip (see below), a literal string ('lit'), a literal tag ('lit-tag') or the value of a variable ('var') defined in the def-vars section. When the attribute 'caseless' is set to 'yes', the comparison is made without attending to the case. --> <!ELEMENT begins-with-list (%value;,list)> <!ATTLIST begins-with-list caseless (no|yes) #IMPLIED>
t4x må kunna handtera alle kombinasjonar
<rule comment="CHUNK: pre_pre_pre_pre_nom">
finst ikkje for koordinasjonar – kan me få så lange chunks i koordinasjonar no?
Viss t1x kan laga pre_pre_pre_pre_nom, så kan t2x laga
* pre_pre_pre_pre_nom_conj_pre_pre_pre_pre_nom * pre_pre_pre_pre_nom_conj_pre_pre_pre_nom * pre_pre_pre_pre_nom_conj_pre_pre_nom * pre_pre_pre_pre_nom_conj_pre_nom * pre_pre_pre_pre_nom_conj_nom * pre_pre_pre_nom_conj_pre_pre_pre_pre_nom * pre_pre_nom_conj_pre_pre_pre_pre_nom * pre_nom_conj_pre_pre_pre_pre_nom * nom_conj_pre_pre_pre_pre_nom
Kor lange rekkjer kan t1x lage? Opprinneleg: 3 x pre + nom. No er det meir.
TILTAK:
- Lene ser på det.
fungerer --trace på mac no? Ja.
https://sourceforge.net/p/apertium/tickets/97/ er lukka
Det fungerer:
tf4-hsl-m0024:apertium-sme-nob trond$ e Mun boakkun|apertium -d. sme-nob-interchunk1 apertium-interchunk: Rule 39 Prn<SN><p1><mf><sg><nom>{^jeg<prn><pers><p1><mf><sg><nom>$} apertium-interchunk: Rule 35 verb<SV><indic><pres><p1><sg><pers><NC>{^gå<vblex><pres>$} apertium-interchunk: Rule 43 sent<SENT>{^.<sent><clb>$} ^Prn<SN><p1><mf><sg><nom>{^jeg<prn><pers><p1><mf><sg><nom>$}$ ^verb<SV><indic><pres><p1><sg><pers><NC>{^gå<vblex><pres>$}$^lemq<lemq>{^# hjulbeint$}$^sent<SENT>{^.<sent><clb>$}$
bidix-sanity for nob
https://svn.code.sf.net/p/apertium/svn/nursery/apertium-sme-smn/dev/bidix-sanity.sh
% Bissogealdinoaivi<np>:Soabbegealdinoaivi<np>:^Soabbegealdinoaivi/*Soabbegealdinoaivi$ % Buolláneatnanlássáš<np>:Puállâmeennâmláássáš<np>:^Puállâmeennâmláássáš/*Puállâmeennâmláássáš$ % reaisu<n>:reeisu<n>:^reeisu/reissu<n><sg><acc>/reissu<n><sg><gen>$ (==> vi hadde forventa <n><sg><nom>) % oasálaš<n>:kuáskulâš<n>:^kuáskulâš/kuáskulâš<adj><attr>/kuáskulâš<adj><sg><nom>$
viss L1 har blabla så skal L2 ha det same viss L1 <n><sg><nom> så skal L2 ha <n><GENUS><sg><indef> <e r="RL" lm="hva" c="sme-nob"><i>hva</i><par n="neste__det"/></e>
TILTAK:
- Kevin lagar sanity basert på sme-smn i sme-nob
Fleirordsuttrykk, nob i bidix
frå -r78846 http://sprunge.us/HXPM
Strategiar:
- sju år gammel hannrein → legg inn som «sjuårsrein»
- liten gubbe → legg inn som «gubbe»
- ved bålet → legg inn som «ved bålet», heilt grei
- daglig leder → dette er innarbeida på norsk, så legg inn på same måte som
pardef "bærbar/_datamaskin__n"
<e><p><l>nulpu<s n="n"/></l><r>rein<g><b/>uten<b/>horn</g><s n="n"/><s n="m"/></r></p></e> <e><p><l>boaggut<s n="vblex"/><s n="tv"/></l><r>gå<g><b/>hjulbeint</g><s n="vblex"/><s n="pers"/></r></p><par n="__verb"/></e>
Strategiar:
- første del bøyast -- fungerer med <g/> og <b/> (alt i <g/> må vera ubøyeleg, sjekk at transfer alltid bruker lemh/lemq rett, ikkje berre lem)
- andre del bøyast -- >mann<b/><g>med<b/>hund<
- begge delar bøyast
echo Mus lea nulpu. | apertium -d. sme-nob Jeg har #rein. jj e Mun boakkun|apertium -d. sme-nob #Jeg går## hjulbeint e Mun boakkun|apertium -d. -u sme-nob Jeg går# hjulbeint = jorgal.uit.no echo nulpu lea doppe. | apertium -d. sme-nob #rein er der borte.
TILTAK:
- Trond ser på dem
Kronikk i Nordlys
TILTAK: