140516p
Møte 16.05.14
Til stades: Heli, Lene, Trond.
Saker:
- Konteaksta
- Firefox-plugin for Konteaksta
- Neste møte
Konteaksta
Heli har gjort sedan sist:
- testade skuvla.info, jag har skrivit om detta i bugzilla
- alltså: jag måste göra någonting med tidsfaktorn - skuvla.info fungerar inte på finite verb därför att där har jag även implementerat facitgenerering, så det är väldigt många anrop till FST-ar som tar mycket tid. tidsfaktorn är viktigt oavsett, så jag tror det är nästa sak som jag ska jobba med, innan jag börjar implementera nya uppgiftstyper osv.
- nya uppgiftstyper - där har jag också börjat, men det är inte färdig / online
- Russisk Konteaksta (demo med Substantive Singular) uppe på gtlab.uit.no: 8080/WERTirus
Lene har gjort:
- Prøvd å ta kontakt med Kjellaug, ikke fått svar
- Funnet egnete tekster på internett, og lagt inn urler i dokumentasjonen
- Sett på oppgavetyper, gjort forbedringer
- Testa, funnet ting som ikke fungerer helt:
Ting som ikke fungerer helt:
- Problemer med skuvla.info. Test med kort fil: http: //skuvla.info/skolehist/uskav2-s.htm fungerer med konjunksjoner => det må være tidsfaktoren som er problemet
- sammensetningssymbol # kommer til syne i lemma (se img lihttosadjai)
- Das vuolde leat muhtin _ _ _ (artihkal#sávaldat):
- Das vuolde leat muhtin _ _ _ (artihkal#sávaldat):
- Konteaksta genererer ikke nok oppgaver. Dvs på sider med få negasjoner, så generer den likevel ikke alle. Dette er et problem for konstruksjoner som ikke er frekvente i internettekstene => Ändra i koden så att om det är fler än 10 på sidan, då ta inte alla men annars ta med alla.
- Oppgaven infinitte verb: her kommer ikke Actio+Ess med (img infinitte) - grunnen er TV vs IV, Lene har nå forbedra tagdefinisjoner i fila
- Oppgaven substativer flertall: her kommer N+Ess med (img flertall) - Lene har nå fjerna Ess fra SubstantivePlural/activity.xml
- Fornying av functions.cg3: view-seksjonen skal kommenteres inn =>
- Oppgavene substantiver entall: her kommer ikke alle med (img davgi): http: //www.samimuseum.fi/maahisweb/sapmi/sa_poikajastaalo.html. Grunnen er at ordet gir flere analyser. => Om det finns ambiguous morf analys då ta med ord, om det finns en analys som passar in i mönster.
- http: //giellatekno.uit.no/ped/maintenance.html. På denne siden er det ting om Oahpa-databasen som ikke er med i den nye dokumentasjonen til Oahpa.
Problem med preprocess
I hvilken fil kan jeg sjekke hvilke tagger som er definert for hver oppgave?
Problemer med gtlab-serveren?
Data for tidsbruk, gtlab, gtoahpa, lokalt:
langs/smn smn gtlab: make clean && time make real 0m39.689s <=== user 0m33.633s sys 0m1.096s smn gtoahpa: make clean && time make real 0m3.630s <=== user 0m2.357s sys 0m0.295s smn Trond si maskin: make clean && time make real 0m27.906s user 0m26.349s sys 0m1.044s time echo boahtit | usme analyse gtlab home/trond/main/langs real 0m0.444s user 0m0.399s sys 0m0.029s time echo boahtit | lookup /opt/smi/sme/bin/sme.fst analyse gtlab /opt/smi/sme real 0m0.679s user 0m0.462s sys 0m0.158s
Tiltaksliste:
-
Trond tar kontakt med it-folkene på UiT om å få raskere prosessor på gtlab
-
Heli prioriterer optimaliseringa av spørringa
-
Heli fikser problemet med at sammensetningssymbol # kommer til syne i lemma
-
Heli lager html-fil for hver oppgave
-
Heli dokumenter preprosesseringa i Konteaksta, slik at vi kan repetere den
-
Heli forbedrer dokumentasjonen for Konteaksta: http: //giellatekno.uit.no/ped/common/KonteakstaTechnicalDocumentation.html
-
Heli endrer i koden så att om det är fler än 10 på sidan, då ta inte alla men annars ta med alla.
-
Heli endrer koden slik at om det finns ambiguous morf analys då ta med ord, om det finns en analys som passar in i mönster.
-
Lene tar en gjennomgang av tagger i activity-filene
-
Lene legger til anbefalte sider for oppgavetyper
-
Trond legger inn mangler i dokumetasjonen for Oahpa: http: //giellatekno.uit.no/ped/common/OahpaTechnicalDocumentation.html
-
Trond diskuterer med Sjur om automatisering av functions-konteaksta.cg3 -fila.
- Alle undersøker skilnaden mellom preprosessering
Firefox-plugin for Konteaksta
Neste møte.
Vedlegg om preprosessering:
smedis "Dávggi vuolan" ... pos disambiguating ... "<Dávggi>" "dávgi" Sem/DummyTag N <sme> Sg Acc "<vuolan>" "vuollat" V <sme> TV Ind Prs Sg1 @+FMAINV tf-hsl-m0016:~ ttr000$ smesyn "Dávggi vuolan" ... syntax analysis ... "<Dávggi>" "dávgi" N Sg Acc @OBJ> "<vuolan>" "vuollat" V TV Ind Prs Sg1 @+FMAINV echo "Dávggi vuolan" | preprocess | usme | lookup2cg | vislcg3 -g /opt/smi/sme/bin/sme-dis.rle | vislcg3 -g /opt/smi/sme/bin/functions.cg3 "<Dávggi>" "dávgi" N Sg Acc @OBJ> "<vuolan>" "vuollat" V TV Ind Prs Sg1 @+FMAINV -rw-r--r-- 1 root root 117207 mai 9 21:11 /opt/smi/sme/bin/functions.cg3 -rw-r--r-- 1 root root 680374 mai 16 03:39 /opt/smi/sme/bin/sme-dis.rle Oppdatert: -rw-r--r-- 1 root root 117606 mai 16 16:29 /opt/smi/sme/bin/functions.cg3 "<Dávggi>" "Dávgi" N Prop Sem/Obj Sg Acc @OBJ> "dávgi" N Sg Acc @OBJ> Text analysis pipeline: bin/cat /home/teaksta/output/cg3input1400250489628.tmp | /usr/local/bin/lookup -flags mbTT -utf8 /opt/smi/sme/bin/sme.fst | /home/heli/main/gt/script/lookup2cg | /usr/local/bin/vislcg3 -g /opt/smi/sme/bin/sme-dis.rle | /usr/local/bin/vislcg3 -g /opt/smi/sme/bin/functions.cg3 ~>echo "Dávggi vuolan" | tr ' ' '\n' | lookup -flags mbTT /opt/smi/sme/bin/sme.fst | lookup2cg | vislcg3 -g /opt/smi/sme/bin/sme-dis.rle | vislcg3 -g /opt/smi/sme/bin/functions.cg3 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 100% "<Dávggi>" "dávgi" N Sg Acc @OBJ> "<vuolan>" "vuollat" V TV Ind Prs Sg1 @+FMAINV ~>usme Dávgi Dávgi Dávgi+N+Prop+Sem/Obj+Sg+Nom Dávgi dávgi+Sem/DummyTag+N+Sg+Nom echo 'Gánda: "Dávggi vuolan."' | preprocess | lookup -flags mbTT /opt/smi/sme/bin/sme.fst | lookup2cg | vislcg3 -g /opt/smi/sme/bin/sme-dis.rle | vislcg3 -g /opt/smi/sme/bin/functions.cg3 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 100% "<Gánda>" "gánda" N Sg Nom @HNOUN "<:>" ":" CLB "<">" """ PUNCT "<Dávggi>" "Dávgi" N Prop Sem/Obj Sg Acc @OBJ> "dávgi" N Sg Acc @OBJ> "<vuolan>" "vuollat" V TV Ind Prs Sg1 @+FMAINV "<.>" "." CLB "<">" """ PUNCT echo 'Gánda: "Dávggi vuolan."' | preprocess Gánda : " Dávggi vuolan . " activities$ echo 'Gánda: "Dávggi vuolan."' | preprocess Gánda : " Dávggi vuolan . " Lene lokalt: activities$ smesyn 'Gánda: "Dávggi vuolan."' ... syntax analysis ... "<Gánda>" "gánda" N Sg Nom @HNOUN "<:>" ":" CLB "<Dávggi>" "dávgi" N Sg Acc @OBJ> "<vuolan>" "vuollat" V TV Ind Prs Sg1 @+FMAINV "<.>" "." CLB