121031
FAD-Møte 31.10.2012
Til stades: Ciprian, Marja, Trond, Berit Merete
Dette var eit internt gt-møte for å klargjere status quo på korridoren.
Saker:
- Status quo 
- Forslag til bedring av pick-parallel: 
- Oslo-Bergen-tagger 
- Ukjente ord
Status quo
Forslag til bedring av pick-parallel:
- overføringsratio 73-110, skal dette økes? Nei, men den bør forbedres, se nedenfor  
- legge inn i metafilen: info om antall ord (word count) også i wrong ratio 
Dette er gjort:
New Revision: 64705 Modified: trunk/gt/script/langTools/Converter.pm Log: Insert wordcount
Oslo-Bergen-tagger
- må forbedredes: bindestrekene har Ciprian tatt bort, må meldes til Oslo-Bergen
Tiltak
- Sjekke skilnaden mellom nob_morf-prestat.cg3 og  nob_morf.cg3 (Cip) 
- Køyre sum-cg.pl på output, evt. samanlikne med onlineversjon (Trond) 
- Melde frå til Oslo + diskutere (Trond)
Vi har brukt nob_morf-prestat.cg3. Bør vi bruke nob_morf.cg3?
cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf-prestat.cg3 > data.tagged.shitty.nob
cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf.cg3 > data.tagged.shitty.nob    
Hva skal gjøres med store filer med minimale feil i setningsparallelliseringen?  
I disse store pdf-dokumentene (over 60 sider) er det løpende tekst som blir 
Dette kan rette på følgende måter:
- gullkorpus med gullstandard (ekte gull), filen må merkes at - forskjellige typer gullkorpus i forskjellig format i  - informasjon om forandringene må dokumenteres
Det vi kan lage her er skygge-originalar: Delar av dokumentet som i dag er 
Alle aktuelt++ og aigeguovdil++ fra regjeringen.no er ikke parallelle  
Ukjente ord
Spørsmål: Er det ingen spelrelax for allcapitalized strings?
original input string: BEARRÁIGEAHČČANLÁVDEGOTTI BEARRÁIGEAHČČANLÁVDEGOTTI +? echo "bearráigeahččanlávdegotti" | lookup -q -flags mbTT $GTHOME/gt/sme/bin/sme.fst bearráigeahččanlávdegotti bearráigeahččanlávdegoddi+Org+N+Sg+Gen bearráigeahččanlávdegotti bearráigeahččanlávdegoddi+Org+N+Sg+Acc
Svar: Jo det finst, men:
Svaret på det ligg i allcaps.regex. Dette scriptet er ikkje i bruk, fordi 
Mange symboler i unknown lista skal filteres bort, det samme skal  
Word count skal bare være nummer og ord, ikke slash og slike ting.
~ $ usme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% márjá márjá márjá +? oslo oslo oslo +? Márjá Márjá Márjá+N+Prop+Fem+Sg+Attr Márjá Márjá+N+Prop+Fem+Sg+Nom Oslo Oslo Oslo+N+Prop+Plc+Sg+Nom Oslo Oslo+N+Prop+Plc+Sg+Gen Oslo Oslo+N+Prop+Plc+Sg+Acc deatnu deatnu deatnu+Plc+N+Sg+Nom deatnu deatnut+V+TV+Ind+Prs+Sg3 Deatnu Deatnu Deatnu+N+Prop+Plc+Sg+Nom Deatnu deatnu+Plc+N+Sg+Nom Deatnu deatnut+V+TV+Ind+Prs+Sg3 Mánná Mánná mánná+Hum+N+Sg+Nom Mánná mannat+V+TV+Ind+Prs+Sg3
Kandidat til kommando for å finne ekte ukjente samiske ord: 
cat unknown_sme_20121028.txt |sed 's/^ *//g;'|cut -d"bt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep -v '[.+@]'|grep -v '^$' > tull
TODO
Ciprian: 
- Sjekke ny wordcount pipeline 
- Konvertere alt på nytt 
- Implementere html-format når wrong ratio skal sjekkes 
- Ny unknown-liste 
- Analysere med engelsk analysator - fjerne engelske ord fra unknown liste 
- analysere hele nob-wikipedia på nytt med OBT og uten punktuasjon
BM & Marja: 
- Sjekke ratio etter implementering av word counter 
- sjekke unknown word i sme, legge til i kildefiler 
- sjekke siste word alignment fra ap-pipeline - for å bli vant med formatet 
- Teste ut forskjellige typer forbedringer av input data til  
cat unknown_sme_without_nob_20121028.txt |~/main/st/nob/obt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep '+?' |cut -f1
| rev | sort | rev > ukj | 
cat ukj|grep -v '[0-9-]'|usme|grep '?'|cut -f1|rev|sort|rev|see
Neste møte
Tysdag 6.11. kl. 10.00, også med Sjur og Børre (sjekke om tidspunkt passar)

