130114
FAD- og korpusmøte 14.1.2013
Til stades: Berit Merete, Marja, Ciprian, Trond
Saker:
- Status
- Arbeid framover med FAD
- nobsme
- Neste møte
Status
Trond har vore i Helsingfors.
- Attende til gt:
- Filtrere bort frå gt-output alt som er parallellisert med apertium, slik
- Resultat: l_gt i src/fad_nobsme.20121130_nob-c_sme-c.xml
- Filtrere bort frå gt-output alt som er parallellisert med apertium, slik
gt
Todo-lista frå sist er ikkje gjort. Sjå nedanfor, under gt:
Denne kommandoen fjernar semantiske taggar (per 7.1.2013) frå output av lookup2cg.
cat fiilla |perl -pe 's/(Ani|Body|Build|Clth|Edu|Event|Fem|Food|Group|Hum|Mal|Measr|Obj|Org|Plant|Plc|Route|Sur|Time|Txt|Veh|Wpn|Wthr|Allegro|v1|v2|v3|v4) //g' > |uniq > fiilla_semhaga
Den reelle lista av semantiske taggar står her:
Arbeid framover med FAD
Resultat av reversed engineering av ap-output
Entries: src>grep '<e' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l Lemma nob ap: src>grep '<l ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l 8358 Postprosessert lemma nob obt src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l 10519 Postprosessert lemma nob obt med berre ein analyse src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c="' | wc -l 6867 Postprosessert lemma nob obt med berre minst 2 analyser src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l 1300 etc... src>grep '<l_gt' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l 1300 Tilsvarande for samisk: Lemma sme ap: src>grep '<t ' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l 8358 Postprosessert lemma sme ap analysert med sme.fst src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | wc -l 9981 Postprosessert lemma sme ap analysert med sme.fst med eitt lemma: src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep -v 'c=' | wc -l 6691 Postprosessert lemma sme ap analysert med sme.fst med meir enn eitt lemma: src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="1"' | wc -l 1319 etc: src>grep '<t_' fad_nobsme.20121130_nob-c_sme-c.xml | grep 'c="2"' | wc -l 1319
Trond sjekka mot unob og MS Word:
- Ta _nob-c_sme-c
- Dra ut den norske l_
- analysere i unob og dra ut ?
- Lime inn i MS Word og gå manuelt gjennom
cat src/fad_nobsme.20121130_nob-c_sme-c.xml |grep '<l_'|tr '<' '>' \| cut -d">" -f3 \|unob|grep '?'|cut -f1|rev|sort|uniq|rev|see
Arbeid framover
- ap:
-
Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)
- Løyse opp c=1, c=2 (Cip, til onsdag)
- Sjekke mot unob og eit retteprogram (som vist ovafor) (Trond, til torsdag)
- Løyse opp c=1, c=2 (Cip, til onsdag)
- gå gjennom alle ap-sammensatte ord som IKKE fikk noe tilsvarende gt-lemma, feks betaling+sikkerhet
-
Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (Cip)
- gt:
- Filtrere bort modalverb frå gt-output (Cip)
- Filtrere bort parallellar som allereie er på plass via ap-output
- Filtrere bort modalverb frå gt-output (Cip)
- Neste steg:
- Manuell gjennomgang av output for reinsa gt-pipeline. (BM, M)
nobsme
<tg><re> <tg re="blabla">
Neste møte
- Eigen nobsme-leksikografisk diskusjon tysdag 15.1. 12.00 (Trond, BM, Márjá).
- Neste møte: Måndag 21.1.2013 før lunsj
- Deretter møte ca. onsdag, også med Børre og Sjur.