150318
Giellateknomøte 18.3.2015
Saksliste
- smenob FAD unifisering
- Frekvenssortere tekstar på internett
- Nye stillingar
- PhD-stipend
- Programmerar
- Norsk språkteknologi
- nobsme-leksikografi
- PhD-stipend
smenob FAD unifisering
Det er mange gamle filer i smenob/inc-mappa. Her bør alle gå gjennom og oppdatere kvar sin fil.
Tiltak:
- Vi lager to katalogar i inc:
- future_work (med readme-fil som fortel kva som er status)
- ready_to_go
- future_work (med readme-fil som fortel kva som er status)
- Den som eier fila, går gjennom den og enten fjerner eller oppdaterer og flytter til riktig mappe, med en god logmelding om hva dette er.
Web-side for frekvenssortering av lemma og ordformer i tekstar
Nettside: Laste opp fil i .doc-format, få attende frekvenssortert lemma og ordform
Her er foreløpig pipeline (som må forbedres litt for å ta hensyn til ikke disambiguert homonymier):
Første steg er identisk med smesyn (sent-proc.sh -s syn) > analysert_fil cat analysert_fil | grep '"<' | downcase | sort | uniq -d | sort -nr > wordfrekv.file cat analysert_fil | grep '"' | grep -v '"<' | sort | uniq -d | sort -nr > lemmafrekv.file cat analysert_fil | grep '"' | grep -v '"<' | cut -d '"' -f3 | cut -d ' ' -f2 | sort | uniq -d | sort -nr > wordclassfrekv.file
Tiltak:
- Ciprian ser nærmere på dette og vi bestemmer tidsramme osv på neste møte
Nye stillingar
Programmerar
PhD-stipend
- samisk master (for jobbe med korpuslingvistikk, leksikografi osv)
- master språkteknologi/datalingvistikk med kunnskaper/erfaring fra uralske språk (helst samisk)
Tiltak:
- Trond skriver et notat til ledelsen på IS om dette.
Norsk språkteknologi
nobsme-leksikografi
Tiltak:
- Trond skriver epost til vedkommende