docu-statusquo.rus

Статус-кво

Этот документ дает краткий обзор о положении дел в морфологическом анализаторе Коми и его исходных файлах.

15 июля 2016

Статус для исходных файлов:

  • Лексикон: лексика содержит 35806 записей (19129 существительных, 12191 глагол, 4486 прилагательных)
  • Морфология: морфологические файлы 3494 строки, которые содержат 479 продолженных лексиконов. По сравнению с 8234 строками и 1309 продолженными лексиконами для эрзя, работы еще много.
  • Морфофонология: файл pv-phon.twolc составляет 253 строки. По сравнению с 514 строками для эрзянского языка, для Коми ситуация не так уж плоха.

Задачи на будущее:

  1. Проверка и правка морфологии и морфофонологии
  2. Интеграция коми-русского словаря в морфологический анализатор (ОК)
  3. Добавить больше слов:
    1. Проверять анализатор на текстовом материале, а также добавлять новые слова
    2. Систематически добавлять русские заимствования: имена собственные и технические термины (ОК)
  4. Работа по орфографии
    1. Нам надо создать корпус ошибок