barentspresentation.rus

Цифровой инфраструктуры для языков коренных народов Северо-Запада России

Обратите внимание! Этот текст переведен с Google Translate. Не доверять ему. Если это кажется странным, посмотреть на оригинал на английском языке.

Целью данного проекта является предоставление трех языках коренных народов Северо-Запада России, Коми, Ненецкий и Кильдин, цифровой инфраструктуры, что позволяет продолжать использование этих языков в администрации, школы и общества в целом в современной России.

С цифровой инфраструктуры, мы имеем в виду:

  • Письма и клавиатурой на современных компьютерах
  • Грамматические и лексические программ анализа
  • Проверки орфографии для наиболее важных компьютерных программ
  • Multi-языковые словари в электронном виде

Все эти языки, традиционно используемые в школах, а отчасти также в культурной жизни. Без цифровой инфраструктуры на месте, они не будут делать переход к ИКТ-сообщества, и таким образом выпадают из использования в общественной жизни.

Коми является государственным языком Республики Коми, Ненецкий является официальным языком Ненецкий автономные округа и Ямало-Ненецкий области, и это также говорят в западной части Таймыра. Кильдин в первую очередь говорят в Lujávr на Кольском полуострове.

Эти три языка являются различными, и конкретные цели каждого языка подпроект в некоторой степени отличается от других. Языках по-прежнему сталкиваются с теми же проблемами, однако. Для всех трех языках это дело, что у них есть буквы, которые не являются частью регулярной кириллицы, так что им нужна их собственная раскладки клавиатуры, и свои собственные процедуры для интернет-публикации.

Ни один из языков имеют доступ к языковые ресурсы технологии, такие как проверки орфографии, grammarcheckers, анализатор программ, или многоязычных ресурсов. Разница между соответствующими общинами языка лежит отчасти в том, что языковые средства имеются данные, и частично в какой степени различные общества языка решили внутренние нормативные вопросы.

Настоящий проект будет, в той степени, что задача не была решена уже, создавать раскладки клавиатуры и орфографические и грамматические программы анализа для всех трех языках. Для каждого языка, будет назначен команда одного лингвиста, одного или нескольких филологов, и один (неполный рабочий день) программиста. Кроме того, будет общим для команды независимый от языка инфраструктуры.

Посещение в типологических свет, все циркумполярного языки имеют много общего. Инфраструктура и грамматические работы, проводимой в рамках этого проекта, таким образом, будет актуальна и для других приполярных языках. Проект будет следовать принципам открытого кода, и результаты могут быть повторно использованы в интересах других языковых сообществ.

Справочная

Шур Н. Moshagen и Тронд Trosterud, Университет Тромсе / Divvun.

Философия проекта

Данный проект основан на наших предыдущих проектов в Университете Тромсе и на саамского парламента, создание проверки орфографии для Северной и Луле саами и Гренландии. Мы также провели экспериментальные проекты для языков в России.

Проект будет включать язык передачи знаний техники в исследовательских учреждений для Кильдин, Коми и Ненецком в России, проект будет также повышение знаний из этих языков. Поэтому мы убеждены, что мы сможем провести этот проект таким образом, что будет ясно и длительный эффект на соответствующих обществ языке.

Цифровой инфраструктуры

Term digital infrastructure of языка определено выше. Короче говоря, это технология, которая делает возможным использование языка в компьютерных современном обществе, например. в административном контексте, или в современной издательской деятельности.

Без этой инфраструктуры на месте, все заявления с целью поддержки и понимания языка меньшинства лишь пустыми декларациями. Пока мы не можем использовать компьютеры писать письма в языке, или исправить текст или найти правильную терминологию, язык не может быть введен в эксплуатацию в администрации современного общества ..

Можно разделить уровень имеющейся инфраструктуры в трех разных поколений, или фазы:

  1. Первое поколение: раскладки клавиатуры, шрифты, форматы дат и сортировка
  2. Второго поколения: проверки орфографии, автоматическая расстановка переносов, электронные словари, автоматический анализ слова
  3. Третьего поколения: wordnets, тезаурусы и тезаурус словари, автоматический анализ предложения, машинный перевод, речевых технологий

Для этого проекта цель заключается в создании второго поколения инфраструктуры. Это примерно то, что теперь доступна для Северной саами, Луле саами и норвежский.

Постоянной инфраструктуры

С постоянным или устойчивую инфраструктуру мы имеем в виду в частности, что проект осуществляется с открытым исходным кодом (нет третьей стороны, которая владеет частью источника и, таким образом, в состоянии заблокировать аналогичные усилия в будущем), а частично, что мы в проекте документа что мы делаем (мы делаем наши собственные знания явного), а частично, что мы строим знаний и научных отделов внутри каждого языкового сообщества.

Постоянной инфраструктуры, как это определено здесь важно не допустить, что работа, которую мы делаем сейчас тратится в долгосрочной перспективе. Это должно быть возможным с разумные усилия, чтобы забрать поток после этого проекта, и работу на основе работы, проделанной в рамках данного проекта.

Важным инструментом для достижения этой цели является работа и структурирование проекта наиболее модульные.

Трех языках, кратко представлены в основной документ для проекта.

Кильдин саами

Для Кильдин активных активизации усилий началась. Там были проведены языковые лагеря в Ловозеро два лета подряд. Поворотный момент для сообщества Кильдин Сами был централизации политики в 1960-х годов, когда большинство народа саами были перемещены со всего Кольского полуострова и в Ловозеро. Кильдин литературной культуры, в отличие от других языков национальных меньшинств в Советском Союзе, а не вновь, как язык обучения после второй мировой войны, но только в 1970-х годов. Это привело к ситуации, когда поколение, которое говорит на языке лучшим является тот, который еще не научился читать и писать в школе. На практике лишь небольшая группа саами написать на саамском языке, другие саами доставки текстовых эту небольшую группу писателей за корректуру, или даже для перевода с русского языка.

Цель программы проверки Кильдин это позволить больше, чем небольшая группа "Дать экспертов" писать и публиковать свои собственные тексты. Кильдин цифровой словарях сделает это возможным.

Эта работа будет осуществляться в сотрудничестве с центром Сами языка в Ловозеро, проект, в котором оба университета Тромсе и Сами колледж принимает участие, в дополнение к языку работников в Ловозеро.

Коми

Коми является крупнейшей из трех языках. В рамках этого проекта, вероятно, будет представлен филологический факультет Коми государственный университет или Департамент Языки, литературы и истории в Коми научного центра (ИЯЛИ на KomNTs).

В ИЯЛИ они были сосредоточены на лексикографии (АО опубликованные коми-русский словарь 31000 слов, которые могли бы стать важным ресурсом для анализатора Коми). Ключевым ресурсом также Департамент Коми филологии Коми государственный университет. В отличие от Кильдин, Коми была непрерывной традиции преподавания иностранных языков и использования течение всего советского периода, она имеет национальную литературу Возвращаясь к 1800 (он даже может похвастаться старейших уральских литературной традиции), она имеет издательский сектор около 20 ежегодной литературной названия, и пара журналов и газет. Улицы и официальные учреждения являются в некоторой степени имени на двух языках.

Ненецкий

Ненецкий насчитывает около полутора время как многие ораторы, как Северная саами. Язык имеет некоторые различия диалектов и довольно четко определенные письменные стандартные, но на нем говорят на большой площади и имеет официальный статус в трех автономных регионов (Ненецкий, Ямало-Ненецкого и Таймырского). Из трех областях большинство языке работа была проделана в Ямало-Ненецком, где также есть учебное заведение.

Работа по Ненецкому будет основываться на машиночитаемых версия стандарта Ненецкий Н. М. Терещенко - русский словарь, а на морфологический словарь ненецкого (Т. Салминен). Ненецкий отличается как от саами и коми, но твердых грамматических работы Фонда только что привел дает хорошую отправную точку для работы.

Язык программы мы будем разрабатывать

Для каждого из языков мы развиваем эти программы:

  • Автоматический анализ слова
  • Орфография
  • Автоматическая расстановка переносов
  • Электронные словари

По существу же, как мы разработали для Северной и Луле, и мы собираемся разработать для Южной саами, а также.

Эти программы, что можно рассматривать как основные языковые программы для любого языка. Технологии и ресурсы за программы также строительные блоки для следующего поколения языковых технологий.

Базовой технологии

Сами проекты используют собственные компиляторы от Xerox и Polderland. Мы предпочтительно использовать датчик технология, разработанная в Университете Хельсинки, открытой и свободной альтернативой Xerox компиляторы, и использовать его как для анализа слов и проверки программ. В случае, если это не дает, как хорошие результаты, как мы ожидаем, мы можем прибегнуть к Xerox и Polderland.

Для Следующее поколение инструментов (анализа предложений, грамматики и т.д.), мы используем технологии от Оденсе, ограничение Грамматика CG3. Эта технология уже с открытым исходным кодом.

Будущего применения этой технологии.

Разработанная технология обеспечит хорошую основу для различных инструментов и программ в будущем. Для северных саами, мы разработали различные программы обучения грамматике, как для отечественных писателей и школьников, и для студентов второго языка. На основе таких учебных пособий также не далеко от проверки грамматики.

Другие возможные инструменты, которые основываются на ресурсы проекта являются:

  • Синтеза речи
  • Анализа предложений
  • Меткой корпус (важный ресурс для исследований и leksikologi и терминологии работы)
  • Индексации и поиска
  • Реферирования текстов
  • Машинного перевода

Структура

Проект будет сотрудничество между существующей средой для языковых технологий в Университете Тромсе и парламента саами, и соответствующими научными учреждениями в России и Финляндии. Центр языковых технологий в Университете Тромсе будет координатором.

Потенциальных проблемных областей в проекте

Хотя мы провели аналогичные проекты для нескольких языках, то ясно, что каждый новый язык и каждое новое сообщество язык несет с собой новые вызовы. В той степени, что мы не работали в России ранее, мы должны были бы научиться сотрудничать. Наши хорошие контакты на соответствующих языковых сообществ будет важным помощь там.

Существуют также различные уровни стандартной установки и стандартизации деятельности для каждого из письменных языков, и он может легко стать трудно справиться с тем чтобы завершить проверку орфографии. Опыт показывает, что написание проекта заставит более четко язык стандартизации, что очень хорошо для письменной культуры.