barentspresentation.rus
Цифровой инфраструктуры для языков коренных народов Северо-Запада России
Обратите внимание! Этот текст переведен с Google Translate. Не доверять ему. Если это кажется странным, посмотреть на оригинал на английском языке.
Целью данного проекта является предоставление трех языках коренных народов Северо-Запада России, Коми, Ненецкий и Кильдин, цифровой инфраструктуры, что позволяет продолжать использование этих языков в администрации, школы и общества в целом в современной России.
С цифровой инфраструктуры, мы имеем в виду:
- Письма и клавиатурой на современных компьютерах
- Грамматические и лексические программ анализа
- Проверки орфографии для наиболее важных компьютерных программ
- Multi-языковые словари в электронном виде
Все эти языки, традиционно используемые в школах, а отчасти также в культурной жизни. Без цифровой инфраструктуры на месте, они не будут делать переход к ИКТ-сообщества, и таким образом выпадают из использования в общественной жизни.
Коми является государственным языком Республики Коми, Ненецкий является официальным языком Ненецкий автономные округа и Ямало-Ненецкий области, и это также говорят в западной части Таймыра. Кильдин в первую очередь говорят в Lujávr на Кольском полуострове.
Эти три языка являются различными, и конкретные цели каждого языка подпроект в некоторой степени отличается от других. Языках по-прежнему сталкиваются с теми же проблемами, однако. Для всех трех языках это дело, что у них есть буквы, которые не являются частью регулярной кириллицы, так что им нужна их собственная раскладки клавиатуры, и свои собственные процедуры для интернет-публикации.
Ни один из языков имеют доступ к языковые ресурсы технологии, такие как проверки орфографии, grammarcheckers, анализатор программ, или многоязычных ресурсов. Разница между соответствующими общинами языка лежит отчасти в том, что языковые средства имеются данные, и частично в какой степени различные общества языка решили внутренние нормативные вопросы.
Настоящий проект будет, в той степени, что задача не была решена уже, создавать раскладки клавиатуры и орфографические и грамматические программы анализа для всех трех языках. Для каждого языка, будет назначен команда одного лингвиста, одного или нескольких филологов, и один (неполный рабочий день) программиста. Кроме того, будет общим для команды независимый от языка инфраструктуры.
Посещение в типологических свет, все циркумполярного языки имеют много общего. Инфраструктура и грамматические работы, проводимой в рамках этого проекта, таким образом, будет актуальна и для других приполярных языках. Проект будет следовать принципам открытого кода, и результаты могут быть повторно использованы в интересах других языковых сообществ.
Справочная
Шур Н. Moshagen и Тронд Trosterud, Университет Тромсе / Divvun.
Философия проекта
Данный проект основан на наших предыдущих проектов в Университете Тромсе и на саамского парламента, создание проверки орфографии для Северной и Луле саами и Гренландии. Мы также провели экспериментальные проекты для языков в России.
Проект будет включать язык передачи знаний техники в исследовательских учреждений для Кильдин, Коми и Ненецком в России, проект будет также повышение знаний из этих языков. Поэтому мы убеждены, что мы сможем провести этот проект таким образом, что будет ясно и длительный эффект на соответствующих обществ языке.
Цифровой инфраструктуры
Term digital infrastructure of языка определено выше. Короче говоря, это технология, которая делает возможным использование языка в компьютерных современном обществе, например. в административном контексте, или в современной издательской деятельности.
Без этой инфраструктуры на месте, все заявления с целью поддержки и понимания языка меньшинства лишь пустыми декларациями. Пока мы не можем использовать компьютеры писать письма в языке, или исправить текст или найти правильную терминологию, язык не может быть введен в эксплуатацию в администрации современного общества ..
Можно разделить уровень имеющейся инфраструктуры в трех разных поколений, или фазы:
- Первое поколение: раскладки клавиатуры, шрифты, форматы дат и сортировка
- Второго поколения: проверки орфографии, автоматическая расстановка переносов, электронные словари, автоматический анализ слова
- Третьего поколения: wordnets, тезаурусы и тезаурус словари, автоматический анализ предложения, машинный перевод, речевых технологий
Для этого проекта цель заключается в создании второго поколения инфраструктуры. Это примерно то, что теперь доступна для Северной саами, Луле саами и норвежский.
Постоянной инфраструктуры
С постоянным или устойчивую инфраструктуру мы имеем в виду в частности, что проект осуществляется с открытым исходным кодом (нет третьей стороны, которая владеет частью источника и, таким образом, в состоянии заблокировать аналогичные усилия в будущем), а частично, что мы в проекте документа что мы делаем (мы делаем наши собственные знания явного), а частично, что мы строим знаний и научных отделов внутри каждого языкового сообщества.
Постоянной инфраструктуры, как это определено здесь важно не допустить, что работа, которую мы делаем сейчас тратится в долгосрочной перспективе. Это должно быть возможным с разумные усилия, чтобы забрать поток после этого проекта, и работу на основе работы, проделанной в рамках данного проекта.
Важным инструментом для достижения этой цели является работа и структурирование проекта наиболее модульные.
Трех языках, кратко представлены в основной документ для проекта.
Кильдин саами
Для Кильдин активных активизации усилий началась. Там были проведены языковые лагеря в Ловозеро два лета подряд. Поворотный момент для сообщества Кильдин Сами был централизации политики в 1960-х годов, когда большинство народа саами были перемещены со всего Кольского полуострова и в Ловозеро. Кильдин литературной культуры, в отличие от других языков национальных меньшинств в Советском Союзе, а не вновь, как язык обучения после второй мировой войны, но только в 1970-х годов. Это привело к ситуации, когда поколение, которое говорит на языке лучшим является тот, который еще не научился читать и писать в школе. На практике лишь небольшая группа саами написать на саамском языке, другие саами доставки текстовых эту небольшую группу писателей за корректуру, или даже для перевода с русского языка.
Цель программы проверки Кильдин это позволить больше, чем небольшая группа "Дать экспертов" писать и публиковать свои собственные тексты. Кильдин цифровой словарях сделает это возможным.
Эта работа будет осуществляться в сотрудничестве с центром Сами языка в Ловозеро, проект, в котором оба университета Тромсе и Сами колледж принимает участие, в дополнение к языку работников в Ловозеро.
Коми
Коми является крупнейшей из трех языках. В рамках этого проекта, вероятно, будет представлен филологический факультет Коми государственный университет или Департамент Языки, литературы и истории в Коми научного центра (ИЯЛИ на KomNTs).
В ИЯЛИ они были сосредоточены на лексикографии (АО опубликованные коми-русский словарь 31000 слов, которые могли бы стать важным ресурсом для анализатора Коми). Ключевым ресурсом также Департамент Коми филологии Коми государственный университет. В отличие от Кильдин, Коми была непрерывной традиции преподавания иностранных языков и использования течение всего советского периода, она имеет национальную литературу Возвращаясь к 1800 (он даже может похвастаться старейших уральских литературной традиции), она имеет издательский сектор около 20 ежегодной литературной названия, и пара журналов и газет. Улицы и официальные учреждения являются в некоторой степени имени на двух языках.
Ненецкий
Ненецкий насчитывает около полутора время как многие ораторы, как Северная саами. Язык имеет некоторые различия диалектов и довольно четко определенные письменные стандартные, но на нем говорят на большой площади и имеет официальный статус в трех автономных регионов (Ненецкий, Ямало-Ненецкого и Таймырского). Из трех областях большинство языке работа была проделана в Ямало-Ненецком, где также есть учебное заведение.
Работа по Ненецкому будет основываться на машиночитаемых версия стандарта Ненецкий Н. М. Терещенко - русский словарь, а на морфологический словарь ненецкого (Т. Салминен). Ненецкий отличается как от саами и коми, но твердых грамматических работы Фонда только что привел дает хорошую отправную точку для работы.
Язык программы мы будем разрабатывать
Для каждого из языков мы развиваем эти программы:
- Автоматический анализ слова
- Орфография
- Автоматическая расстановка переносов
- Электронные словари
По существу же, как мы разработали для Северной и Луле, и мы собираемся разработать для Южной саами, а также.
Эти программы, что можно рассматривать как основные языковые программы для любого языка. Технологии и ресурсы за программы также строительные блоки для следующего поколения языковых технологий.
Базовой технологии
Сами проекты используют собственные компиляторы от Xerox и Polderland. Мы предпочтительно использовать датчик технология, разработанная в Университете Хельсинки, открытой и свободной альтернативой Xerox компиляторы, и использовать его как для анализа слов и проверки программ. В случае, если это не дает, как хорошие результаты, как мы ожидаем, мы можем прибегнуть к Xerox и Polderland.
Для Следующее поколение инструментов (анализа предложений, грамматики и т.д.), мы используем технологии от Оденсе, ограничение Грамматика CG3. Эта технология уже с открытым исходным кодом.
Будущего применения этой технологии.
Разработанная технология обеспечит хорошую основу для различных инструментов и программ в будущем. Для северных саами, мы разработали различные программы обучения грамматике, как для отечественных писателей и школьников, и для студентов второго языка. На основе таких учебных пособий также не далеко от проверки грамматики.
Другие возможные инструменты, которые основываются на ресурсы проекта являются:
- Синтеза речи
- Анализа предложений
- Меткой корпус (важный ресурс для исследований и leksikologi и терминологии работы)
- Индексации и поиска
- Реферирования текстов
- Машинного перевода
Структура
Проект будет сотрудничество между существующей средой для языковых технологий в Университете Тромсе и парламента саами, и соответствующими научными учреждениями в России и Финляндии. Центр языковых технологий в Университете Тромсе будет координатором.
Потенциальных проблемных областей в проекте
Хотя мы провели аналогичные проекты для нескольких языках, то ясно, что каждый новый язык и каждое новое сообщество язык несет с собой новые вызовы. В той степени, что мы не работали в России ранее, мы должны были бы научиться сотрудничать. Наши хорошие контакты на соответствующих языковых сообществ будет важным помощь там.
Существуют также различные уровни стандартной установки и стандартизации деятельности для каждого из письменных языков, и он может легко стать трудно справиться с тем чтобы завершить проверку орфографии. Опыт показывает, что написание проекта заставит более четко язык стандартизации, что очень хорошо для письменной культуры.