Казакевич О.А., Клячко Е.Л., Реутт Т.Е., Вахонева Д.М., Чвырев А.В. Мультимедийный размеченный корпус текстов на говорах западных эвенков // http://srcc.msu.ru (Тезисы конференции «Ломоносовские чтения 2012»).

В докладе представлены некоторые результаты работы над проектом «Мультимедийный размеченный корпус текстов на говорах западных эвенков», реализуемым в ЛАЛС НИВЦ МГУ при поддержке РФФИ, грант 10-06-00532. Целью проекта является создание мультимедийного корпуса текстов на говорах западных эвенков, снабженных грамматической разметкой и организованных в базу данных, обеспечивающую хранение и поиск информации по различным параметрам. На данном этапе в базу входят записанные в последнее десятилетие тексты разных жанров, отражающие современное состояние говоров западных эвенков (представлено как северное, так и южное наречие). Примерный объем базы – более 100 текстов. Каждый текст имеет в базе три графических образа, а также аудио- и видеообраз. 40 текстов корпуса снабжены морфологическими индексами. Для синхронизации видео-, звукового и графического образов используется программа ELAN. По мере индексации тексты размещаются на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). Подробнее о проекте см.: http://www.lcl.srcc.msu.ru.

Ключевые слова: документация исчезающих языков, мультимедийный размеченный корпус текстов, эвенкийский язык, говоры западных эвенков, морфологическая индексация, синхронизация видеоряда, звука и графического представления текста