ПОСЛЕДНИЕ НОВОСТИ
19.04 | Семинар городской антропологии 21 марта
20.10 | Семинар «Соседи и соседство: джинны и люди в мусульманских культурах» 28-29 октября
19.10 | Семинар по Антропологии искусства 25 октября
18.10 | Видео финальной дискуссии с конференции «Полевые записи звука: музыка, речь, ландшафт»
17.10 | Юбилей Олега Викторовича Кириченко
16.10 | Новая книга: Локальные этноконфессиональные группы в Центральной России
15.10 | Всероссийская перепись населения 2021
15.10 | Отчет о Северном семинаре 7 октября
14.10 | Юбилей Александра Огановича Чубарьяна
14.10 | Семинар «Исследования визуальной культуры» 15 октября
ПОЛЕЗНЫЕ ССЫЛКИ
ФОТОГАЛЕРЕЯ

 ПУБЛИКАЦИИ
   Начало раздела БАЗЫ ДАННЫХ ИЭА РАН

Корпусы ИЭА РАН

Проект создания корпуса текстов на языках малочисленных народов Сибири реализуется с 2011 года. В 2011—2014 годах он выполнялся в рамках программы Президиума РАН «Корпусная лингвистика» сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН. С 2017 года реализация проекта продолжена в рамках проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур», выполняемого на базе Томского государственного университета (грант Правительства РФ № 14.Y26.31.0014) сотрудниками кафедры этнологии МГУ, отдела Севера и Сибири ИЭА РАН и Лаборатории лингвистической антропологии ТГУ.
Основной целью проекта является создание общедоступного электронного корпуса фольклорных материалов с возможностью:

1. одновременного хранения как исходного (сохраняющего особенности фиксации), включая рукописи, аудио- и видеозаписи, так и нормализованного варианта записи текстов;
2. поисковой работы с корпусом текстов, позволяющей осуществлять выборку важнейших сопряженностей для каждого слова, левых и правых соседей каждого слова (с дополнительным представлением в виде графов), сбор статистики употребления лексем/словоформ, анализ контекста словоупотребления в заданном тексте и во всем корпусе, сравнение списков словоформ из всех представленных в корпусе текстов с заданным ограничением поиска — по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам.

Созданный уникальный ресурс может быть использован в процессе преподавания аборигенных языков в школах и ВУЗах, а также для научно-исследовательской работы лингвистов, фольклористов и этнологов, владеющих данными языками.

Состав и объем корпусов
Согласно проектной заявке 2011 года корпус должен был включать фольклорные материалы лишь на двух языках: шорском и эвенкийском. Объем шорского и эвенкийского подкорпусов к концу 2011 года предполагалось довести до примерно 120.000 и 6.000 словоупотреблений соответственно. С целью демонстрации возможностей корпуса в плане включения материалов на других языках, в нем дополнительно размещены фольклорные тексты на телеутском языке.

В настоящий момент «корпусная машина» обслуживает следующие корпусы:
  • ненецкий;
  • телеутский;
  • шорский;
  • эвенкийский;
Подробную текущую статистику по каждому корпусу можно посмотреть на странице «Статистика».

Распечатать Распечатать Переслать Переслать В избранное В избранное


На главную       Вернуться назад

Другие публикации
  • Электронный фотоархив ИЭА РАН
  • Языки народов Сибири, находящиеся под угрозой исчезновения
  • Этнодемографическая база данных ИЭА РАН
  • Электронный архив Центра визуальной антропологии ИЭА РАН
  • МАРГИАНСКАЯ АРХЕОЛОГИЧЕСКАЯ ЭКСПЕДИЦИЯ
  • ЭТНИЧЕСКАЯ ЭКОЛОГИЯ

  • ИНДЕКС ЦИТИРОВАНИЯ



    Общее число публикаций организации в РИНЦ 13550
    Число цитирований публикаций организации в РИНЦ 137719
    Число авторов 485
    Число авторов, зарегистрированных в Science Index 207
    h-индекс (индекс Хирша) 140
    q-индекс 238
    i-индекс 19
    КАЛЕНДАРЬ СОБЫТИЙ
    «« Октябрь 2021 »»
    Пн Вт Ср Чт Пт Сб Вс
        1 2 3
    4 5 6 7 8 9 10
    11 12 13 14 15 16 17
    18 19 20 21 22 23 24
    25 26 27 28 29 30 31
    20.10.2021
    © ИНСТИТУТ ЭТНОЛОГИИ И АНТРОПОЛОГИИ РАН 2013—2021