База практики АЦ «Ассоциации Электронных Торговых Площадок» ЗАО «АЦ Фонд» ООО «Диктум» Цели организации практик 1 этап научно-исследовательская 2 этап производственная Научно-исследовательская практика как этап производственной практики магистров проводится с целью сбора, анализа и обобщения научного материала, разработки оригинальных научных предложений и научных идей для подготовки магистерской диссертации, получения навыков самостоятельной научно-исследовательской работы, практического участия в научноисследовательской работе коллективов исследователей. Производственная практика магистров проводится с целью обеспечения тесной связи между научно-теоретической и практической подготовкой студентов, приобретения ими опыта практической деятельности в соответствии с особенностями магистерской программы, создания условий для формирования практических компетенций и сбора материала для подготовки выпускной квалификационной работы (магистерской диссертации). Содержание практики исследование устной речи и письменных текстов; совокупности явлений, охватывающих все элементы языковой структуры (фонетики, морфологии, лексики, синтаксиса, семантики, дискурса); электронные языковые ресурсы (языковые корпуса, машинные фонды, электронные словари и др. базы данных); лингвистические технологии, в том числе применяемые в электронных информационных системах различного назначения. Основная цель практики – обеспечить навыками алгоритмического решения задач обработки языковых данных и программирования, прикладными аспектами компьютерной лингвистики, корпусной лингвистики на основе компетентностной модели. компетенции - Институциональные компетенции, характеризующие способности выпускника-магистра применять на практике теоретические знания, необходимые для внедрения лингвистических технологий в электронные информационные системы, системы машинного перевода; - Экспертно-аналитические компетенции, выражающимися в способности магистров сопоставлять различные типы дискурсов, проводить компаративный анализ информации из разных предметных областей, разрабатывать экспертные оценки и делать краткосрочные и среднесрочные прогнозы в области языковой политики и языкового планирования, осуществлять мониторинг массивов информации с применением современных компьютерных инструментов лингвистического исследования; - Инструментальные компетенции, характеризующие умение магистра ориентироваться в различных научных методологиях и подходах, готовить качественные аналитические документы на русском и иностранных языках. - Технологические компетенции, закрепляющие умения использовать в научно-практической деятельности информационные технологии; - Научно-исследовательские компетенции, развивающие исследовательские навыки, полученные на уровне бакалавриата и заключающиеся в умении выпускников-магистров организовывать и проводить исследования с целью разработки и создания инновационных электронных языковых ресурсов (корпусов текстов, словарей, фонетических, лексических, терминологических баз данных); - Социально-личностные компетенции, призванные подготовить выпускника к эффективной публичной деятельности, в том числе и в качестве преподавателя университета. Практические задачи от работодателя Выделение объектов и их идентификация. Определение индекса цитирования. Выявление клауз и других синтаксических структур. Семантический анализ синтаксических структур описывающих объект. Анализ содержимого в тексте. Создание и работа с корпусом текста. Создание Экспертной системы для анализа полученной информации. Образовательные задачи от работодателя Знакомство с актуальными прикладными задачами компьютерной лингвистики, в частности - выделение в тексте упоминаний о персонах и организациях (объектов). В рамках стажировки студент получит возможность практиковаться в работе с базами данных, с морфологическим анализатором. Обработка текста также подразумевает работу с регулярными выражениями, составление семантических графов, деревьев синтаксического разбора, и работы с тезаурусом. Студенту представится возможность поработать над решением интересных, нетривиальных задач, что положительно отразится как в совершенствовании навыков ведения научной дискуссии, так и на государственном экзамене. Знакомство и работа с основными видами автоматического анализа текста. Морфологический, статистический, синтаксический и семантический анализ. В процессе прохождения практики предусмотрена ежедневная деятельность по разработке на С++ и использованию различных видов автоматического анализа текста, использование баз данных, в частности MSSQL. А также создание графических частей приложений с использованием С#/DevExpress. Полученные в результате такой работы навыки и некоторые данные можно эффективно интегрировать в материалы исследования в рамках курсовых и магистерских работ. Экспертные системы. Построение базы знаний на основе математической логики, семантических сетей и фреймов. Применение нечёткой логики и методов вероятностного вывода, в том числе механизмов обучения Байесовских сетей, неявных Марковских сетей. Прохождение практики предполагает как формирование у обучаемых базовых представлений о принципах и методах компьютерной лингвистики, так и получение практических решений задач, которые будут ставиться в процессе работы. Задачи для студентов ВШЭ-НН 1. Автоматизация проверки актуальности информации справочников. Данная задача необходима для обновления данных подавляющего большинства справочников, содержащих экстралингвистическую информацию. Описание Предлагается продумать и реализовать систему автоматической проверки актуальности содержащейся в справочнике информации. В ходе выполнения задачи необходимо ответить на следующие вопросы: - какие ресурсы могут использоваться как основание для обновления информации справочника; - каким образом и с каким интервалом представляется целесообразным отслеживать обновления; - как должна проходить процедура обновления информации непосредственно в карточках справочника? Предоставляемые материалы: Предполагается обеспечить практиканту отчет, дающий доступ к справочнику «Персоны». Количество единиц, отображаемых в справочнике планируется сократить до 100. 2. Реструктуризация справочника «География мира» путем внесения в него деления на крупные территориальные единица типа земли, автономные округи, штаты и т.д. Описание: Для решения этой задачи необходимо будет продумать следующие вопросы: - каким образом следует перестроить структуру справочника «География мира» для пополнения его необходимыми данными; - составить корпус единиц для внесения в справочник; - пополнить выбранным для этого способом справочник «География мира» единицами территориального деления стран мира; - проверить полученный результат. Предоставляемые материалы: Предполагается обеспечить практиканту доступ к справочнику «География мира». 3. Составление алгоритма разрешения анафор в текстах новостных сообщений. Данная задача необходима для реализации других более крупных задач: подсчета упоминаемости, определения интонации высказывания об объекте, ИЦ и др. Описание Предлагается продумать, прописать правила разрешения анафор в тексте для таких классов объектов как: персоны и компании. Оформить правила в виде технического задания. В ходе выполнения задачи необходимо ответить на следующие вопросы: - какие справочники необходимы для решения задачи; - можно ли пременять одинаковые правила для персон и компаний; Предоставляемые материалы: Предполагается обеспечить практиканту корпус размеченных новостных текстов с анафорой. 4. Автоматическое (автоматизированное) заполнение справочника органов законодательной власти субъектов РФ Задача выполняется в рамках создания методологии выделения наименований органов законодательной власти субъектов Российской Федерации. Описание В информационно-аналитической системе имеется справочник органов государственной власти. В справочнике имеется множество карточек органов законодательной власти субъектов Российской Федерации, у которых заполнено только поле «Название». Требуется заполнить в этих карточках поле «Варианты названия». В данном поле должен находиться перечень наименований, референтных органам законодательной власти, употребляемых в текстах новостных сообщений. Предлагается централизованно автоматически сгенерировать варианты названия в карточках справочника. Для этого необходимо создать список моделей (шаблонов) генерации вариантов названия, которые учитывал бы значительную вариативность лингвистического выражения и типичные особенности образования вариантов названия органов законодательной власти субъектов Российской Федерации. В ходе выполнения задачи необходимо ответить на следующие вопросы: - какие шаблоны можно прописать для автогенерации; - как продумать автоматическое заполнение парадигмы - как предусмотреть отсутствие омонимии - написать ТЗ для программистов, чтобы залить шаблоны. Предоставляемые материалы: Карточки справочника 5. Мониторинг информационно-аналитических систем автоматической обработки текста Задача: проанализировать российские и зарубежные системы автоматической обработки СМИ, социальных сетей, других текстовых данных (не менее 10). Необходимо запросить демо-доступ к аналитическим системам (например, Интегрум, Медиалогия, Public.ru, Интерфакс Скан, IQBuzz, Recorded Future, Youscan, Buzzlook, Buzzware, Kribrum, Brandspotter, Wobot, Babkee, Brandoscope, SemanticForce, InfoStream, Ontos и т.п.), протестировать функциональные возможности выбранных систем, оценить визуализацию представления данных. Обратить внимание на такие параметры, как виды и количество источников, удобство в использовании для пользователя, качество предоставляемых данных, формы представления информации, технологии анализа, варианты использования системы (для кого? зачем?), пакеты услуг и тарифы и т.д. Результат: подробный отчет со сравнительной характеристикой программных продуктов. Отдельно указать “сильные” и “слабые” стороны каждой из систем. Предложить свои идеи по использованию тех или иных функциональных возможностей в контексте автоматической обработки текста.