20 математическая лингвистика

Page 1


Учебно-методический комплекс составлен в соответствии с ФГОС ВПО по направлению подготовки 010200.68 Математика и компьютерные науки, утвержденным Приказом Министерства образования и науки Российской Федерации 21 декабря 2009 г., регистрационный № 760 Учебно-методический комплекс разработан Е. В. Котельниковым, канд. техн. наук, доцентом кафедры прикладной математики и информатики ВятГГУ Рецензент – С. М. Окулов, д-р пед. наук, профессор кафедры прикладной математики и информатики ВятГГУ

Учебно-методический комплекс утвержден на заседании кафедры прикладной математики и информатики ВятГГУ «28» июня 2012, протокол №10

© Вятский государственный гуманитарный университет (ВятГГУ), 2012 © Котельников Е. В., 2012 2


Рабочая программа учебной дисциплины «Математическая лингвистика» 1. ПОЯСНИТЕЛЬНАЯ ЗАПИСКА 1.1. Цели и задачи освоения учебной дисциплины «Математическая лингвистика» Цель дисциплины: формирование знаний и представлений о принципах и методах, используемых при автоматической обработке текстов; подготовка к их грамотному и эффективному применению. Задачи дисциплины:  изучение общих математических принципов автоматической обработки текстов;  изучение основных методов и технологий математической лингвистики;  формирование умений и навыков по эффективному применению инструментов автоматической обработки текстов;  ознакомление с основными тенденциями развития математической лингвистики;  развитие всех видов мышления в процессе творческого исследования принципов, методов и средств математической лингвистики;  обучение самостоятельному поиску и использованию нормативнотехнической и справочной литературы и электронных источников информации;  воспитание творческого подхода к решению проблем, возникающих в процессе профессиональной деятельности;  воспитание активной и самостоятельной личности с нравственной позицией и нравственным самопознанием. 1.2. Место дисциплины в структуре ООП ВПО Учебная дисциплина «Математическая лингвистика» относится к вариативной части профессионального цикла (М.2.8), является дисциплиной по выбору, изучается во втором семестре на первом курсе и основывается на учебном материале дисциплин, «История и методология компьютерных наук», «Компьютерные технологии в науке и образовании», «Интеллектуальный анализ данных». Учебная дисциплина «Математическая лингвистика» изучается одновременно с дисциплиной «История и методология математики» и тесно связана с ней. Знания, умения и навыки, полученные при изучении дисциплины «Математическая лингвистика», могут быть использованы при изучении

3


следующих дисциплин 2-го курса: «Математические методы обработки информации» и «Технология создания обучающих программ». Требования к знаниям, умениям, навыкам студента, необходимым для изучения дисциплины «Математическая лингвистика» Знать: 1. Основы теории вероятностей и математической статистики. 2. Основы алгебры логики. 3. Основные алгоритмические конструкции языка программирования высокого уровня (например, Паскаля). Уметь: 1. Анализировать вероятностные распределения. 2. Строить таблицы истинности для базовых логических функций. 3. Составлять и запускать программы на языке программирования высокого уровня (например, Паскаля). Владеть: 1. Навыками решения задач по теории вероятностей и математической статистике. 2. Навыками решения задач по математической логике. 3. Навыками решения задач на языке программирования высокого уровня (например, Паскаля). 1.3. Компетенции обучающегося, формируемые в результате освоения дисциплины В результате освоения дисциплины обучающийся должен демонстрировать следующие результаты образования: 1. Способность работать в междисциплинарной команде (ОК-1). 1) знать: общенаучные методы познания; 2) уметь: применять основные методы познания на практике; при решении задачи ставить цель; 3) владеть: методами выбора путей достижения поставленной цели. 2. Способность общаться со специалистами из других областей (ОК-2). 1) знать: основные подходы к исследовательской деятельности; 2) уметь: работать в коллективе; 3) владеть: способами организации решения задач в коллективе. 3. Способность порождать новые идеи и применять в научноисследовательской и профессиональной деятельности базовые знания в области фундаментальной и прикладной математики и естественных наук (ОК-5). 1) знать: методы фундаментальной и прикладной математики; 2) уметь: применять методы математики и естественных наук; 4


3) владеть: способами решения задач в научно-исследовательской и профессиональной деятельности. 4. Способность к постоянному совершенствованию и углублению своих знаний, инициативность и стремление к лидерству (ОК-7). 1) знать: принципы совершенствования своих знаний; 2) уметь: углублять свои знания; 3) владеть: приемами совершенствования и углубления своих знаний. 5. Владение методами математического моделирования при анализе глобальных проблем на основе глубоких знаний фундаментальных математических дисциплин и компьютерных наук (ПК-1). 1) знать: методы математического моделирования; 2) уметь: применять методы математического моделирования при анализе глобальных проблем; 3) владеть: приемами математического моделирования. 6. Определение общих форм, закономерностей, инструментальных средств для групп дисциплин (ПК-10). 1) знать: универсальные формы и закономерности для групп дисциплин; 2) уметь: применять универсальные закономерности для групп дисциплин; 3) владеть: инструментальными средствами для групп дисциплин. 7. Умение формулировать в проблемно-задачной форме нематематические типы знаний (в том числе гуманитарные) (ПК-14). 1) знать: формы представления нематематических типов знаний; 2) уметь: формулировать нематематические типы знаний; 3) владеть: приемами представления нематематических типов знаний. 2. КРАТКИЕ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ДЛЯ ПРЕПОДАВАТЕЛЯ Учебная дисциплина «Математическая лингвистика» рассчитана на один семестр и включает 10 разделов. По каждому разделу существует обширная учебная и научная литература. Рекомендуется давать студентам задания по поиску и написанию рефератов по каждой теме, а также по переводу не менее чем одной статьи на английском языке. При этом можно использовать такие ресурсы как сборники трудов конференций «Диалог» и «Электронные библиотеки», а также сайт http://citeseerx.ist.psu.edu. В ходе изучения дисциплины требуется, чтобы студенты прочно освоили базовые понятия и принципы автоматической обработки текстов на 5


естественном языке: процессы морфологического, синтаксического и семантического анализа текстов, методы решения задач поиска, классификации, кластеризации, аннотирования, извлечения информации, машинного перевода. Рассмотрение алгоритмов и методов хоть и является важной частью подготовки студентов по данной дисциплине, но не должно быть самоцелью. Большее внимание следует уделяться практическому применению методов математической лингвистики. Следует стремиться к тому, чтобы студенты самостоятельно реализовывали существенную часть из рассматриваемых алгоритмов. Каждое лекционное занятие сопровождается презентацией. Лекционные занятия проводятся в интерактивном режиме, используются приемы современных образовательных технологий: развития критического мышления, проблемного обучения, мастерских, адаптивного обучения, уровневой дифференциации и др. Лабораторные занятия проводятся в компьютерных кабинетах, компьютеры в которых оснащены необходимыми программами. Каждый студент на занятии получает развернутый план лабораторной работы в электронном или текстовом варианте. Сведения о рекомендуемых к использованию преподавателем образовательных технологий и материально-техническом обеспечении учебной дисциплины «Математическая лингвистика». № п/п

1. 2. 3. 4. 5.

Образовательная технология, рекомендуемая к использованию в преподавании учебной дисциплины

Рекомендуемые средства обучения

Мультимедийный проектор Интерактивная доска Наборы слайдов Визуальные среды программирования

Информационная лекция Проблемная лекция Лекция-беседа Лекция-консультация Электронный практикум

Сведения о занятиях, проводимых в интерактивных формах № п/п 1

Общий объем (по РУП) в часах / в процентах

Показатель Занятия, проводимые в интерактивных формах

6

очная 18 часов / 56%


3. СТРУКТУРА И СОДЕРЖАНИЕ УЧЕБНОЙ ДИСЦИПЛИНЫ «МАТЕМАТИЧЕСКАЯ ЛИНГВИСТИКА» 3.1. Объем учебной дисциплины и виды учебной работы Общая трудоемкость дисциплины составляет 3 зачетные единицы, 108 часов. № п/п 1 2 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 3 3.1. 3.2. 3.3. 3.4. 3.5. 4

Общий объем (по РУП) в часах очная 108 32

Виды учебной работы Трудоемкость (по ФГОС ВПО) Аудиторные занятия, всего в том числе: Лекции Лабораторные работы Практические занятия Семинарские занятия Коллоквиумы Прочие виды аудиторных занятий Самостоятельная работа студентов, всего в том числе: Контрольная работа Курсовая работа Научно-исследовательская работа Практика Прочие виды самостоятельной работы Вид промежуточного контроля

14 18

76

76 зачет

3.2. Матрица соотнесения тем учебной дисциплины и формируемых в них профессиональных и общекультурных компетенций

Тема 1. Введение Тема 2. Информационные и статистические характеристики текстов Тема 3. Морфологический анализ Тема 4. Синтаксический анализ Тема 5. Семантический анализ Тема 6. Электронные словари и тезаурусы

8 12

ПК-14

ПК-10

ПК-1

ОК-7

ОК-5

ЧАСОВ

ОК-2

ТЕМЫ УЧЕБНОЙ ДИСЦИПЛИНЫ

КОЛИЧЕСТВО

ОК-1

КОМПЕТЕНЦИИ

+ +

10

1

10

+

1

+

8

1 +

7

ОБЩЕЕ КОЛИЧЕСТВО КОМПЕТЕНЦИЙ

1 2

+

+

10

Σ

1


Тема 7. Задачи информационного поиска Тема 8. Задачи классификации, кластеризации и аннотирования Тема 9. Задачи извлечения информации из текстов Тема 10. Машинный перевод ИТОГО

12

+

+

14

2 +

12

+

+

12 108

+ 2

2

+ 2

2

1 2

2

2

2

2

3.3. Содержание тем учебной дисциплины «Математическая лингвистика» Тема 1. Введение Цели и задачи автоматической обработки текста и компьютерной лингвистики. Основные проблемы и методология их решения. Базовые определения и понятия. История возникновения и развития компьютерной лингвистики. Тема 2. Информационные и статистические характеристики текстов Энтропия лингвистического эксперимента. Определение количества информации в текстах на естественном языке. Контекстная обусловленность и избыточность текста. Измерение смысловой информации в тексте. Частотные характеристики словника. Закон Ципфа. Закон Мандельброта. Смысловые интерпретации законов, описывающих частотные характеристики словарей и их универсальность в задачах информатики. Тема 3. Морфологический анализ Морфологический разбор слов естественного языка. Модели построения компьютерных морфологий. Словарные морфологии, модели и проблемы их использования. Аналитические методы морфологического разбора при автоматической обработке текстов. Проблемы морфологического разбора. Тема 4. Синтаксический анализ Задача синтаксического разбора. Модели синтаксического анализа. Синтаксический граф предложения на естественном языке. Проблемы синтаксического анализа. Тема 5. Семантический анализ Локальный и глобальный семантический анализ. Метаязык семантических структур. Единицы семантического анализа. Основные этапы 8


семантического анализа. Связность и смысловое сжатие текста. Ситуация и ситуативное представление. Тема 6. Электронные словари и тезаурусы Понятия и виды электронных словарей и тезаурусов. Организация электронных словарей. Эффективные алгоритмы и форматы хранения словарей. Пословные переводчики. Псевдоморфология в задаче поиска по словарю. Синонимические ряды дескрипторов. Тезаурусы WordNet и РуТез. Тема 7. Задачи информационного поиска Понятие информационного поиска. Булев поиск. Способы индексирования. Сжатие индекса. Вероятностная модель информационного поиска. Функции ранжирования и способы представления результатов поиска. Оценка информационного поиска. Тема 8. Задачи классификации, кластеризации и аннотирования Постановка задач классификации, кластеризации, аннотирования. Векторная модель представления текстов. Методы отбора и взвешивания терминов. Методы классификации текстов. Методы кластеризации текстов. Методы автоматического аннотирования. Тема 9. Задачи извлечения информации из текстов Постановка задач извлечения информации из текстов. Методы извлечения информации. Способы представления фактов и знаний. Тема 10. Машинный перевод Автоматический перевод текстов с одного естественного языка на другой как центральная проблема компьютерной лингвистики. Математические аспекты: алгоритм Кока. Различные типы систем машинного перевода.

9


3.4. Тематический план учебной дисциплины «Математическая лингвистика» а) аудиторные занятия Темы учебной дисциплины Тема 1. Введение

Часов Вид учебной работы Лекция

очная 1

Технология обучения Информационная лекция Проблемная лекция Электронный практикум

Форма текущего контроля Опрос

Тема 2. Информационные и статистические характеристики текстов Тема 3. Морфологический анализ

Лекция

1

Лабораторное занятие

4

Лекция

1

Лекция-беседа

Лабораторное занятие

4

Электронный практикум

Тема 4. Синтаксический анализ

Лекция

1

Лабораторное занятие

2

Проблемная лекция Электронный практикум

Тема 5. Лекция Семантический анализ Лабораторное занятие

2

Тема 6. Электронные словари и тезаурусы

Лекция

2

Лабораторное занятие

2

Тема 7. Задачи информационного поиска Тема 8. Задачи классификации, кластеризации и аннотирования

Лекция

2

Информационная лекция

Лекция

2

Лекция-беседа

Опрос

Лабораторное занятие

2

Электронный практикум

Тема 9. Задачи извлечения информации из текстов

Лекция

2

Лабораторное занятие

2

Информационная лекция Электронный практикум

Защита лабораторного практикума Опрос

2

10

Лекцияконсультация Электронный практикум Проблемная лекция Электронный практикум

Контрольная работа Защита лабораторного практикума Контрольная работа Защита лабораторного практикума Контрольная работа Защита лабораторного практикума Опрос Защита лабораторного практикума Опрос Защита лабораторного практикума Опрос

Защита лабораторного практикума


Тема 10. Машинный перевод Итого

Лекция

Лекция-беседа

2

Контрольная работа

54

б) самостоятельная аудиторная работа Темы учебной дисциплины Тема 1. Введение

Тема 2. Информационные и статистические характеристики текстов

Вид учебной работы (форма самостоятельной работы) Проработка конспекта лекции; подготовка к проверочной работе Проработка конспекта лекции. Лабораторнопрактические занятия; подготовка к контрольной работе; самостоятельное решение задач

Тема 3. ЛабораторноМорфологический практические занятия; анализ подготовка к контрольной работе; самостоятельное решение задач Тема 4. ЛабораторноСинтаксический практические занятия; анализ подготовка к контрольной работе; самостоятельное решение задач Тема 5. Проработка конспекта Семантический лекции; анализ подготовка к проверочной работе Тема 6. Электронные словари и тезаурусы

Проработка конспекта лекции; подготовка к проверочной работе

Тема 7. Задачи информационного поиска

Работа с первоисточниками

Результат ОК-2: 1) знать: основные подходы к исследовательской деятельности; 2) уметь: работать в коллективе ОК-1: 1) знать: общенаучные методы познания; 2) уметь: применять основные методы познания на практике; при решении задачи ставить цель; ПК-10: 1) знать: универсальные формы и закономерности для групп дисциплин; 2) уметь: применять универсальные закономерности для групп дисциплин ОК-7: 1) знать: принципы совершенствования своих знаний; 2) уметь: углублять свои знания ПК-10: 1) знать: универсальные формы и закономерности для групп дисциплин; 2) уметь: применять универсальные закономерности для групп дисциплин ПК-1: 1) знать: методы математического моделирования; 2) уметь: применять методы математического моделирования при анализе глобальных проблем ПК-14: 1) знать: формы представления нематематических типов знаний; 2) уметь: формулировать нематематические типы знаний ОК-2: 1) знать: основные подходы к исследовательской деятельности; 2) уметь: работать в коллективе;

11


Тема 8. Задачи классификации, кластеризации и аннотирования

Проработка конспекта лекции; подготовка к проверочной работе

Тема 9. Задачи извлечения информации из текстов

Проработка конспекта лекции; подготовка к проверочной работе

Тема 10. Машинный перевод

Лабораторнопрактические занятия; подготовка к контрольной работе; самостоятельное решение задач

ОК-5: 1) знать: методы фундаментальной и прикладной математики; 2) уметь: применять методы математики и естественных наук ОК-7: 1) знать: принципы совершенствования своих знаний; 2) уметь: углублять свои знания; ПК-14: 1) знать: формы представления нематематических типов знаний; 2) уметь: формулировать нематематические типы знаний ПК-1: 1) знать: методы математического моделирования; 2) уметь: применять методы математического моделирования при анализе глобальных проблем ОК-1: 1) знать: общенаучные методы познания; 2) уметь: применять основные методы познания на практике; при решении задачи ставить цель; ОК-5: 1) знать: методы фундаментальной и прикладной математики; 2) уметь: применять методы математики и естественных наук

в) занятия в интерактивных формах

№ п/п 1 2 3 4 5 6

ТЕМЫ УЧЕБНОЙ ДИСЦИПЛИНЫ

Общий объем (по РУП) в часах очная

Тема 2. Информационные и статистические характеристики текстов Тема 3. Морфологический анализ Тема 4. Синтаксический анализ Тема 7. Задачи информационного поиска Тема 8. Задачи классификации, кластеризации и аннотирования Тема 9. Задачи извлечения информации из текстов

Итого

12

4 2 2 2 2 4 18


г) самостоятельная внеаудиторная работа

Темы учебной дисциплины Тема 1. Введение Тема 2. Информационные и статистические характеристики текстов Тема 3. Морфологически й анализ Тема 4. Синтаксический анализ Тема 5. Семантический анализ Тема 6. Электронные словари и тезаурусы

Вид учебной работы (форма самостоятельной работы) Работа с первоисточниками Подготовка к лабораторным занятиям

Часов очная

Результат

8

ОК-2: навык организации решения задач в коллективе ОК-1: навык выбора путей достижения поставленной цели; ПК-10: навык владения инструментальными средствами для групп дисциплин ОК-7: навык владения приемами совершенствования и углубления своих знаний ПК-10: навык владения инструментальными средствами для групп дисциплин ПК-1: навык владения приемами математического моделирования

8

Подготовка к лабораторным занятиям Подготовка к лабораторным занятиям Изучение материала, вынесенного на самостоятельную проработку Работа с первоисточниками

8

6

ПК-14: навык владения приемами представления нематематических типов знаний

Реферат

6

Работа с первоисточниками

8

Подготовка к лабораторным занятиям

8

ОК-2: навык организации решения задач в коллективе; ОК-5: навык владения способами решения задач в научноисследовательской и профессиональной деятельности ОК-7: навык владения приемами совершенствования и углубления своих знаний; ПК-14: навык владения приемами представления нематематических типов знаний ПК-1: навык владения приемами математического моделирования

Подготовка к лабораторным занятиям

8

8

8

Тема 7. Задачи информационного поиска

Тема 8. Задачи классификации, кластеризации и аннотирования Тема 9. Задачи извлечения информации из текстов Тема 10. Машинный перевод Итого

76 13

ОК-1: навык выбора путей достижения поставленной цели; ОК-5: навык владения способами решения задач в научноисследовательской и профессиональной деятельности


4. МЕТОДИЧЕСКИЕ УКАЗАНИЯ ДЛЯ СТУДЕНТОВ Тема 1. Введение Аудиторные занятия Лекция 1. Введение в математическую лингвистику План лекции: 1. Цели и задачи автоматической обработки текста и компьютерной лингвистики. 2. Основные проблемы и методология их решения. 3. История возникновения и развития компьютерной лингвистики. Самостоятельная аудиторная работа по теме учебной дисциплины № п/п

Вид самостоятельной работы Общая

1

Форма самостоятельной работы Проработка конспекта лекции; подготовка к проверочной работе

Форма отчетности Конспект лекции

Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1

Вид самостоятельной работы Общая

Форма самостоятельной работы Работа с первоисточниками

Срок сдачи

Форма отчетности

2-я неделя семестра

Конспект

Тема 2. Информационные и статистические характеристики текстов Аудиторные занятия Лекция 2. Информационные и статистические характеристики текстов План лекции: 1. Определение количества информации в текстах на естественном языке. 2. Контекстная обусловленность и избыточность текста. 3. Измерение смысловой информации в тексте. 4. Частотные характеристики словника. 5. Закон Ципфа. Закон Мандельброта. 6. Смысловые интерпретации законов, описывающих частотные характеристики словарей и их универсальность в задачах информатики. 14


Лабораторная работа №1. Информационные и статистические характеристики текстов Цель: обеспечить формирование навыков и умений находить информационные и статистические характеристики текстов. План: 1. Фронтальный опрос: «Информационные и статистические характеристики текстов». 2. Решение задач на нахождение информационных и статистических характеристик текстов. 3. Подведение итогов, домашнее задание. Самостоятельная аудиторная работа по теме учебной дисциплины Вид № самостоятельной Форма самостоятельной работы п/п работы 1 Общая Проработка конспекта лекции. Лабораторно-практические занятия; подготовка к контрольной работе; самостоятельное решение задач

Форма отчетности Конспект лекции; отчет по лабораторной работе; тест

Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на лабораторных занятиях. Занятия проводятся по следующей схеме: постановка проблемы – решение проблемы – рефлексия. На первом этапе перед обучаемыми формулируется проблема/задача и обсуждаются возможные пути/варианты решения обозначенной проблемы. На этом этапе происходит активный обмен мнениями в процессе межличностного взаимодействия. На следующем этапе каждый студент выбирает для себя оптимальный, по его мнению, вариант решения обозначенной задачи и переходит к самостоятельной реализации этого решения на компьютере. В ходе третьего этапа происходит коллективное обсуждение полученных результатов, включающее в себя анализ правильности полученных решений, их сравнение, оценку эффективности предложенных алгоритмов и выбор среди них оптимального. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п

Вид самостоятельной работы

1

Общая

Форма самостоятельной работы ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К ТЕСТУ.

15

Срок сдачи

Форма отчетности

3-я неделя семестра

Отчет по лабораторной работе. Тест


Тема 3. Морфологический анализ Аудиторные занятия Лекция 3. Морфологический анализ План лекции: 1. Морфологический разбор слов естественного языка. 2. Модели построения компьютерных морфологий. 3. Словарные морфологии, модели и проблемы их использования. 4. Аналитические методы морфологического разбора при автоматической обработке текстов. 5. Проблемы морфологического разбора. Лабораторная работа № 2. Разработка программы морфологического анализа Цель: обеспечить формирование у студентов навыков разработки программ морфологического анализа. План: 1. Фронтальный опрос по теме. 2. Написание программы морфологического анализа. 3. Подведение итогов и информация о домашнем задании.

и

умений

Самостоятельная аудиторная работа по теме учебной дисциплины № Вид самостоятельной работы п/п 1 Общая

Форма самостоятельной работы ФОРМУЛИРОВАНИЕ ВОПРОСОВ К ЛЕКТОРУ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ.

Форма отчетности Конспект лекции; отчет по лабораторной работе.

Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на лабораторных занятиях. Занятия проводятся по следующей схеме: постановка проблемы – решение проблемы – рефлексия. На первом этапе перед обучаемыми формулируется проблема/задача и обсуждаются возможные пути/варианты решения обозначенной проблемы. На этом этапе происходит активный обмен мнениями в процессе межличностного взаимодействия. На следующем этапе каждый студент выбирает для себя оптимальный, по его мнению, вариант решения обозначенной задачи и переходит к самостоятельной реализации этого решения на компьютере. В ходе третьего этапа происходит коллективное обсуждение полученных результатов, включающее в себя анализ

16


правильности полученных решений, их сравнение, оценку эффективности предложенных алгоритмов и выбор среди них оптимального. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1

Вид самостоятельной работы Общая

Форма самостоятельной работы

Срок сдачи

Форма отчетности

4-я неделя семестра

Конспект. Отчет по лабораторной работе.

РАБОТА С ПЕРВОИСТОЧНИКАМИ. ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. РЕШЕНИЕ ДОМАШНЕГО ЗАДАНИЯ. ПОДГОТОВКА К КОНТРОЛЬНОЙ РАБОТЕ.

Тема 4. Синтаксический анализ Аудиторные занятия Лекция 4. Синтаксический анализ План лекции: 1. Задача синтаксического разбора. 2. Модели синтаксического анализа. 3. Синтаксический граф предложения на естественном языке. 4. Проблемы синтаксического анализа Лабораторная работа № 3. Разработка программы синтаксического анализа Цель: обеспечить формирование у студентов навыков разработки программ синтаксического анализа. План: 1. Фронтальный опрос по теме. 2. Написание программы синтаксического анализа 3. Самостоятельная работа. 4. Подведение итогов и информация о домашнем задании.

и

умений

Самостоятельная аудиторная работа по теме учебной дисциплины Вид № самостоятельной п/п работы

Форма самостоятельной работы

17

Форма отчетности


Общая

1

СЛЕЖЕНИЕ ЗА ПЛАНОМ ЧТЕНИЯ Конспект лекции; отчет ЛЕКЦИИ, ПРОРАБОТКА КОНСПЕКТА по лабораторной работе. ЛЕКЦИИ. КОЛЛЕКТИВНОЕ ОБСУЖДЕНИЕ МАТЕРИАЛА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. САМОСТОЯТЕЛЬНОЕ РЕШЕНИЕ ЗАДАЧ.

Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на лабораторных занятиях. Занятия проводятся по следующей схеме: постановка проблемы – решение проблемы – рефлексия. На первом этапе перед обучаемыми формулируется проблема/ задача и обсуждаются возможные пути/ варианты решения обозначенной проблемы. На этом этапе происходит активный обмен мнениями в процессе межличностного взаимодействия. На следующем этапе каждый студент выбирает для себя оптимальный, по его мнению, вариант решения обозначенной задачи и переходит к самостоятельной реализации этого решения на компьютере. В ходе третьего этапа происходит коллективное обсуждение полученных результатов, включающее в себя анализ правильности полученных решений, их сравнение, оценку эффективности предложенных алгоритмов и выбор среди них оптимального. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1

Вид самостоятельной работы Общая

Форма самостоятельной работы ИЗУЧЕНИЕ МАТЕРИАЛА, ВЫНЕСЕННОГО НА САМОСТОЯТЕЛЬНУЮ ПРОРАБОТКУ. ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ

Срок сдачи

Форма отчетности

5-я неделя семестра

Отчет по лабораторной работе

Тема 5. Семантический анализ Аудиторные занятия Лекция 5. Семантический анализ План лекции: 1. Локальный и глобальный семантический анализ. 2. Метаязык семантических структур. 3. Единицы семантического анализа. 4. Основные этапы семантического анализа. 18


5. Связность и смысловое сжатие текста. 6. Ситуация и ситуативное представление. Лабораторная работа №4. Разработка программы семантического анализа Цель: обеспечить формирование у студентов навыков и умений разработки программ семантического анализа. План: 1. Фронтальный опрос по теме. 2. Написание программы семантического анализа 3. Самостоятельная работа. 5. Подведение итогов, анализ ошибок, информация о домашнем задании. Самостоятельная аудиторная работа по теме учебной дисциплины Вид № самостоятельной Форма самостоятельной работы Форма отчетности п/п работы 1 Общая АНАЛИЗ МАТЕРИАЛА ЛЕКЦИИ И Конспект лекции; отчет ПОИСК ОШИБОК, ПРОРАБОТКА по лабораторной работе КОНСПЕКТА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ ИНСТРУКЦИЯМИ.

С

Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на лабораторных занятиях. Занятия проводятся по следующей схеме: постановка проблемы – решение проблемы – рефлексия. На первом этапе перед обучаемыми формулируется проблема/задача и обсуждаются возможные пути/варианты решения обозначенной проблемы. На этом этапе происходит активный обмен мнениями в процессе межличностного взаимодействия. На следующем этапе каждый студент выбирает для себя оптимальный, по его мнению, вариант решения обозначенной задачи и переходит к самостоятельной реализации этого решения на компьютере. В ходе третьего этапа происходит коллективное обсуждение полученных результатов, включающее в себя анализ правильности полученных решений, их сравнение, оценку эффективности предложенных алгоритмов и выбор среди них оптимального. Самостоятельная внеаудиторная работа по теме учебной дисциплины Вид № Форма самостоятельной самостоятельной п/п работы работы 1 Общая РАБОТА С ПЕРВОИСТОЧНИКАМИ. ИЗУЧЕНИЕ МАТЕРИАЛА, ВЫНЕСЕННОГО НА

19

Срок сдачи

Форма отчетности

6-я неделя семестра

Конспект. Отчет по лабораторной


САМОСТОЯТЕЛЬНУЮ ПРОРАБОТКУ. ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К КОНТРОЛЬНОЙ РАБОТЕ.

работе. Контрольная работа.

Тема 6. Электронные словари и тезаурусы Аудиторные занятия Лекция 6. Электронные словари и тезаурусы План лекции: 1. Понятия и виды электронных словарей и тезаурусов. 2. Организация электронных словарей. 3. Эффективные алгоритмы и форматы хранения словарей. 4. Пословные переводчики. 5. Синонимические ряды дескрипторов. 6. Тезаурусы WordNet и РуТез. Лабораторная работа №5. Разработка электронного словаря Цель: обеспечить усвоение студентами принципов разработки электронных словарей. План: 1. Фронтальный опрос по теме. 2. Написание программы электронного словаря 3. Самостоятельная работа. 4. Подведение итогов, анализ ошибок, информация о домашнем задании. Самостоятельная аудиторная работа по теме учебной дисциплины Вид № самостоятельной Форма самостоятельной работы Форма отчетности п/п работы 1 Общая ПРЕДСТАВЛЕНИЕ МАТЕРИАЛА ЛЕКЦИИ Конспект лекции; отчет В ВИДЕ ТАБЛИЦ, СХЕМ И ПР. по лабораторной работе ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. РАБОТА В МАЛЫХ ГРУППАХ: ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ.

Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на лабораторных занятиях. Занятия проводятся по следующей схеме: постановка проблемы – решение проблемы – рефлексия. На первом этапе перед обучаемыми формулируется проблема/ задача и обсуждаются возможные пути/ варианты решения обозначенной проблемы. 20


На этом этапе происходит активный обмен мнениями в процессе межличностного взаимодействия. На следующем этапе каждый студент выбирает для себя оптимальный, по его мнению, вариант решения обозначенной задачи и переходит к самостоятельной реализации этого решения на компьютере. В ходе третьего этапа происходит коллективное обсуждение полученных результатов, включающее в себя анализ правильности полученных решений, их сравнение, оценку эффективности предложенных алгоритмов и выбор среди них оптимального. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п

Вид самостоятельной работы

1

Общая

Форма самостоятельной работы ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ

Срок сдачи

Форма отчетности

8-я неделя семестра

Отчет по лабораторной работе

Тема 7. Задачи информационного поиска Аудиторные занятия Лекция 7. Задачи информационного поиска План лекции: 1. Понятие информационного поиска. 2. Булев поиск. 3. Способы индексирования. 4. Сжатие индекса. 5. Вероятностная модель информационного поиска. 6. Функции ранжирования и способы представления результатов поиска. 7. Оценка информационного поиска. Самостоятельная аудиторная работа по теме учебной дисциплины Вид № самостоятельной Форма самостоятельной работы п/п работы 1 Общая Слежение за планом чтения лекции, проработка конспекта лекции.

Форма отчетности Конспект лекций.

Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1

Вид самостоятельной работы Общая

Форма самостоятельной работы ИЗУЧЕНИЕ 21

Срок сдачи

Форма отчетности

9-я неделя

Конспект.


МАТЕРИАЛА, ВЫНЕСЕННОГО НА САМОСТОЯТЕЛЬНУЮ ПРОРАБОТКУ. ПОДГОТОВКА К ТЕСТУ.

семестра

Тема 8. Задачи классификации, кластеризации и аннотирования Аудиторные занятия Лекция 8. Задачи классификации, кластеризации и аннотирования План лекции: 1. Постановка задач классификации, кластеризации, аннотирования. 2. Векторная модель представления текстов. 3. Методы отбора и взвешивания терминов. 4. Методы классификации текстов. 5. Методы кластеризации текстов. 6. Методы автоматического аннотирования. Лабораторная работа №6. Разработка программы классификации Цель: обеспечение отработки студентами умений разрабатывать программы классификации. План: 1. Повторение основного теоретического материала. 2. Написание программы электронного словаря 3. Самостоятельная работа. 4. Подведение итогов, информация о домашнем задании. Самостоятельная аудиторная работа по теме учебной дисциплины Вид № самостоятельной Форма самостоятельной работы п/п работы 1 Общая Слежение за планом чтения лекции, проработка конспекта лекции, подготовка ответов на вопросы лектора. Выполнение лабораторной работы в соответствии с инструкциями.

Форма отчетности Конспект лекций; отчет по лабораторной работе

Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на лабораторных занятиях. Занятия проводятся по следующей схеме: постановка проблемы – решение проблемы – рефлексия. На первом этапе перед обучаемыми формулируется проблема/задача и обсуждаются возможные пути/варианты решения обозначенной проблемы. 22


На этом этапе происходит активный обмен мнениями в процессе межличностного взаимодействия. На следующем этапе каждый студент выбирает для себя оптимальный, по его мнению, вариант решения обозначенной задачи и переходит к самостоятельной реализации этого решения на компьютере. В ходе третьего этапа происходит коллективное обсуждение полученных результатов, включающее в себя анализ правильности полученных решений, их сравнение, оценку эффективности предложенных алгоритмов и выбор среди них оптимального. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1

Вид самостоятельной работы Общая

Форма самостоятельной работы

Срок сдачи

Форма отчетности

11-я неделя семестра

Отчет по лабораторной работе

ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К КОНТРОЛЬНОЙ РАБОТЕ.

Тема 9. Задачи извлечения информации из текстов Аудиторные занятия Лекция 9. Задачи извлечения информации из текстов План лекции: 1. Постановка задач извлечения информации из текстов. 2. Методы извлечения информации. 3. Способы представления фактов и знаний. Лабораторная работа №7. Разработка программы извлечения информации Цель: обеспечение отработки студентами умений разрабатывать программы извлечения информации. План: 1. Повторение основного теоретического материала. 2. Написание программы извлечения информации 3. Самостоятельная работа. 4. Подведение итогов, информация о домашнем задании. Самостоятельная аудиторная работа по теме учебной дисциплины № Вид п/п самостоятельной

Форма самостоятельной работы

23

Форма отчетности


работы Общая

1

Слежение за планом чтения лекции, проработка конспекта лекции, подготовка ответов на вопросы лектора. Выполнение лабораторной работы в соответствии с инструкциями.

Конспект лекций; отчет по лабораторной работе

Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на лабораторных занятиях. Занятия проводятся по следующей схеме: постановка проблемы – решение проблемы – рефлексия. На первом этапе перед обучаемыми формулируется проблема/задача и обсуждаются возможные пути/варианты решения обозначенной проблемы. На этом этапе происходит активный обмен мнениями в процессе межличностного взаимодействия. На следующем этапе каждый студент выбирает для себя оптимальный, по его мнению, вариант решения обозначенной задачи и переходит к самостоятельной реализации этого решения на компьютере. В ходе третьего этапа происходит коллективное обсуждение полученных результатов, включающее в себя анализ правильности полученных решений, их сравнение, оценку эффективности предложенных алгоритмов и выбор среди них оптимального. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1

Вид самостоятельной работы Общая

Форма самостоятельной работы

Срок сдачи

Форма отчетности

12-я неделя семестра

Отчет по лабораторной работе

ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К КОНТРОЛЬНОЙ РАБОТЕ.

Тема 10. Машинный перевод Аудиторные занятия Лекция 10. Машинный перевод План лекции: 1. Автоматический перевод текстов с одного естественного языка на другой как центральная проблема компьютерной лингвистики. 2. Математические аспекты: алгоритм Кока. 3. Различные типы систем машинного перевода.

24


Самостоятельная аудиторная работа по теме учебной дисциплины Вид № самостоятельной Форма самостоятельной работы Форма отчетности п/п работы 1 Общая СЛЕЖЕНИЕ ЗА ПЛАНОМ ЧТЕНИЯ Конспект лекции; отчет ЛЕКЦИИ, ПРОРАБОТКА КОНСПЕКТА по лабораторной работе; ЛЕКЦИИ. ПРОВЕРОЧНАЯ РАБОТА. письменная контрольная работа

Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1

Вид самостоятельной работы Общая

Форма самостоятельной работы

Срок сдачи

Форма отчетности

14-я неделя семестра

Контрольная работа.

РАБОТА С ПЕРВОИСТОЧНИКАМИ. ПОДГОТОВКА К ПРОВЕРОЧНОЙ РАБОТЕ.

Перечень вопросов для самостоятельного изучения и рекомендации по выполнению заданий 1. Тема: «Информационные и статистические характеристики текстов» Вопросы для самостоятельного изучения: 1. Статистический анализ текстовых корпусов. 2. Эффективность представления данных при анализе текстов. 2. Тема: «Морфологический анализ» Вопросы для самостоятельного изучения: 1. Сравнительный анализ программ морфологического анализа. 2. Словари словоформ. 3. Тема: «Синтаксический анализ» Вопросы для самостоятельного изучения: 1. Сравнительный анализ программ синтаксического анализа. 2. Соревнования систем синтаксического анализа. 4. Тема: «Задачи классификации, кластеризации и аннотирования» Вопросы для самостоятельного изучения: 1. Метод опорных векторов в задаче классификации текстов. 2. Метод Байеса в задаче классификации текстов. 3. Методы кластеризации.

25


Примерная тематика рефератов 1. 2. 3. 4. 5. 6. 7.

Обзор систем морфологического анализа. Обзор систем синтаксического анализа. Обзор систем семантического анализа. Сравнительный анализ методов тематической классификации. Сравнительный анализ методов кластеризации текстов. Сравнительный анализ методов автоматического аннотирования. Задача определения тональности текста.

Форма текущего контроля по теме: письменные контрольные работы Материалы текущего контроля: 1. Перечислите основные задачи автоматической обработки текстов. 2. Назовите основные проблемы компьютерной лингвистики. 3. Охарактеризуйте кратко историю возникновения и развития компьютерной лингвистики. 4. Каким образом определяется количество информации в текстах на естественном языке? 5. Перечислите основные частотные характеристики текстов. 6. Сформулируйте закон Ципфа. 7. Сформулируйте закон Мандельброта. 8. Назовите основные модели построения компьютерных морфологий. 9. Что такое словарные морфологии? 10. Дайте описание аналитических методов морфологического разбора. 11. Охарактеризуйте задачу синтаксического разбора. 12. Перечислите основные модели синтаксического анализа. 13. Что такое синтаксический граф предложения? 14. Охарактеризуйте проблемы синтаксического анализа. 15. В чем разница между локальным и глобальным семантическим анализом? 16. Что представляет собой метаязык семантических структур? 17. Назовите основные этапы семантического анализа. 18. Какие основные способы представления ситуаций? 19. Опишите способы эффективного хранения словарей. 20. Охарактеризуйте организацию электронных словарей. 21. Дайте подробное описание одного из известных вам тезаурусов. 22. Дайте определение релевантности. 23. Что такое булев поиск? 24. Назовите основные методы индексирования. 25. Перечислите основные способы оценки информационного поиска. 26. Что такое векторная модель представления текстов? 27. Назовите основные методы тематической классификации. 28. Назовите основные методы кластеризации. 29. Перечислите основные методы аннотирования. 30. Приведите постановки задач извлечения информации. 26


31. Назовите основные методы извлечения информации. 32. Перечислите основные способы представления фактов и знаний. 33. В чем заключается сложность задачи машинного перевода? 34. Охарактеризуйте алгоритм Кока. 35. Перечислите основные типы систем машинного перевода. 5. ПЕРЕЧЕНЬ ОСНОВНОЙ И ДОПОЛНИТЕЛЬНОЙ ЛИТЕРАТУРЫ Основная литература: 1. Ясницкий, Л.Н. Введение в искусственный интеллект [Текст]: учеб. пособие для студ. вузов, обучающихся по матем. Направлениям и спец. / Л.Н. Ясницкий.-3-е изд., стер.-М.: Академия, 2010. – 176 с. Дополнительная литература: 2. Баранов А.Н. Введение в прикладную лингвистику. – М.: Изд-во ЛКИ, 2007. 3. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. – М.: Вильямс, 2011. 4. Марчук Ю.Н. Компьютерная лингвистика. – М.: АСТ: Восток-Запад, 2007. 4. Апресян Ю.Д. Избранные труды, том 1. – М.: «Восточная литература» РАН, 1995. 5. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. – М.: Издательский центр «Академия», 2006. 6. Люгер Дж. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем. – М.: Издательский дом «Вильямс», 2003. 7. Мельчук И.А. Курс общей морфологии. Том. 1. – Москва-Вена: «Языки русской культуры», Венский славистический альманах, Издательская группа «Прогресс», 1997. 8. Осипов Г.С. Приобретение знаний интеллектуальными системами. – М.: Наука. Физматлит, 1997. 9. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. – М.: Высшая школа, 1977. 10. Рассел С., Норвиг П. Искусственный интеллект: современный подход. – М.: Издательский дом «Вильямс», 2006. 11. Рябцева Н.К. Язык и естественный интеллект. – М.: Academia, 2005. Программное обеспечение и интернет-ресурсы 12. Международная конференция по компьютерной лингвистике «Диалог»: http://dialog-21.ru

13. Всероссийская научная конференция «Электронные библиотеки»: http://rcdl.ru/ 14. Национальная конференция по искусственному интеллекту с международным участием: http://www.raai.org 27


15. Среда программирования Microsoft Visual Studio. 6. СИСТЕМА ОЦЕНКИ КАЧЕСТВА ОСВОЕНИЯ СТУДЕНТАМИ УЧЕБНОЙ ДИСЦИПЛИНЫ «МАТЕМАТИЧЕСКАЯ ЛИНГВИСТИКА» И ФОРМЫ ТЕКУЩЕГО, ПРОМЕЖУТОЧНОГО И ИТОГОВОГО КОНТРОЛЯ 6.1. Шкала баллов по учебной дисциплине В соответствии с Положением о балльно-рейтинговой системе оценки знаний студентов ВятГГУ по учебной дисциплине предусмотрены следующие виды контроля качества знаний студентов: – входной контроль; – межсессионная аттестация; – промежуточная аттестация – зачет. Шкала баллов по учебной дисциплине № п/п

Показатели

Норма баллов

Виды текущей аттестации до рубежной аттестации Посещение аудиторных занятий Контрольная работа Лабораторная работа Рубежный контроль (контрольное мероприятие): тест Виды текущей аттестации после рубежной аттестации

10 5 22 10

Посещение аудиторных занятий Контрольная работа Лабораторная работа

10 5 18

Виды работ и заданий на зачете Два теоретических вопроса Практическое задание Всего баллов за зачет Итого:

12 8 20 100

28


6.2. Фонды оценочных средств для проведения текущего контроля успеваемости и промежуточной аттестации Сводные данные по оценке компетенций № п/п 1.

2.

3.

4.

5.

6.

7.

Результат (освоенные компетенции)

Виды контроля*

Способность работать в междисциплинарной команде (ОК-1) Способность общаться со специалистами из других областей (ОК-2)

п

Контрольная работа Зачет

в

Контрольная работа Контрольная работа Зачет

Темы 1-10

Контрольная работа Зачет

Темы 1-10

Контрольная работа Зачет

Темы 1-10

Контрольная работа Зачет

Темы 1-10

Контрольная работа Зачет

Темы 1-10

Контрольная работа Зачет

Темы 1-10

Способность порождать новые идеи и применять в научноисследовательской и профессиональной деятельности базовые знания в области фундаментальной и прикладной математики и естественных наук (ОК-5) Способность к постоянному совершенствованию и углублению своих знаний, инициативность и стремление к лидерству (ОК-7) Владение методами математического моделирования при анализе глобальных проблем на основе глубоких знаний фундаментальных математических дисциплин и компьютерных наук (ПК-1) Определение общих форм, закономерностей, инструментальных средств для групп дисциплин (ПК-10) Умение формулировать в проблемно-задачной форме нематематические типы знаний (в том числе гуманитарные) (ПК-14)

т р п т р п

т р п т р п

т р п т р п

Формы и методы контроля

Номер раздела / темы (для текущего контроля) Темы 1-10

* в – входной контроль; т – текущий контроль; р – рубежный контроль; п – промежуточная аттестация; и – итоговая аттестация 29


6.2.1. Входной контроль знаний студентов Примерные задания для проверки знаний студентов Задание №1. Дать определение алгоритма, перечислить основные свойства алгоритма, способы его записи. Задание №2. Перечислить приведите примеры.

основные

алгоритмические

конструкции,

Задание №3. Перевести число 100 из десятичной системы счисления в двоичную. Задание №4. Перевести число 11010011 из двоичной системы счисления в десятичную и шестнадцатеричную. Задание №5. Найти значение выражения 578+468 Задание №6. Записать алгоритм решения задачи: определить, является ли введенное пользователем число положительным Задание №7. Записать алгоритм решения задачи: найти все двузначные числа, сумма цифр которых равна заданному числу. Задание №8. Перечислите основные логические операции. Задание №9. Составьте таблицу истинности для логического выражения ((A)B)((AC)), где  - отрицание,  - конъюнкция,  - дизъюнкция. Задание №10. Определить значение логического выражения (x>5)(x=y)((y>0) (y<10)), где  - отрицание,  - конъюнкция,  дизъюнкция  x=12, y=1  x=0, y=0  x=110, y=-9 6.2.2. Текущая аттестация Примерные задания для проведения текущего контроля представлены в разделе 4 УМК. 6.2.3. Материалы для проведения промежуточной аттестации Промежуточная аттестация проводится в форме зачета.

30


Примерный перечень вопросов к зачету 1. Цели и задачи автоматической обработки текста. Основные проблемы и методология их решения. 2. История возникновения и развития компьютерной лингвистики. 3. Энтропия лингвистического эксперимента. Определение количества информации в текстах на естественном языке. 4. Измерение смысловой информации в тексте. Частотные характеристики словника. Закон Ципфа. Закон Мандельброта. 5. Модели построения компьютерных морфологий. 6. Словарные морфологии, модели и проблемы их использования. 7. Аналитические методы морфологического разбора при автоматической обработке текстов. 8. Модели синтаксического анализа. Проблемы синтаксического анализа. 9. Синтаксический граф предложения на естественном языке. 10. Локальный и глобальный семантический анализ. 11. Метаязык семантических структур. Единицы семантического анализа. 12. Основные этапы семантического анализа. 13. Связность и смысловое сжатие текста. Ситуация и ситуативное представление. 14. Виды электронных словарей и тезаурусов. Организация электронных словарей. 15. Эффективные алгоритмы и форматы хранения словарей. 16. Тезаурусы WordNet и РуТез. Синонимические ряды дескрипторов. 17. Понятие информационного поиска. Булев поиск. 18. Способы индексирования. Сжатие индекса. 19. Вероятностная модель информационного поиска. 20. Функции ранжирования и способы представления результатов поиска. Оценка информационного поиска. 21. Постановка задач классификации, кластеризации, аннотирования. Векторная модель представления текстов. 22. Методы отбора и взвешивания терминов. 23. Методы классификации текстов. 24. Методы кластеризации текстов. 25. Методы автоматического аннотирования. 26. Методы извлечения информации. Способы представления фактов и знаний. 27. Методы машинного перевода. Виды систем машинного перевода. Примерный перечень практических заданий к зачету 1. Написать программу вычисления информационных и статистических характеристик текста. 2. Написать программу морфологического анализа. 31


3. Написать программу синтаксического анализа. 4. Написать программу семантического анализа. 5. Написать программу-оболочку электронного словаря. 6. Написать программу интернет-поисковика. 7. Написать программу классификации текстов. 8. Написать программу кластеризации текстов. 9. Написать программу аннотирования текстов. 10. Написать программу извлечения фактов из текста. 11. Написать программу машинного перевода. 6.3. Материалы, устанавливающие содержание и порядок проведения итоговой аттестации Содержание учебной дисциплины «Математическая лингвистика» не входит в перечень вопросов государственного экзамена.

32


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.