Учебно-методический комплекс составлен в соответствии с ФГОС ВПО по направлению подготовки 010200.68 Математика и компьютерные науки (квалификация (степень) «магистр»), профиль подготовки «Алгебра и дискретная математика», утвержденным Приказом Министерства образования и науки Российской Федерации (21 декабря 2009 г., регистрационный № 760) Учебно-методический комплекс разработан Е. В. Котельниковым, доцентом кафедры прикладной математики и информатики, А. В. Лялиным, ассистентом кафедры прикладной математики и информатики ВятГГУ
Рецензент – С. М. Окулов, д-р.пед.наук, профессор кафедры прикладной математики и информатики ВятГГУ
Учебно-методический комплекс утвержден на заседании кафедры прикладной математики и информатики ВятГГУ 28 июня 2012, протокол № 10
© Вятский государственный гуманитарный университет (ВятГГУ), 2012 © Котельников Е.В., 2012 © Лялин А.В., 2012 2
Рабочая программа учебной дисциплины «Интеллектуальный анализ данных» 1. ПОЯСНИТЕЛЬНАЯ ЗАПИСКА 1.1. Цели и задачи освоения учебной дисциплины «Интеллектуальный анализ данных» Цель дисциплины – формирование представления о типах задач, возникающих в области интеллектуального анализа данных (Data Mining), и методах их решения. Задачи учебной дисциплины: обеспечение усвоения студентами основных понятий интеллектуального анализа данных; ознакомление с типами задач интеллектуального анализа данных; изучение методов их решения; развитие всех видов мышления в процессе творческого исследования и реализации методов интеллектуального анализа данных; обучение самостоятельному поиску знаний и использованию справочной и научной литературы, а также электронных источников информации. 1.2. Место дисциплины в структуре ООП ВПО Учебная дисциплина «Интеллектуальный анализ данных» относится к профессиональному циклу (вариативная часть), к дисциплинам и курсам по выбору студента (М.2.7) и изучается на первом курсе. Она основывается на таких дисциплинах, как «Математика», «Информатика и программирование», «Теория вероятности и математическая статистика», «Математическая логика», «Информационные системы», «Базы данных». Её содержание может быть источником тем для научно-исследовательской работы и написания магистерской диссертации. Требования к знаниям, умениям, навыкам студента, необходимым для изучения дисциплины Знать: на хорошем уровне один из языков программирования, а также основы многих математических дисциплин (например, основы теории вероятностей, математической логики, дискретной математики и т.д.). Уметь: составлять программы с использованием сложных структур данных, а также понимать математические доказательства и проводить их самостоятельно.
3
Владеть: навыками написания нетривиальных программ, а также культурой математического мышления. 1.3. Компетенции обучающегося, формируемые в результате освоения дисциплины 1. Способность к постоянному совершенствованию и углублению своих знаний, инициативность и стремление к лидерству (ОК-7). Знать: источники получения знаний, правила публичных выступлений и ведения дискуссии. Уметь: готовить доклад, выступать с ним, отвечать на вопросы оппонентов, доказывать свою точку зрения. Владеть: навыками работы в библиотеке, электронных библиотеках и сети Интернет, а также навыками публичных выступлений. 2. Самостоятельное построение целостной картины дисциплины (ПК-6). Знать: основные понятия и типы задач, которые решаются в рамках дисциплины, и методы их решения. Уметь: провести классификации задач интеллектуального анализа данных и методов их решения. Владеть: методами познания – анализом, синтезом, сравнением, обобщением и т.д. 3. Умение ориентироваться в современных алгоритмах компьютерной математики, совершенствовать, углублять и развивать математическую теорию, лежащую в их основе (ПК-7). Знать: ключевые подходы и алгоритмы интеллектуального анализа данных. Уметь: объяснять, комментировать, реализовывать и совершенствовать известные алгоритмы, а также предлагать собственные решения. Владеть: навыками объяснения, комментирования, реализации, модификации алгоритмов интеллектуального анализа данных. 4. Умение извлекать актуальную научно-техническую информацию из электронных библиотек, реферативных журналов (ПК-16). Знать: назначение электронных библиотек, реферативных журналов; ресурсы Интернета, содержащие научно-техническую информацию. Уметь: формулировать запросы для поиска нужной информации в электронных библиотеках и сети Интернет. Владеть: навыками работы в электронных библиотеках и сети Интернет. 5. Способность к творческому развитию знаний в области алгебры, дискретной математики и компьютерных наук (ПК-17). 4
Знать: математические факты, лежащие в основе общих подходов и конкретных алгоритмов интеллектуального анализа данных. Уметь: доказывать необходимые математические утверждения, восполнять пробелы в доказательствах и генерировать новые идеи. Владеть: навыками систематического и продолжительного исследования поставленной задачи, а также навыками самостоятельной постановки задач. 6. Способность к интенсивной научно-исследовательской деятельности с применением знаний по выбранному профилю (ПК-18). Знать: принципы организации научно-исследовательской работы. Уметь: организовать свою научно-исследовательскую работу. Владеть: навыками научно-исследовательской деятельности. 7. Видение прикладного аспекта знаний из области алгебры и дискретной математики (ПК-21). Знать: сферы применения средств и методов интеллектуального анализа данных, их недостатки и преимущества. Уметь: определять тип данной задачи, выбирать метод или использовать готовое приложение для её решения. Владеть: навыками выбора метода и использования различных средств для решения задач интеллектуального анализа данных.
2.
КРАТКИЕ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ДЛЯ ПРЕПОДАВАТЕЛЯ
В результате изучения дисциплины «Интеллектуальный анализ данных» требуется, чтобы студенты не только получили теоретические сведения о методах решения задач из этой области информатики, но и понимали суть этих методов. Поэтому в преподавании дисциплины рекомендуется использовать следующие принципы. 1. Рассматриваемые алгоритмы (и на лекционных, и на семинарских занятиях) необходимо подкреплять доказательствами математических фактов, лежащих в их основе. 2. Рассматриваемые алгоритмы (и на лекционных, и на семинарских занятиях) желательно иллюстрировать примерами их использования, для упрощённых вариантов задач, небольшой размерности. 3. В лабораторные занятия следует включить задания на ручную трассировку рассматриваемых алгоритмов. 4. Рассматриваемые алгоритмы должны быть самостоятельно реализованы студентами. Например, при изучении нейронных сетей есть возможность использовать готовые приложения, со встроенной технологией нейронных сетей (STATISTICA Neural Networks, Deductor и другие). Однако работа в таких 5
программах сводится к механическому нажатию клавиш. Понимание самого метода не требуется. Гораздо полезнее написать собственную, пусть даже самую простую, программу обучения нейронной сети (в среде программирования Delphi 7.0 или её аналоге). Кроме того, на изучение дисциплины отводится мало часов лабораторного практикума. В этих условиях реализация алгоритмов должна осуществляться за счёт самостоятельной внеаудиторной работы студентов. Сведения о рекомендуемых к использованию преподавателем образовательных технологий и материально-техническом обеспечении учебной дисциплины «Интеллектуальный анализ данных». № п/п
1. 2. 3. 4.
Образовательная технология, рекомендуемая к использованию в преподавании учебной дисциплины
Информационная лекция Электронный практикум Лекция-визуализация «Учение через обучение»
Рекомендуемые средства обучения
Мультимедийный проектор Интерактивная доска Наборы слайдов
Сведения о занятиях, проводимых в интерактивных формах № п/п 1
Общий объем (по РУП) в часах/ в процентах
Показатель
очная 16 / 30%
Занятия, проводимые в интерактивных формах
3. СТРУКТУРА И СОДЕРЖАНИЕ УЧЕБНОЙ ДИСЦИПЛИНЫ «ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ» 3.1. Объем учебной дисциплины и виды учебной работы Общая трудоемкость дисциплины составляет 3 зачетные единицы, 108 часов. № п/п
Общий объем (по РУП) в часах очная 108 54
Виды учебной работы
Трудоемкость (по ФГОС ВПО) Аудиторные занятия, всего в том числе: 2.1. Лекции 1 2
20 6
2.2. 2.3. 2.4. 2.5. 2.6. 3
Лабораторные работы Практические занятия Семинарские занятия Коллоквиумы Прочие виды аудиторных занятий Самостоятельная работа студентов, всего
16 18
54
в том числе: 3.1. 3.2. 3.3. 3.4. 3.5. 4
Контрольная работа Курсовая работа Научно-исследовательская работа Практика Прочие виды самостоятельной работы Вид(ы) промежуточного контроля
54 зачёт
3.2. Матрица соотнесения разделов / тем учебной дисциплины и формируемых в них профессиональных и общекультурных компетенций
ИТОГО
+
ПК-21
4
ПК-18
Тема 1. Введение в интеллектуальный анализ данных (Data Mining) Тема 2. Нейронные сети Тема 3. Генетические алгоритмы Тема 4. Нечёткая логика Тема 5. Алгоритмы классификации и регрессии Тема 6. Алгоритмы кластеризации Тема 7. Алгоритмы поиска ассоциативных правил
ПК-17
ЧАСОВ
ПК-16
ДИСЦИПЛИНЫ
ПК-7
КОЛИЧЕСТВО
ПК-6
РАЗДЕЛЫ / ТЕМЫ УЧЕБНОЙ
ОК-7
КОМПЕТЕНЦИИ Σ ОБЩЕЕ КОЛИЧЕСТВО КОМПЕТЕНЦИЙ
+
2
8 4
+ +
+ +
+ +
+ +
+ +
+ +
+ +
7 7
2 18
+ +
+ +
+ +
+ +
+ +
+ +
+ +
7 7
12
+
+
+
+
+
+
+
7
6
+
+
+
+
+
+
+
7
108
7
3.3. Содержание разделов / тем учебной дисциплины «Интеллектуальный анализ данных» Тема 1. Введение в интеллектуальный анализ данных (Data Mining). Основные понятия. Системы поддержки принятия решений. Задачи Data Mining. Классификация задач Data Mining: задачи классификации и регрессии, задача поиска ассоциативных правил, задача кластеризации. Практическое применение Data Mining: Интернет, торговля, телекоммуникации, промышленное производство, медицина, банковское дело, страховой бизнес и др. Модели Data Mining: предсказательные и описательные. Методы Data Mining. Процесс обнаружения знаний: основные этапы, подготовка исходных данных. OLAPсистемы. Многомерная модель данных. Определение OLAP-систем. Концептуальное многомерное представление: двенадцать правил Кодда, тест FASMI. Архитектура OLAP-систем: MOLAP, ROLAP, HOLAP. Тема 2. Нейронные сети. Основная идея. Биологические истоки. Модель искусственного нейрона. Виды нейронных сетей: однослойные, многослойные. Способы обучения нейронных сетей. Практическое применение нейросетевых технологий. Тема 3. Генетические алгоритмы. Основная идея. Биологические истоки. Схема классического генетического алгоритма. Примеры применения. Обучение многослойной нейронной сети с помощью генетического алгоритма. Обзор программных средств. Тема 4. Нечёткая логика. Виды нечёткости знаний, способы их устранения и учета. Нечёткие множества и нечёткие выводы. Программные средства для работы с нечёткими знаниями. Пример нечёткой системы управления. Тема 5. Алгоритмы классификации и регрессии. Постановка задачи. Представление результатов: правила классификации, деревья решений, математические функции. Методы построения правил классификации: алгоритм построения 1-правил, метод Naive Bayes. Методика построения деревьев решений: алгоритм ID3, алгоритм С4.5, алгоритм покрытия, нечёткие деревья решений. Методы построения математических функций: метод наименьших квадратов, нелинейные методы, метод SVM. Карты Кохонена. Метод «ближайшего соседа». Метод «k-ближайших соседей». Тема 6. Алгоритмы кластеризации. Постановка задачи. Представление результатов. Базовые алгоритмы: классификация алгоритмов, иерархические алгоритмы (агломеративные и дивизимные), неиерархические алгоритмы (алгоритм k-средних, метод ISODATA, алгоритм кластеризации при помощи нечётких отношений Fuzzy C-Means, кластеризация по Гюстафсону-Кесселю), графовые алгоритмы кластеризации (алгоритм выделения связных компонент, алгоритм кратчайшего незамкнутого пути, алгоритм FOREL). Кластеризация категорийных данных: масштабируемый алгоритм CLOPE. Многомерное шкалирование. Тема 7. Алгоритмы поиска ассоциативных правил. Постановка задачи. Сиквенциальный анализ. Разновидности задачи поиска ассоциативных правил. 8
Представление результатов. Базовые алгоритмы: алгоритм Apriori, алгоритм AprioriTid, алгоритм FPG, алгоритм AIS, алгоритм SETM, алгоритм DHP. 3.4. Тематический план учебной дисциплины «Интеллектуальный анализ данных» а) аудиторные занятия ТЕМЫ УЧЕБНОЙ ДИСЦИПЛИНЫ
Тема 1. Введение в интеллектуальный анализ данных (Data Mining) Тема 2. Нейронные сети
Тема 3. Генетические алгоритмы
Тема 4. Нечёткая логика Тема 5. Алгоритмы классификации и регрессии
Тема 6. Алгоритмы кластеризации
ЧАСОВ ВИД УЧЕБНОЙ РАБОТЫ
Лекция
ТЕХНОЛОГИЯ
ФОРМА ТЕКУЩЕГО
ОБУЧЕНИЯ
КОНТРОЛЯ
очная Лекциявизуализация
2
КОНСПЕКТ ЛЕКЦИИ. ОТЧЁТ ПО
Электронный практикум Информационная лекция
ЛАБОРАТОРНОЙ РАБОТЕ.
Лабораторное занятие Лекция
2
Лабораторное занятие
2
Электронный практикум
Семинарское занятие Лекция
4
«Учение через обучение» Информационная КОНСПЕКТ ЛЕКЦИИ. лекция ОТЧЁТ ПО
2
2
Электронный практикум Информационная лекция
Конспект лекции. Отчёт по лабораторной работе. Конспект доклада.
ЛАБОРАТОРНОЙ РАБОТЕ.
Лабораторное занятие Лекция
2
Лекция
6
Информационная лекция
Лабораторное занятие
4
Электронный практикум
Семинарское занятие Лекция
8
Лабораторное занятие
4
«Учение через обучение» Информационная Конспект лекции. лекция. Отчёт по лабораторной Электронный работе. практикум Конспект доклада.
Семинарское занятие
2
2
6
«Учение обучение» 9
через
КОНСПЕКТ ЛЕКЦИИ. Конспект лекции. Отчёт по лабораторной работе. Конспект доклада.
Тема 7. Алгоритмы поиска ассоциативных правил
Лекция
2
Информационная лекция.
Лабораторное занятие
2
Электронный практикум
Семинарское занятие
2
«Учение обучение»
Итого
Конспект лекции. Отчёт по лабораторной работе. Конспект доклада.
через
54
б) самостоятельная аудиторная работа РАЗДЕЛЫ / ТЕМЫ УЧЕБНОЙ ДИСЦИПЛИНЫ
Тема 1. Введение в интеллектуальный анализ данных (Data Mining)
Тема 2. Нейронные сети
ВИД УЧЕБНОЙ РАБОТЫ (ФОРМА САМОСТОЯТЕЛЬНОЙ РАБОТЫ) СЛЕЖЕНИЕ ЗА ПЛАНОМ ЧТЕНИЯ ЛЕКЦИИ. ПРОРАБОТКА КОНСПЕКТА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. САМОСТОЯТЕЛЬНОЕ РЕШЕНИЕ ЗАДАЧ.
СЛЕЖЕНИЕ
ЗА ПЛАНОМ ЧТЕНИЯ ЛЕКЦИИ. ПРОРАБОТКА КОНСПЕКТА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. САМОСТОЯТЕЛЬНОЕ РЕШЕНИЕ ЗАДАЧ.
10
РЕЗУЛЬТАТ Знание основных понятий и типов задач, которые решаются в рамках дисциплины, и методов их решения. Знание сферы применения средств и методов интеллектуального анализа данных, их недостатки и преимущества. Умение определять тип данной задачи, выбирать метод или использовать готовое приложение для её решения Умение провести классификации задач интеллектуального анализа данных и методов их решения. Знание источников получения информации, правила публичных выступлений и ведения дискуссии. Умение готовить доклад, выступать с ним, отвечать на вопросы оппонентов, доказывать свою точку
ВЕДЕНИЕ
КОНСПЕКТА
зрения.
ДОКЛАДА. ФОРМУЛИРОВАНИЕ ВОПРОСОВ ВЫСТУПАЮЩИМ.
Тема 3. Генетические алгоритмы
СЛЕЖЕНИЕ
ЗА ПЛАНОМ ЧТЕНИЯ ЛЕКЦИИ. ПРОРАБОТКА КОНСПЕКТА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. САМОСТОЯТЕЛЬНОЕ РЕШЕНИЕ ЗАДАЧ.
Знание назначения электронных библиотек, реферативных журналов; ресурсы Интернета, содержащие научно-техническую информацию. Умение формулировать запросы для поиска нужной информации в электронных библиотеках и сети Интернет.
Тема 4. Нечёткая логика
СЛЕЖЕНИЕ
ЗА ПЛАНОМ ЧТЕНИЯ ЛЕКЦИИ. ПРОРАБОТКА КОНСПЕКТА ЛЕКЦИИ.
Знание математических фактов, лежащих в основе общих подходов и конкретных алгоритмов интеллектуального анализа данных. Умение доказывать необходимые математические утверждения, восполнять пробелы в доказательствах и генерировать новые идеи.
Тема 5. Алгоритмы классификации и регрессии
СЛЕЖЕНИЕ
Знание принципов организации научноисследовательской работы. Умение организовать свою научноисследовательскую работу.
ЗА ПЛАНОМ ЧТЕНИЯ ЛЕКЦИИ. ПРОРАБОТКА КОНСПЕКТА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. САМОСТОЯТЕЛЬНОЕ РЕШЕНИЕ ЗАДАЧ. ВЕДЕНИЕ КОНСПЕКТА ДОКЛАДА. ФОРМУЛИРОВАНИЕ ВОПРОСОВ ВЫСТУПАЮЩИМ.
11
Тема 6. Алгоритмы кластеризации
СЛЕЖЕНИЕ
ЗА ПЛАНОМ ЧТЕНИЯ ЛЕКЦИИ. ПРОРАБОТКА КОНСПЕКТА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. САМОСТОЯТЕЛЬНОЕ РЕШЕНИЕ ЗАДАЧ. ВЕДЕНИЕ КОНСПЕКТА ДОКЛАДА. ФОРМУЛИРОВАНИЕ ВОПРОСОВ ВЫСТУПАЮЩИМ.
Знание математических фактов, лежащих в основе общих подходов и конкретных алгоритмов интеллектуального анализа данных. Умение доказывать необходимые математические утверждения, восполнять пробелы в доказательствах и генерировать новые идеи.
Тема 7. Алгоритмы поиска ассоциативных правил
СЛЕЖЕНИЕ
Знание ключевых подходов и алгоритмов интеллектуального анализа данных. Умение объяснять, комментировать, реализовывать и совершенствовать известные алгоритмы, а также предлагать собственные решения.
ЗА ПЛАНОМ ЧТЕНИЯ ЛЕКЦИИ. ПРОРАБОТКА КОНСПЕКТА ЛЕКЦИИ. ВЫПОЛНЕНИЕ ЛАБОРАТОРНОЙ РАБОТЫ В СООТВЕТСТВИИ С ИНСТРУКЦИЯМИ. САМОСТОЯТЕЛЬНОЕ РЕШЕНИЕ ЗАДАЧ. ВЕДЕНИЕ КОНСПЕКТА ДОКЛАДА. ФОРМУЛИРОВАНИЕ ВОПРОСОВ ВЫСТУПАЮЩИМ.
12
в) занятия в интерактивных формах
№ п/п 1 2 3 4
РАЗДЕЛЫ / ТЕМЫ УЧЕБНОЙ ДИСЦИПЛИНЫ
Тема 2. Нейронные сети Тема 5. Алгоритмы классификации и регрессии Тема 6. Алгоритмы кластеризации Тема 7. Алгоритмы поиска ассоциативных правил Итого
13
Общий объем (по РУП) в часах Очная 4 8 2 2 16
г) самостоятельная внеаудиторная работа ВИД УЧЕБНОЙ РАЗДЕЛЫ / ТЕМЫ УЧЕБНОЙ ДИСЦИПЛИНЫ
Тема 1. Введение в интеллектуальный анализ данных (Data Mining)
Тема 2. Нейронные сети
ЧАСОВ
РАБОТЫ (ФОРМА САМОСТОЯТЕЛЬНОЙ РАБОТЫ) ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ.
ПОДГОТОВКА
К
РЕЗУЛЬТАТ ОЧНАЯ
4
8
ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К ДОКЛАДУ НА СЕМИНАРЕ. ИЗУЧЕНИЕ ЛИТЕРАТУРЫ ПО ТЕМЕ СЕМИНАРА.
Навык использования методов познания – анализа, синтеза, сравнения, обобщения и т.д. Навык работы в электронных библиотеках и сети Интернет. Навык научноисследовательской деятельности. Навык систематического и продолжительного исследования поставленной задачи, а также навыками самостоятельной постановки задач. Навык работы в электронных библиотеках и сети Интернет.
Тема 3. Генетические алгоритмы
ПОДГОТОВКА
Тема 4. Нечёткая логика
РАБОТА
К
4
С
2
ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПЕРВОИСТОЧНИКАМИ
Тема 5. Алгоритмы классификации и регрессии
ПОДГОТОВКА
К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К ДОКЛАДУ НА СЕМИНАРЕ. ИЗУЧЕНИЕ ЛИТЕРАТУРЫ ПО ТЕМЕ СЕМИНАРА.
14
18
Навык объяснения, комментирования, реализации, модификации алгоритмов интеллектуального анализа данных. Навык работы в электронных библиотеках и сети Интернет. Навык работы в электронных библиотеках и сети Интернет. Навык научноисследовательской деятельности. Навык систематического и продолжительного исследования поставленной задачи, а также навыками
самостоятельной постановки задач. Навык объяснения, комментирования, реализации, модификации алгоритмов интеллектуального анализа данных.
Тема 6. Алгоритмы кластеризации
Тема 7. Алгоритмы поиска ассоциативных правил
ПОДГОТОВКА
К
12
ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К ДОКЛАДУ НА СЕМИНАРЕ. ИЗУЧЕНИЕ ЛИТЕРАТУРЫ ПО ТЕМЕ СЕМИНАРА.
ПОДГОТОВКА
К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ. ПОДГОТОВКА К ДОКЛАДУ НА СЕМИНАРЕ. ИЗУЧЕНИЕ ЛИТЕРАТУРЫ ПО ТЕМЕ СЕМИНАРА. ПОДГОТОВКА К ЛАБОРАТОРНЫМ ЗАНЯТИЯМ.
Навык объяснения, комментирования, реализации, модификации алгоритмов интеллектуального анализа данных.
6
15
Навык работы в библиотеке, электронных библиотеках и сети Интернет, а также навыками публичных выступлений. Навык систематического и продолжительного исследования поставленной задачи, а также навыками самостоятельной постановки задач. Навык работы в библиотеке, электронных библиотеках и сети Интернет, а также навыками публичных выступлений.
54
ИТОГО
Навык выбора метода и использования различных средств для решения задач интеллектуального анализа данных. Навык научноисследовательской деятельности.
4. МЕТОДИЧЕСКИЕ УКАЗАНИЯ ДЛЯ СТУДЕНТОВ Тема 1. Введение в интеллектуальный анализ данных (Data Mining) Аудиторные занятия Лекция 1. Задачи и методы интеллектуального анализа данных (Data Mining) План лекции. 1. Основные типы задач Data Mining. 2. Области применения Data Mining. 3. Методы Data Mining. 4. Этапы обнаружения знаний. 5. Визуализация данных: OLAP-системы. Лабораторная работа 1. OLAP-системы Цель работы: познакомиться со средствами анализа данных в системе Deductor. Вопросы: 1) Что такое парциальная предобработка? 2) Что такое факторный анализ? 3) Что такое корреляционный анализ? 4) Для чего применяется трансформация данных? Самостоятельная аудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Слежение за планом чтения лекции. Проработка конспекта лекции. Выполнение лабораторной работы в соответствии с инструкциями. Самостоятельное решение задач.
Форма отчетности
Конспект лекции. Отчёт по лабораторной работе.
Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Подготовка к лабораторным занятиям.
16
Срок сдачи 2-я неделя семестра
Форма отчетности Отчёт по лабораторной работе.
Тема 2. Нейронные сети Аудиторные занятия Лекция 2. Нейронные сети План лекции. 1. Определение и биологические истоки. 2. Модели искусственного нейрона. 3. Виды нейронных сетей. 4. Способы обучения нейронных сетей. 5. Алгоритм обучение персептрона. 6. Области применения нейронных сетей. Лабораторная работа 2. Нейронные сети Цель работы: изучить на примере задачи «Исключающее ИЛИ» работу с программой STATISTICA Neural Networks; обучить нейронную сеть таблице умножения. А также программно реализовать алгоритм обучения персептрона с учителем. Вопросы: 1) Что такое функция активации? Какие функции активации вы знаете? 2) Назовите способы обучения нейронных сетей и преимущества и недостатки каждого способа. 3) Какие преимущества имеют многослойные нейронные сети перед однослойными? Семинар 1. Алгоритм обратного распространения ошибки Цель семинара: изучить алгоритм обратного распространения ошибки для обучения многослойной нейронной сети, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере. Семинар 2. Алгоритм обучения нейронной сети Хопфилда и Хэмминга Цель семинара: рассмотреть структуру нейронной сети Хопфилда и Хэмминга, изучить алгоритм для обучения нейронной сети, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере. Самостоятельная аудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Слежение за планом чтения лекции. Проработка конспекта лекции. Выполнение 17
Форма отчетности Конспект лекции. Конспект доклада. Отчёт по
лабораторной работы в соответствии с инструкциями. Самостоятельное решение задач. Ведение конспекта доклада. Формулирование вопросов выступающим.
лабораторной работе.
Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на семинарских занятиях. Используется технология «учение через обучение». Для выступления на семинаре преподавателем назначаются два студента – докладчик и содокладчик. Первый – готовит теоретические сведения о соответствующем алгоритме (общая схема, доказательство математических фактов, области применения, преимущества и недостатки). Второй – приводит простой пример, иллюстрирующий работу алгоритма, и проводит его ручную трассировку. Также они готовят упражнения по своей общей теме для остальных студентов. Доклады сопровождаются презентациями. Список литературы для подготовки не предоставляется, так как самостоятельный поиск и анализ необходимой информации является одной из целей семинара. Семинар проходит по следующей схеме. 1. Выступление первого докладчика. 2. Коллективное обсуждение. 3. Выступление второго докладчика. 4. Коллективное обсуждение. 5. Формулировка подготовленных упражнений. 6. Их решение остальными студентами. При этом докладчики выступают в роли консультантов для решающих – отвечают на возникающие у них вопросы, оказывают помощь в виде подсказок, то есть берут на себя обязанности преподавателя. 7. Коллективное обсуждение полученных решений. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Подготовка к лабораторным занятиям. Подготовка к докладу на семинаре. Изучение литературы по теме семинара.
18
Срок сдачи
4-я неделя семестра
Форма отчетности
Отчёт по лабораторной работе.
Тема 3. Генетические алгоритмы Аудиторные занятия Лекция 3. Генетические алгоритмы План лекции. 1. Основная идея и биологические истоки генетических алгоритмов. 2. Схема классического генетического алгоритма. 3. Области применения. 4. Обучение многослойной нейронной сети с помощью генетического алгоритма. Лабораторная работа 3. Генетические алгоритмы Цель работы: изучить простой генетический алгоритм, написать программу поиска оптимума функции, использующую генетический алгоритм. Вопросы: 1) Нарисуйте и поясните блок-схему генетического алгоритма. 2) Почему метод отбора «рулетка» называется случайно-детерминированным? 3) Каковы вероятности скрещивания и мутации? 4) Для чего применяется мутация? 5) Что такое локальный и глобальный оптимумы? Самостоятельная аудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Слежение за планом чтения лекции. Проработка конспекта лекции. Выполнение лабораторной работы в соответствии с инструкциями. Самостоятельное решение задач.
Форма отчетности
Конспект лекции. Отчёт по лабораторной работе.
Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Подготовка к лабораторным занятиям.
19
Срок сдачи 6-я неделя семестра
Форма отчетности Отчёт по лабораторной работе.
Тема 4. Нечёткая логика Аудиторные занятия Лекция 4. Нечёткая логика План лекции. 1. Нечёткая и классическая логика. 2. Области применения нечёткой логики. 3. Функция принадлежности как степень истинности простого высказывания. Определение степени истинности сложных высказываний. 4. Правила вывода в нечёткой логике. 5. Пример нечёткой системы управления. Самостоятельная аудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Слежение за планом чтения лекции. Проработка конспекта лекции.
Форма отчетности Конспект лекции.
Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной Срок сдачи работы Работа с 7-я неделя первоисточниками семестра
Форма отчетности Конспект
Тема 5. Алгоритмы классификации и регрессии Аудиторные занятия Лекция 5. Задачи классификации и регрессии и метод ближайшего соседа План лекции. 1. Постановка задачи классификации и регрессии. 2. Представление результатов: правила классификации, деревья решений, математические функции. 3. Меры сходства. 4. Схема алгоритма. 5. Достоинства и недостатки. Лекция 6. Байесовская классификация План лекции. 20
1. Метод Naive Bayes. 2. Пример: состоится ли игра? 3. Пример: фильтрация спама. 4. Достоинства и недостатки. Лекция 7. Деревья решений План лекции. 1. Общие понятия. 2. Алгоритм ID3. 3. Правила остановки разбиения. 4. Проблема сложности дерева. Лабораторная работа 4. Алгоритмы классификации и регрессии Цель работы: познакомиться с методами классификации и регрессии на примере системы Deductor и программно реализовать один из них. Вопросы: 1) Для чего используется классификация и линейная регрессия? Приведите примеры. 2) Что такое дерево решений? Приведите пример. 3) Как представляются результаты при классификации? Семинар 3. Алгоритм для построения дерева решений С4.5 Цель семинара: изучить алгоритм С4.5 для построения дерева решений, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере. Семинар 4. Алгоритм покрытия для построения дерева решений Цель семинара: изучить алгоритм покрытия для построения дерева решений, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере. Семинар 5. Алгоритм классификации Rocchio Цель семинара: изучить алгоритм покрытия для построения дерева решений, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере. Семинар 6. Алгоритм классификации SVM Цель семинара: изучить алгоритм SVM для решения задачи классификации, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере.
21
Самостоятельная аудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Слежение за планом чтения лекции. Проработка конспекта лекции. Выполнение лабораторной работы в соответствии с инструкциями. Самостоятельное решение задач. Ведение конспекта доклада. Формулирование вопросов выступающим.
Форма отчетности
Конспект лекции. Конспект доклада. Отчёт по лабораторной работе.
Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на семинарских занятиях. Используется технология «учение через обучение». Для выступления на семинаре преподавателем назначаются два студента – докладчик и содокладчик. Первый – готовит теоретические сведения о соответствующем алгоритме (общая схема, доказательство математических фактов, области применения, преимущества и недостатки). Второй – приводит простой пример, иллюстрирующий работу алгоритма, и проводит его ручную трассировку. Также они готовят упражнения по своей общей теме для остальных студентов. Доклады сопровождаются презентациями. Список литературы для подготовки не предоставляется, так как самостоятельный поиск и анализ необходимой информации является одной из целей семинара. Семинар проходит по следующей схеме. 1. Выступление первого докладчика. 2. Коллективное обсуждение. 3. Выступление второго докладчика. 4. Коллективное обсуждение. 5. Формулировка подготовленных упражнений. 6. Их решение остальными студентами. При этом докладчики выступают в роли консультантов для решающих – отвечают на возникающие у них вопросы, оказывают помощь в виде подсказок, то есть берут на себя обязанности преподавателя. 7. Коллективное обсуждение полученных решений. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Подготовка к лабораторным занятиям. Подготовка к 22
Срок сдачи 11-я неделя семестра
Форма отчетности Отчёт по лабораторной работе.
докладу на семинаре. Изучение литературы по теме семинара.
Тема 6. Алгоритмы кластеризации Аудиторные занятия Лекция 8. Иерархические алгоритмы кластеризации План лекции. 1. Постановка задачи. 2. Представление результатов. 3. Классификация алгоритмов. 4. Иерархические алгоритмы: агломеративные и дивизимные. Лекция 9. Неиерархические алгоритмы кластеризации План лекции. 1. Алгоритм k-средних. 2. Метод ISODATA, 3. Алгоритм кластеризации при помощи нечётких отношений Fuzzy C-Means. Кластеризация по Гюстафсону-Кесселю. Лекция 10. Графовые алгоритмы кластеризации План лекции. 1. Алгоритм выделения связных компонент. 2. Алгоритм кратчайшего незамкнутого пути, 3. Алгоритм FOREL. Лабораторная работа 5. Алгоритмы кластеризации Цель работы: познакомиться с методами кластеризации на примере системы Deductor и программно реализовать один из них. Вопросы: 1) В чём заключается задача кластеризации? Приведите пример. 2) Как представляются результаты при кластеризации? 3) На какие два больших класса можно поделить алгоритмы кластеризации. Семинар 7. Алгоритм CLOPE для кластеризации категорийных данных Цель семинара: рассмотреть понятие категорийных данных, изучить алгоритм кластеризации CLOPE, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере.
23
Самостоятельная аудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Слежение за планом чтения лекции. Проработка конспекта лекции. Выполнение лабораторной работы в соответствии с инструкциями. Самостоятельное решение задач. Ведение конспекта доклада. Формулирование вопросов выступающим.
Форма отчетности
Конспект лекции. Конспект доклада. Отчёт по лабораторной работе.
Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на семинарских занятиях. Используется технология «учение через обучение». Для выступления на семинаре преподавателем назначаются два студента – докладчик и содокладчик. Первый – готовит теоретические сведения о соответствующем алгоритме (общая схема, доказательство математических фактов, области применения, преимущества и недостатки). Второй – приводит простой пример, иллюстрирующий работу алгоритма, и проводит его ручную трассировку. Также они готовят упражнения по своей общей теме для остальных студентов. Доклады сопровождаются презентациями. Список литературы для подготовки не предоставляется, так как самостоятельный поиск и анализ необходимой информации является одной из целей семинара. Семинар проходит по следующей схеме. 1. Выступление первого докладчика. 2. Коллективное обсуждение. 3. Выступление второго докладчика. 4. Коллективное обсуждение. 5. Формулировка подготовленных упражнений. 6. Их решение остальными студентами. При этом докладчики выступают в роли консультантов для решающих – отвечают на возникающие у них вопросы, оказывают помощь в виде подсказок, то есть берут на себя обязанности преподавателя. 7. Коллективное обсуждение полученных решений. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Подготовка к лабораторным занятиям. 24
Срок сдачи 14-я неделя семестра
Форма отчетности Отчёт по лабораторной работе.
Подготовка к докладу на семинаре. Изучение литературы по теме семинара.
Тема 7. Алгоритмы поиска ассоциативных правил. Аудиторные занятия Семинар 8. План семинара. 1. Постановка задачи поиска ассоциативных правил. 2. Сиквенциальный анализ. 3. Разновидности задачи поиска ассоциативных правил. 4. Представление результатов. 5. Алгоритм Apriori. 6. Алгоритм AprioriTid. Лабораторная работа 6. Алгоритмы поиска ассоциативных правил Цель работы: познакомиться с методами поиска ассоциативных правил на примере системы Deductor и программно реализовать один из них. Вопросы: 1) Что такое ассоциативные правила? Приведите пример. 2) В чём отличие поиска ассоциативных правил и сиквенциального анализа? 3) Как можно модифицировать алгоритм Apriori? Семинар 9. Алгоритм FPG для поиска ассоциативных правил Цель семинара: изучить алгоритм поиска ассоциативных правил FPG, объяснить математические факты, лежащие в основе алгоритма, и проиллюстрировать его на конкретном примере. Самостоятельная аудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Слежение за планом чтения лекции. Проработка конспекта лекции. Выполнение лабораторной работы в соответствии с инструкциями. Самостоятельное 25
Форма отчетности Конспект лекции. Конспект доклада. Отчёт по лабораторной работе.
решение задач. Ведение конспекта доклада. Формулирование вопросов выступающим.
Самостоятельная аудиторная работа по данной теме проводится в интерактивной форме на семинарских занятиях. Используется технология «учение через обучение». Для выступления на семинаре преподавателем назначаются два студента – докладчик и содокладчик. Первый – готовит теоретические сведения о соответствующем алгоритме (общая схема, доказательство математических фактов, области применения, преимущества и недостатки). Второй – приводит простой пример, иллюстрирующий работу алгоритма, и проводит его ручную трассировку. Также они готовят упражнения по своей общей теме для остальных студентов. Доклады сопровождаются презентациями. Список литературы для подготовки не предоставляется, так как самостоятельный поиск и анализ необходимой информации является одной из целей семинара. Семинар проходит по следующей схеме. 1. Выступление первого докладчика. 2. Коллективное обсуждение. 3. Выступление второго докладчика. 4. Коллективное обсуждение. 5. Формулировка подготовленных упражнений. 6. Их решение остальными студентами. При этом докладчики выступают в роли консультантов для решающих – отвечают на возникающие у них вопросы, оказывают помощь в виде подсказок, то есть берут на себя обязанности преподавателя. 7. Коллективное обсуждение полученных решений. Самостоятельная внеаудиторная работа по теме учебной дисциплины № п/п 1
Вид самостоятельной работы Общая
Форма самостоятельной работы Подготовка к лабораторным занятиям. Подготовка к докладу на семинаре. Изучение литературы по теме семинара.
26
Срок сдачи
17-я неделя семестра
Форма отчетности
Отчёт по лабораторной работе.
Перечень вопросов для самостоятельного изучения и рекомендации по выполнению заданий Вопросы для самостоятельного изучения Тема: «Введение в интеллектуальный анализ данных (Data Mining)» Вопросы для самостоятельного изучения: 1. Задача прогнозирования. 2. Задача выработки рекомендаций. 3. Задача ранжирования. 4. Задача фильтрации. Тема: «Нейронные сети» Вопросы для самостоятельного изучения: 1. Алгоритм обратного распространения ошибки. 2. Нейронные сети Хопфилда и Хэмминга. 3. RBF-сети. 4. Карты Кохенена. Тема: «Генетические алгоритмы» Вопросы для самостоятельного изучения: 1. Теорема шаблонов. 2. Островной генетический алгоритм. 3. Применение генетического алгоритма для решения задачи о коммивояжёре. 4. Генетическое программирование. Тема: «Нечёткая логика» Вопросы для самостоятельного изучения: 1. Нечеткие запросы к реляционным базам данных. 2. Нечеткие деревья решений. Тема: «Алгоритмы классификации и регрессии» Вопросы для самостоятельного изучения: 1. Алгоритм построения 1-правил. 2. Метод построения деревьев решений С4.5. 3. Методы построения математических функций. Тема: «Алгоритмы кластеризации» Вопросы для самостоятельного изучения: 1. Метод ISODATA. 2. Кластеризация категорийных данных: масштабируемый алгоритм CLOPE. Многомерное шкалирование. Тема: «Алгоритмы поиска ассоциативных правил» Вопросы для самостоятельного изучения: 1. Алгоритм FPG. 2. Алгоритм AIS. 3. Алгоритм SETM. 4. Алгоритм DHP. 27
1. 2. 3. 4. 5. 6.
Примерная тематика рефератов Обзор программных средств Data Mining. Обзор программных средств, реализующих технологию нейронных сетей. Обзор различных структур нейронных сетей. Обзор различных модификаций генетического алгоритма. Обзор программных средств, предназначенных для классификации данных. Обзор программных средств, предназначенных для кластеризации данных.
Форма текущего контроля по теме: устный опрос на лабораторных занятиях, в ходе которого проверяется и выполнение практических заданий, и теоретические знания. Задания и примерные вопросы указаны в описании лабораторных работ. 5. ПЕРЕЧЕНЬ ОСНОВНОЙ И ДОПОЛНИТЕЛЬНОЙ ЛИТЕРАТУРЫ Основная литература: 1. Белов, В. С. Информационно-аналитические системы. Основы проектирования и применения : учебное пособие, руководство, практикум / В.С. белов. - 2-е изд., перераб. и доп. - М. : Евразийский открытый институт, 2010. - 111 с. http://www.biblioclub.ru/book/90540/
Дополнительная литература: 1. Глухих, И.Н. Интеллектуальные информационные системы [Текст] / И. Н. Глухих. – М.: Академия, 2010. 2. Советов, Б.Я. Представление знаний в информационных системах [Текст] / Б. Я. Советов, В. В. Цехановский, В. Д. Чертовской. – М.: Академия, 2010. 3. Ясницкий, Л.Н. Введение в искусственный интеллект [Текст] / Л. Н. Ясницкий. – М.: Академия, 2010. 4. Барсегян, А.А. Методы и модели анализа данных: OLAP И Data Mining [Текст] / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. – СПб.:BHV, 2004. 5. Гладков, Л. А. Генетические алгоритмы [Текст] / Л. А. Гладков, В. В. Курейчик, В. М. Курейчик. – М.: Физматлит, 2006. 6. Люгер, Дж. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем [Текст] / Дж. Ф. Люгер. – М.: Издательский дом «Вильямс», 2003. 7. Марманис, Х. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных [Текст] / Х. Марманис, Д. Бабенко. – М.: Символ-Плюс, 2011. 8. Рассел, С. Искусственный интеллект: современный подход [Текст] / С. Рассел, П. Норвиг. – М.: Изд. дом. «Вильямс», 2006.
28
9. Рутковская, Д. Нейронные сети, генетические алгоритмы и нечеткие системы [Текст] / Д. Рутковская, М. Пилиньский, Л. Рутковский. – М.: Горячая линия-Телеком, 2004. 10.Сегаран, Т. Программируем коллективный разум [Текст] / Т. Сегаран. – М.: Символ-Плюс, 2008. 11.Толкачев С. Нейронное программирование диалоговых систем [Текст] / С. Толкачев. – М.: Корона-Век, 2011. 12.Чубукова, И. А. Data Mining [Текст] / И. А. Чубукова. – М.: БИНОМ. Лаборатория знаний. Интернет-университет информационных технологий – ИНТУИТ.ру, 2006. 13.Чулюков В. А. Системы искусственного интеллекта. Практический курс:учеб. пособие-М.:БИНОМ. Лаборатория знаний,2008.
29
6. СИСТЕМА ОЦЕНКИ КАЧЕСТВА ОСВОЕНИЯ СТУДЕНТАМИ УЧЕБНОЙ ДИСЦИПЛИНЫ «ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ» И ФОРМЫ ТЕКУЩЕГО, ПРОМЕЖУТОЧНОГО И ИТОГОВОГО КОНТРОЛЯ 6.1. Шкала баллов по учебной дисциплине В соответствии с Положением о балльно-рейтинговой системе оценки знаний студентов ВятГГУ по учебной дисциплине предусмотрены следующие виды контроля качества знаний студентов: – входной контроль; – текущая аттестация; – межсессионная аттестация; – промежуточная аттестация в форме зачёта. Шкала баллов по учебной дисциплине № п/п 1. 2. 3.
1.
Норма баллов
Показатели
Виды текущей аттестации до межсессионной аттестации Посещение аудиторных занятий 7 (по 0,25 баллов за занятие) Лабораторная работа 23 Межсессионная атестация (контрольное 10 мероприятие): тест Виды текущей аттестации после межсессионной аттестации Посещение аудиторных занятий 6,5 (по 0,25 баллов за занятие)
2. 3.
1. 2. 3.
Семинарское занятие Лабораторная работа Виды работ и заданий на зачёте Два теоретических вопроса Практическое задание Всего баллов за зачёт Итого:
30
10 23,5 12 8 20 100
6.2. Фонды оценочных средств для проведения текущего контроля успеваемости и промежуточной аттестации Сводные данные по оценке компетенций № п/п
Результат (освоенные компетенции)
Основные показатели оценки результата
Виды контроля
Номер раздела / темы (для текущего контроля) Оформление Темы доклада и 2,3,4,5,6,7. выступление с ним на семинаре Отчёт по лабораторно й работе. Зачёт. Формы и методы контроля
1
ОК-7
Знает: источники получения Т знаний, правила публичных Р выступлений и ведения П дискуссии. Умеет: готовить доклад, выступать с ним, отвечать на вопросы оппонентов, доказывать свою точку зрения. Владеет: навыками работы в библиотеке, электронных библиотеках и сети Интернет, а также навыками публичных выступлений.
2
ПК-6
Знает: основные понятия и Т типы задач, которые Р решаются в рамках П дисциплины, и методы их решения. Умеет: провести классификации задач интеллектуального анализа данных и методов их решения. Владеет: методами познания – анализом, синтезом, сравнением, обобщением и т.д.
Оформление Темы 1, доклада и 2,3,4,5,6,7. выступление с ним на семинаре Отчёт по лабораторно й работе Тест. Зачёт.
3
ПК-7
Знает: ключевые подходы и Т алгоритмы Р интеллектуального анализа П данных. Умеет: объяснять, комментировать, реализовывать и совершенствовать известные алгоритмы, а также предлагать собственные
Оформление Темы доклада и 2,3,4,5,6,7. выступление с ним на семинаре Отчёт по лабораторно й работе Тест. Зачёт.
31
решения. Владеет: навыками объяснения, комментирования, реализации, модификации алгоритмов интеллектуального анализа данных. 4
ПК-16
5
ПК-17
6
ПК-18
Знает: назначение электронных библиотек, реферативных журналов; ресурсы Интернета, содержащие научнотехническую информацию. Умеет: формулировать запросы для поиска нужной информации в электронных библиотеках и сети Интернет. Владеет: навыками работы в электронных библиотеках и сети Интернет. Знает: математические факты, лежащие в основе общих подходов и конкретных алгоритмов интеллектуального анализа данных. Умеет: доказывать необходимые математические утверждения, восполнять пробелы в доказательствах и генерировать новые идеи. Владеет: навыками систематического и продолжительного исследования поставленной задачи, а также навыками самостоятельной постановки задач. Знает: принципы организации научноисследовательской работы. Умеет: организовать свою научно-исследовательскую работу. Владеет: навыками научноисследовательской 32
Т Р П
Оформление Темы доклада и 2,3,4,5,6,7. выступление с ним на семинаре Отчёт по лабораторно й работе Тест. Зачёт.
Т Р П
Оформление Темы доклада и 2,3,4,5,6,7. выступление с ним на семинаре Отчёт по лабораторно й работе Тест. Зачёт.
Т Р П
Оформление Темы доклада и 2,3,4,5,6,7. выступление с ним на семинаре Отчёт по лабораторно й работе
деятельности. 7
ПК-21
Знает: сферы применения Т средств и методов Р интеллектуального анализа П данных, их недостатки и преимущества. Умеет: определять тип данной задачи, выбирать метод или использовать готовое приложение для её решения. Владеет: навыками выбора метода и использования различных средств для решения задач интеллектуального анализа данных.
Тест. Зачёт. Оформление Темы 1, доклада и 2,3,4,5,6,7. выступление с ним на семинаре Отчёт по лабораторно й работе Тест. Зачёт.
* в – входной контроль; т – текущий контроль; р – рубежный контроль; п – промежуточная аттестация; и – итоговая аттестация. ** при заполнении таблицы рекомендуется учитывать данные Приложения V.
6.2.1. Входной контроль знаний студентов Примерные задачи для проверки знаний студентов Задача № 1 Дан текстовый файл. Его строки состоят из цифр и букв. Посчитайте количество букв в каждой строке. Результат запишите в новый файл. Задача № 2 Двумерный массив из целых чисел считывается с клавиатуры. минимальный элемент среди тех, что стоят на его границах.
Найдите
Задача № 3 Сформируйте такой двумерный массив (его размеры вводятся с клавиатуры): 1 2 3 4 5
6
7
8
9
10 11 12
13 14 15 16 Задача № 4 Ориентированный граф задан матрицей смежности, который хранится в текстовом файле. Выведите все вершины, из которых не выходит ни одно ребро. 33
Задача № 5 Напишите функцию, проверяющую есть ли в двоичном дереве поиска чётная внутренняя вершина. Дана полоска из n клеток. Фишка может двигаться только вперед. На некоторые клетки ход запрещён. Длина хода фишки не более 3 клеток. Найдите число различных путей, по которым фишка может пройти от клетки 1 до клетки n. Серым закрашены запрещённые клетки
Задача № 6 На прямой дощечке вбиты гвоздики. Известны их координаты x1, x2,…, xn. Любые два гвоздика можно соединить верёвочкой. Требуется соединить некоторые пары гвоздиков верёвочками так, чтобы к каждому гвоздику была привязана хотя бы одна верёвочка, а суммарная длина всех верёвочек была минимальна. Найдите эту минимальную длину. Задача № 7 Найдите все перестановки из n чисел такие, что никакое число не равно своему номеру в перестановке. Например, 3241 не будет такой перестановкой, так как число 2 стоит на месте с номером 2. 6.2.2. Текущая аттестация Текущая аттестация проводится в форме устного опроса, в ходе которого проверяется выполнение заданий лабораторных занятий. Содержание лабораторных занятий указано в разделе 4 УМК. 6.2.3. Межсессионная аттестация Межсессионная аттестация проводится в форме теста. Примерный перечень заданий для подготовки к межсессионной аттестации Задание № 1 Укажите основную задачу, которую должна решать система поддержки принятия решений. Варианты ответов:
34
1) передача данных; 2) ввод данных; 3) анализ данных; 4) хранение данных; Задание № 2 При анализе данных система поддержки принятия решений может решать три типа задач: a) поиск закономерностей и прогнозирование. b) группировка и обобщение данных; c) поиск данных; Расположите эти типы задач по возрастанию степени «интеллектуальности». Варианты ответов: 1) abc; 2) cba; 3) cab; 4) acb; Задание № 3 Из каких основных подсистем состоит система поддержки принятия решений? Варианты ответов: 1) подсистема ввода; 2) подсистема классификации; 3) подсистема хранения ; 4) подсистема анализа; 2) подсистема поиска; Задание № 4 Для каждой информационной системы укажите задачу, с которой она наиболее результативно справляется? Информационные системы: 1.OLTP-системы 2.OLAP-системы 3. системы Data Mining Задачи: a) поиск закономерностей и прогнозирование. b) группировка и обобщение данных, их наглядное представление; c) поиск данных; Варианты ответов: 35
1) 1-a, 2-b, 3-c; 2) 1-c, 2-b, 3-a; 3) 1-c, 2-a, 3-b; 4) 1-a, 2-c, 3-b; Задание № 5 Какие из утверждений верны? Варианты ответов: 1) в базе данных устаревшая информация через некоторое время удаляется, а в хранилище данных информация хранится за как можно больший промежуток времени; 2) хранилище данных требует меньший объём памяти, чем база данных; 3) требование к безопасности для хранилища данных ниже, чем для базы данных; 4) хранилище данных содержит обобщённую информацию из разных источников; 5) хранилище данных предназначено для подготовки данных к анализу; Задание № 6 Как называется информация о данных, содержащихся в хранилище данных. Варианты ответов: 1) агрегированные данные; 2) метаданные; 3) детальные данные; 4) аддитивные данные; Задание № 7 Основная задача, которую решают OLAP-системы – это.... Варианты ответов: 1) ввод данных; 2) анализ данных; 3) обобщение и представление данных у удобном для анализа виде; 3) хранение данных; 4) передача данных; Задание № 8 Для каждого типа OLAP-системы укажите способ её реализации. Типы OLAP-систем: 1.MOLAP-системы; 2.HOLAP-системы; 36
3. ROLAP-системы; Способы реализации: a) реляционные БД; b) многомерные БД; c) и многомерные и реляционные БД Варианты ответов: 1) 1-a, 2-b, 3-c; 2) 1-c, 2-b, 3-a; 3) 1-b, 2-c, 3-a; 4) 1-a, 2-c, 3-b; Задание № 9 Назначение Data Mining-систем. Варианты ответов: 1) хранение данных; 2) передача данных; 3) ввод данных; 4) поиск «скрытых» знаний в данных; Задание № 10 Какая из задач, решаемых с помощью Data Mining-систем, заключается в поиске отдельных групп объектов? Варианты ответов: 1) классификация; 2) регрессия; 3) кластеризация; 4) поиск ассоциативных правил; Задание № 11 Какая из задач, решаемых с помощью Data Mining-систем, заключается в отнесении объекта по его характеристикам к группе аналогичных объектов? Варианты ответов: 1) классификация; 2) регрессия; 3) кластеризация; 4) поиск ассоциативных правил;
37
Задание № 12 Какая из задач, решаемых с помощью Data Mining-систем, заключается в нахождении частных зависимостей между объектами или событиями? Варианты ответов: 1) классификация; 2) регрессия; 3) кластеризация; 4) поиск ассоциативных правил; Задание № 13 Какая из задач, решаемых с помощью Data Mining-систем, позволяет по известным характеристикам объекта определить значение некоторого его параметра. Варианты ответов: 1) классификация; 2) регрессия; 3) кластеризация; 4) поиск ассоциативных правил; Задание № 14 Какие из задач, решаемых с помощью Data Mining-систем, можно отнести к описательным? Варианты ответов: 1) классификация; 2) регрессия; 3) кластеризация; 4) поиск ассоциативных правил; Задание № 15 Какие из задач, решаемых с помощью Data Mining-систем, можно отнести к предсказательным? Варианты ответов: 1) классификация; 2) регрессия; 3) кластеризация; 4) поиск ассоциативных правил;
38
Задание № 16 Менеджеры супермакетов анализируют – какие товары покупаются вместе, какие категории потребителей , какие товары предпочитают. Какая задача при этом решается? Варианты ответов: 1) классификация; 2) кластеризация; 3) поиск ассоциативных правил; 4) регрессия; Задание № 17 Выберите верные утверждения. Варианты ответов: 1) нечёткая логика обобщает классическую логику; 2) в нечёткой логике высказывание может быть только истинным или только ложным; 3) нечёткая логика более точно отражает окружающий мир, чем классическая логика; 4) в нечёткой логике высказывание может быть одновременно и истинным и ложным; Задание № 18 Для решения каких задач используется нечёткая логика?. Варианты ответов: 1) управление бытовой техникой; 2) перевод с одного язяка на другой; 3) анализ прибыльности проектов; 4) игра в шахматы; Задание № 19 Какие значения принимает функция принадлежности(истинности) в нечёткой логике? Варианты ответов: 1) от -1 до 1; 2) от 0 до 100; 3) от 0 до 1; 4) от 1 до 2; 5) от «минус бесконечности» до «плюс бесконечности» Задание № 20 Рассмотрим нечеткие множества «низкие мужчины», «высокие мужчины», средние мужчины». Зададим для каждого множества функцию принадлежности 39
элемента этому множеству, с какой степенью истинности человек данного роста принадлежит множеству.
Для какого роста утверждение – «человек имеет средний рост» будет истинным с какой-то степенью (пусть и очень небольшой)? Варианты ответов: 1) от 160 до 190; 2) от 170 до 180; 3) от 150 до 200; 4) от 150 до 180; Задание № 21 Пусть высказывание A имеет степень истинности 0,3, а высказывание B степень истинности 0,2. Чему будет равна истинность составного высказывания A and B? Варианты ответов: 1) 0,3; 2) 0,5; 3) 0,1; 4) 0,2; 5) 0,006 Задание № 22 Пусть высказывание A имеет степень истинности 0,1, а высказывание B степень истинности 0,2. Чему будет равна истинность составного высказывания A or not(B)? Варианты ответов: 1) 0,8; 2) 0,1; 3) 0,7; 4) 0,3;
40
Задание № 23 Кто предложил первую математическую модель нейрона? Варианты ответов: 1) Питтс; 2) Хебб; 3) Минский; 4) Пейперт; Задание № 24 Для какого типа нейронов пороговая функция (или функция активации) является непрерывной? Варианты ответов: 1) персептрон; 2) сигмоидальный нейрон; 3) нейрон типа WTA; 4) для всех типов нейронов; Задание № 25 Для какого типа нейронов пороговая функция имеет следующий вид? f
u
Варианты ответов: 1) персептрон; 2) сигмоидальный нейрон; 3) нейрон типа WTA; 4) для всех типов нейронов; Задание № 26 Для какого типа нейронов пороговая функция имеет следующий вид?
Варианты ответов: 1) персептрон; 2) сигмоидальный нейрон; 3) нейрон типа WTA; 4) для всех типов нейронов;
41
Задание № 27 Для какого типа нейронов пороговая функция имеет следующий вид? u1 x1
+
x2
+
xn
+
u2
y1
Механизм конкуренции нейронов
y2
ym
um
Варианты ответов: 1) персептрон; 2) сигмоидальный нейрон; 3) нейрон типа WTA; 4) для всех типов нейронов; Задание № 28 Персептон имеет два входа. Веса равны w1=1, w2=2. Порог равен p=0,4. Для каких входных сигналов персептрон выдаст на выходе сигнал, равный 1. Варианты ответов: 1) x1=0, x2=0; 2) x1=0,3, x2=0; 3) x1=1, x2=0; 4) x1=0, x2=0,1; Задание № 29 Какое из перечисленных ниже применений является несвойственным для нейронных сетей? Варианты ответов: 1) решение шахматных задач; 2) распознавание образов; 3) перевод с одного языка на другой; 4) предсказание курса акций; Задание № 30 Какая из логических персептроном? Варианты ответов: 1) OR ; 2) AND ;
функций
не
42
может
быт
реализована
простым
3) NOT ; 4) XOR ;
Задание № 31 Какую из логических функций реализует рёбрах указаны веса, у нейронов – пороги)?
двухслойная сеть на рисунке (на
Варианты ответов: 1) OR ; 2) AND ; 3) XOR ; 4) NOT ; Задание № 32 Нейронную сеть учили распознавать танки. Сеть обучалась на ста картинках, содержащих изображения танков, и на ста других картинках, где танков не было. Был достигнут стопроцентно «правильный» результат. Но когда на вход сети были поданы новые данные, она безнадежно провалилась. Выяснилось, что фотографии с танками были сделаны в пасмурный, дождливый день, а фотографии без танков – в солнечный день. Сеть научилась улавливать очевидную разницу в общей освещенности. Что прежде всего необходимо сделать, чтобы сеть смогла результативно работать, не ошибаясь? Варианты ответов: 1) попробовать обучить сеть заново на этих же фотографиях; 2) заменить сеть на другую, с другой структурой, с большим количеством нейронов; 3) обучать сеть на данных, где бы присутствовали все погодные условия и типы освещения; 4) сменить алгоритм обучения сети
43
Задание № 33 При каком типе обучения сети известные как обучающие примеры, так и результаты, которые она должна выдавать для каждого из примеров? Варианты ответов: 1) обучение без учителя; 2) обучение с учителем; 3) смешанное обучение; 4) нет правильных ответов. Задание № 34 В чём заключается обучение нейронной сети? Варианты ответов: 1) если сеть совершает ошибки, меняется тип нейронов; 2) изменяется структура нейронной сети; 3) у некоторых нейронов уменьшаются-увеличиваются пороги; 4) изменяются весовые коэффициенты и пороги. Задание № 35 Для решения каких задач применяются генетические алгоритмы? Варианты ответов: 1) распознавание текста; 2) составление расписаний; 3) задачи оптимизации, например, задача коммивояжёра; 4) перевод с одного языка на другой; 5) обучение нейронных сетей Задание № 36 Какие из этапов проходит не каждая особь в ходе генетического алгоритма. Варианты ответов: 1) мутация; 2) отбор; 3) скрещивание; 4) оценка; Задание № 37 На каком этапе используется метод «рулетки»?. Варианты ответов: 1) мутация; 2) отбор; 3) скрещивание; 44
4) оценка; Задание № 38 Классический генетический алгоритм состоит из таких этапов: a) мутация; b) оценка; c) скрещивание; d) инициализация; e) отбор Расположите их в необходимом порядке. Варианты ответов: 1) debca; 2) dbeac; 3) dbcea; 4) dbeca; Задание № 39 Человек обращается в банк за предоставлением ему кредита. Банковский служащий должен определить- кредитоспособен ли клиент или нет. Какую задачу он при этом решает? Варианты ответов: 1) регрессия; 2) классификация; 3) кластеризация; 4) поиск ассоциативных правил; Задание № 40 Человек обращается в банк за предоставлением ему кредита. Банковский служащий должен определить сумму кредита для клиента. Какую задачу он при этом решает? Варианты ответов: 1) классификация; 2) кластеризация; 3) поиск ассоциативных правил; 4) регрессия; Задание № 41 К алгоритмам построения правил классификации относятся: Варианты ответов: 1) алгоритм SVM; 2) нелинейные алгоритмы; 3) алгоритм ID3; 45
4) алгоритм построения 1-правил; 5) алгоритм С4.5; 6) алгоритм Naive Bayes; 7) алгоритм наименьших квадратов Задание № 42 К алгоритмам построения деревьев решений относятся: Варианты ответов: 1) алгоритм SVM; 2) нелинейные алгоритмы; 3) алгоритм ID3; 4) алгоритм построения 1-правил; 5) алгоритм С4.5; 6) алгоритм Naive Bayes; 7) алгоритм наименьших квадратов Задание № 43 К алгоритмам построения математических функций относятся: Варианты ответов: 1) алгоритм SVM; 2) нелинейные алгоритмы; 3) алгоритм ID3; 4) алгоритм построения 1-правил; 5) алгоритм С4.5; 6) алгоритм Naive Bayes; 7) алгоритм наименьших квадратов Задание № 44 Кластеризация – это… Варианты ответов: 1) отнесение объекта по его характеристикам к группе аналогичных объектов; 2) нахождении частных зависимостей между объектами или событиями; 3) разбиение объектов на группы; 4) определение по известным характеристикам объекта значения некоторого его параметра. Задание № 45 К иерархическим алгоритмам кластеризации относятся: Варианты ответов: 1) алгоритм Fuzzy C-Means; 46
2) агломеративный алгоритм; 3) кластеризация по Гюстафсону-Кесселю; 4) дивизимный алгоритм; 5) алгоритм k-средних; Задание № 46 В каком иерархическом алгоритме кластеризация начинается с отдельных объектов, затем два наиболее близких объединяются в один кластер и т.д. Варианты ответов: 1) алгоритм Fuzzy C-Means; 2) агломеративный алгоритм; 3) кластеризация по Гюстафсону-Кесселю; 4) дивизимный алгоритм; 5) алгоритм k-средних; Задание № 47 В каком иерархическом алгоритме кластеризация начинается с одного кластера? В него вначале включены все объекты. Затем выбирается наиболее удалённый от всех других объект, помещается в новый кластер, «забирая» с собой близкие к себе объекты и т.д. Варианты ответов: 1) алгоритм Fuzzy C-Means; 2) агломеративный алгоритм; 3) кластеризация по Гюстафсону-Кесселю; 4) дивизимный алгоритм; 5) алгоритм k-средних; Задание № 48 В каком алгоритме кластеризация начинается с того, что выбираются несколько объектов? К каждому такому объекту присоединяются наиболее близкие к нему объекты. Образуется несколько классов и т.д. Варианты ответов: 1) агломеративный алгоритм; 2) кластеризация по Гюстафсону-Кесселю; 3) дивизимный алгоритм; 4) алгоритм k-средних;
47
6.2.4. Материалы для проведения промежуточной аттестации Промежуточная аттестация проводится в форме зачёта. Примерный перечень теоретических вопросов к зачёту Основные задачи Data Mining. Классификация задач Data Mining. Постановка и пример задачи классификации. Постановка и пример задачи регрессии. Постановка и пример поиска ассоциативных правил. Постановка и пример задачи кластеризации. Практическое применение Data Mining. Модели и методы Data Mining. Процесс обнаружения знаний: основные этапы, подготовка исходных данных. 9. OLAP-системы и двенадцать правил Кодда. 10.Тест FASMI и архитектура OLAP-систем: MOLAP, ROLAP, HOLAP. 11.Нейронные сети (биологические основы, история возникновения и развития). Области применения нейронных сетей. 12.Обобщенная модель нейрона. Модели нейронов (персептрон, сигмоидальный нейрон, WTA). 13.Однослойные и многослойные нейронные сети (структура и возможности). Задача XOR. 14.Способы обучения нейронных сетей. Проблемы обучения. 15.Алгоритм обучения персептрона с учителем. 16. Алгоритм обратного распространения ошибки. 17.Генетические алгоритмы. Основная идея и области применения. 18.Схема классического генетического алгоритма. 19.Обучение многослойной нейронной сети с помощью генетического алгоритма. 20.Понятия нечеткая логика, нечеткое множество, функция принадлежности. Примеры. Области применения нечеткой логики. 21.Аксиомы нечеткой логики. Нечеткие правила вывода. Отличие понятий нечеткость и вероятность. 22.Пример нечеткой системы управления. 23.Представление результатов классификации и регрессии: правила классификации, деревья решений, математические функции. 24.Методы построения правил классификации: алгоритм построения 1правил. 25.Методы построения правил классификации: метод Naive Bayes. 26.Методы построения деревьев решений: алгоритм ID3. 27.Методы построения деревьев решений: алгоритм С4.5. 28.Методы построения деревьев решений: алгоритм покрытия. 1. 2. 3. 4. 5. 6. 7. 8.
48
29.Нечёткие деревья решений. 30.Методы построения математических функций: метод наименьших квадратов. 31.Методы построения математических функций: нелинейные методы. 32.Методы построения математических функций: метод SVM. 33.Карты Кохонена. 34.Метод «ближайшего соседа». 35.Метод «k-ближайших соседей» 36.Представление результатов при кластеризации и классификация алгоритмов кластеризации. 37.Алгоритм k-средних. 38.Алгоритм кластеризации при помощи нечётких отношений Fuzzy CMeans, кластеризация по Гюстафсону-Кесселю. 39.Метод ISODATA. 40.Графовые алгоритмы кластеризации: алгоритм выделения связных компонент. 41.Графовые алгоритмы кластеризации: алгоритм кратчайшего незамкнутого пути. 42.Графовые алгоритмы кластеризации: алгоритм FOREL. 43.Кластеризация категорийных данных: масштабируемый алгоритм CLOPE. 44.Многомерное шкалирование. 45.Поиск ассоциативных правил и сиквенциальный анализ. 46.Разновидности задачи поиска ассоциативных правил. 47.Представление результатов поиск ассоциативных правил. 48.Алгоритм Apriori. 49.Алгоритм AprioriTid. 50.Алгоритм FPG. Примерный вариант практических заданий к зачёту Задача № 1 Пусть высказывание A имеет степень истинности 0,3, а высказывание B степень истинности 0,2. Чему будет равна истинность составного высказывания A or B? Задача № 2 Пусть высказывание A имеет степень истинности 0,1, а высказывание B степень истинности 0,2. Чему будет равна истинность составного высказывания A and not(B)? Задача № 3 Персептон имеет два входа. Веса равны w1=1, w2=2. Порог равен p=0,4. Входные сигналы равны x1=0, x2=0,1. Какой сигнал персептрон выдаст на выходе? 49
Задача № 4 Персептон имеет два входа. Начальные веса равны w1=0,2, w2=0.3. Порог равен p=–0,6. Используйте алгоритм обучения с учителем и обучите персептрон логической операции ИЛИ. Укажите, какие значения будут принимать веса и порого на каждом шаге алгоритма. Задача № 5 Пусть база данных содержит данные о четырех покупках: ID транзакции Дата Приобретенные товары 100 15.10.2003 {K,A,D,B} 200 15.10.2003 {D,A,C,E,B} 300 19.10.2003 {C,A,B,E} 400 22.10.2003 {B,A,D} Пусть минимальная частота равна 60%, а минимальная достоверность равна 80%. (a) Найдите все часто встречающиеся наборы элементов спомощью алгоритма Apriori. (b) Определите все ассоциативные правила. Задача № 6 Для двух объектов, заданных кортежами (22,1,42,10) и (20,0,36,8): (a) вычислите Евклидово расстояние между двумя объектами; (b) вычислите Манхеттеновское расстояние между двумя объектами; (c) вычислите расстояние Минковского между двумя объектами, используя q=3. Задача № 7 Даны следующие восемь точек на плоскости, которые необходимо разбить на 3 кластера по методу k-средних: (2, 10), (2, 5), (8, 4), (5, 8), (7, 5), (6, 4), (1, 2), (4, 9). Используется Евклидово расстояние на плоскости. Пусть в качестве начальных центров кластеров выбраны точки (2, 10), (5, 8), (1, 2). Найдите (a) центры трех кластеров после выполнения первой итерации в методе kсредних; (b) Итоговые три кластера. 6.3. Материалы, устанавливающие содержание и порядок проведения итоговой аттестации Содержание учебной дисциплины «Интеллектуальный анализ данных» не входит в перечень вопросов государственного экзамена.
50