Раздел 1. Введение. Примеры задач. Логические методы: решающие деревья и решающие леса.
Логические методы: классификация объектов на основе простых правил. Интерпретация и реализация. Объединение в композицию. Решающие деревья. Случайный лес.
Раздел 2. Метрические методы классификации. Линейные методы, стохастический градиент.
Метрические методы. Классификация на основе сходства. Расстояние между объектами. Метрика. Метод k ближайших соседей. Обобщение на задачи регрессии с помощью ядерного сглаживания. Линейные модели. Масштабируемость. Применимость к большим данным Метод стохастического градиента. Применимость для настойки линейных классификаторов. Понятие регуляризации. Особенности работы с линейными методами. Метрики качества классификации.
Раздел 3. Метод опорных векторов (SVM). Логистическая регрессия. Метрики качества классификации.
Линейные модели. Масштабируемость. Применимость к большим данным Метод стохастического градиента. Применимость для настойки линейных классификаторов. Понятие регуляризации. Особенности работы с линейными методами.
Раздел 4. Линейная регрессия. Понижение размерности, метод главных компонент.
Линейные модели для регрессии. Их связь с сингулярным разложением матрицы "объекты-признаки". Уменьшении количества признаков. Подходы к отбору признаков. Метод главных компонент. Методы понижения размерности.
Раздел 5. Композиции алгоритмов, градиентный бустинг. Нейронные сети.
Объединение моделей в композицию. Взаимное исправление ошибок моделей. Основные понятия и постановки задач, связанные с композициями. Градиентный бустинг.
Нейронные сети. Поиск нелинейных разделяющих поверхностей. Многослойные нейронные сети и их настройка с помощью метода обратного распространения ошибки. Глубокие нейронные сети: их архитектурах и особенности.
Раздел 6. Кластеризация и визуализация.
Задачи обучения без учителя. Поиск структуры в данных. Задача кластеризации как задача поиска групп схожих объектов. Задача визуализации как задача отображения объектов в двух- или трехмерное пространство.
Раздел 7. Прикладные задачи анализа данных: постановки и методы решения.
Частичное обучение как задача, находящаяся между обучением с учителем и кластеризацией. Задача для выборки, в которой значение целевой переменной известно лишь для части объектов. Отличие задачи частичного обучения от рассмотренных ранее постановок. Подходы к решению.
Разбор задач из прикладных областей: скорринг в банках, страховании, задачи андеррайтинга, задачи распознавания образов.