Модуль 1. Область применения больших данных. Типовые задачи. (1 ак. ч.)
-Цели курса
-Определение основных понятий
-История науки о данных
-Выгоды от работы с большими данными
-Типовые задачи: прогноз продаж, производства, спроса. Анализ поведения. Распознавание образов. Экспертные системы.
Модуль 2. Сбор и подготовка исходных данных. Методика CRISP-DM (1 ак. ч.)
-С чего начать. Межотраслевая стандартная методика работы с данными CRISP-DM
-Описательное и ассоциативное исследование исходных данных
-Сегментирование и очистка данных (slice and dice). Примеры инструментов Excel
-Визуализация данных в Excel. Как использовать сводные таблицы и диаграммы
-Практическая работа. Сегментировать и очистить тестовый набор данных.
Модуль 3. Основы математической статистики. ANOVA. Надстройка Excel «Пакет анализа» (2 ак. ч.)
-Описательная статистика
-Среднее, наиболее вероятное, медиана
-Дисперсия, стандартное отклонение, стандартная ошибка
-Виды распределений
-Пакет анализа данных Excel
-Обзор других прикладных средств работы с данными (R, Python, Octave, MathLab, специализированные БД).
-Практическая работа. Определить статистические характеристики выборки данных.
Модуль 4. Задача прогноза продаж. Понятие машинного обучения. Корреляция. Регрессионный анализ (3 ак. ч.)
-Постановка задачи оценки взаимосвязи между различными факторами и построение прогноза
-Корреляция. Коэффициент Пирсона
-Критерий Стьюдента (T-анализ)
-Основы машинного обучения
-Регрессионный анализ
-Критерий Фишера
-Построение и анализ трендов в Excel
-Практическая работа. Определить наличие корреляции и регрессионную зависимость между двумя выборками данных. Построить тренд.
Модуль 5. Задачи классификации и распознавания образов, видео, речи, текста. Понятие нейронных сетей. Примеры применения. (3 ак. ч.)
-Задача сегментации дискретных данных на примере задач распознавания (графика, речь, текст)
-Нейронные сети как инструмент решения задач классификации
-Демонстрация на примерах Azure, AWS
-Задачи классификации данных в социальных сетях и поиска оптимального решения (маршрута)
-Графы как инструмент решения задач на социальных графах и прогнозирования поведения
-Дерево решений
-Разбиение на выборки (обучающую, тестовую, проверочную)
-Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
-Практическая работа: провести классификацию набора данных и его разбиение на сегменты.
Модуль 6. Задача исследования социальных сетей. Задача прогнозирования поведения пользователя. Социальные и направленные графы. Деревья решений. Примеры применения (3 ак. ч.)
-Задача классификации данных в социальных сетях
-Графы как инструмент решения задач на социальных графах и прогнозирования поведения
-Разбиение на выборки (обучающую, тестовую, проверочную)
-Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
Модуль 7. Продвинутые инструменты: глубокое машинное обучение, искусственный интеллект, нечеткие множества (1 ак. ч.)
-Понятие Deep Machine Learning
-Многофакторный бизнес анализ на примере нечетких логик
Модуль 8. Профориентация по специальностям в Data Science. Выводы и рекомендации по построению и организации работы команды (2 ак. ч.)
-Роли специалистов по DS: аналитик данных, ученый по данным, программист, цифровой директор
-Требования к компетенциям и взаимодействию сотрудников в области аналитики данных
-Состав и требования к проектной команде для DS
-Подготовка компании к применению «бигдата»