Модуль 1: Введение в аналитику, табличные данные, базы данных
Базовые инструменты аналитики
— Что такое аналитика?
— Введение в google таблицы
— Продвинутые google таблицы
— Основы статистики
— Продвинутая статистика
— Сбор данных
— Визуализация данных
SQL и получение данных
— Базы данных
— Язык запросов
— Сложные запросы
— Оптимизация запросов
— Работа с PostgreSql
Промежуточная аттестация
Модуль 2: Python как инструмент работы с данными
Python для анализа данных
— Основы языка Python и основные алгоритмические конструкции (типы данных, ветвление, циклы и основные операторы)
— Работа со списками. Практика по основам numpy
— Загрузка/выгрузка данных различных форматов: xlsx, csv, json, xml
— Использование IPython, Jupyter
— Использование Git для контроля за версионностью и совместной работы
Работа с массивами данных
— Подготовка данных для анализа, очистка и нормирование, заполнение пропусков
— Группировка данных (с помощью словарей, с помощью функций), итерирование по сгруппированным данным
— Основные принципы визуального представления информации
— Методы визуализации данных. Практика по matplotlib, seabor
— Продвинутые функции numpy: Broadcasting
Статистика в Python
— Дескриптивная статистика и разведочный анализ данных в Python. Корреляция. Практикум по SciPy
— A/B тестирование
— Работа с временными рядами в Python. Скользящее среднее. ARIMA. Декомпозиция временных рядов. Практикум по statsmodels
Промежуточная аттестация
Модуль 3: Большие данные
Большие данные
— Что такое большие данные?
— Машинные методы в обработке данных
— Ускорение обработки данных. Практика pandas
— Мотивация и инструменты больших данных
— NoSQL-подход к работе с большими данными
— MapReduce
— Культура сбора и источники данных
— Практика PySpark
Промежуточная аттестация
Итоговая аттестация
Защита проектной работы