SQL и получение данных
• Основы баз данных
• Работа с базами данных
• Основы SQL
• Продвинутый SQL
• Углубление в SQL
• Работа с PostgreSQL
• Работа с MongoDB
Data Warehouse
Научим работать с классическим хранилищем данных.
• Введение в хранилища данных
• Проектирование хранилища данных
• Знакомство с Pentaho
• Pentaho как инструмент ETL
• ETL-pro
• Общие рекомендации по разработки ETL
• Смежные темы
• DWH в облаке
Business Intelligence решения и многомерная модель данных
• BI как сердце аналитики
• Многомерные модели
• Real-time отчётность
• Современные подходы
Python
• Основы Python
• Введение в анализ данных на Python
• Статистика в Python
• Предобработка данных
• Feature Selection
Data Lake & Hadoop
Познакомим с основным инструментом обработки больших данных.
• Основы Hadoop
• HDFS
• MapReduce
• MapReduce 2
• Yarn
• Pig & Hive
• HBase & Cassandra
• Кластер. Управление и администрирование
Продвинутые методы работы с данными
• Apache Spark
• Работа со Spark
• Spark SQL
• Продвинутый Spark
• Airflow
• Работа с Airflow
• Продвинутый Airflow
• Dbt как инструмент ETL
Работа с потоковыми данными
Научим работать с потоковыми данными.
• ClickHouse
• Kafka
• Kafka Streams
• Kafka Streams 2
• Spark Streaming
• Spark Streaming 2
Работа с данными в облаке
• Google Cloud Platform — хранение данных
• Spark в GCP
• Managed ETL в GCP
• Обработка real-time данных в GCP
• Поиск инсайтов в данных при помощи ML
• Другие облачные провайдеры
Введение в DS & ML
• Введение в машинное обучение
• Задача классификации
• Задача кластеризации
• Ансамблевые методы решения задачи классификации
• Feature engineering
• Нейронные сети
MLOps
• Зачем нужен DevOps
• Docker и микросервисная архитектура
• K8S
• Орекстраторы
• CI/CD
• Мониторинг
• Инструменты DevOps для обучения ML-моделей
• Deploy ML-моделей
Дипломный проект
Разработка и документирование ETL-процессов заливки данных в хранилище