Актуализация модели данных
1 модуль 2 недели
Компания продолжает погружать вас в свои процессы. Данные, с которыми вы работали, обновились, поэтому необходимо изменить модель данных.
В этом курсе вы:
- разберётесь, как в компании строят БД;
- обновите структуру текущей БД в соответствии с новыми требованиями бизнеса;
- подготовите новые витрины и метрики для аналитиков и менеджеров.
Технологии и инструменты:
+1 проект в портфолио
Построите витрину данных с инкрементальной загрузкой для аналитики аудитории интернет-магазина.
DWH: пересмотр модели данных
2 модуль 3 недели
Компания растёт, архитектура данных усложняется. Вам дают задание — оптимизировать процессы с данными.
В этом курсе вы:
- продумаете процесс перехода со старой схемы БД на новую с минимизацией потерь для бизнеса (zero-downtime deployment);
- подготовите миграцию данных;
- учтёте возможные проблемы и спроектируете вариант отката изменений;
- реализуете новую структуру БД и адаптируете её под существующие процессы вокруг данных.
Технологии и инструменты:
+1 проект в портфолио
Приведёте в порядок модель данных и осуществите миграцию данных в рамках текущего хранилища интернет-магазина.
ETL: автоматизация подготовки данных
3 модуль 3 недели
О хранилище данных компании вы теперь знаете почти всё. Пришло время пересмотреть ETL-процессы.
В этом курсе вы:
- автоматизируете пайплайн данных;
- настроите автоматическую выгрузку данных из источников;
- научитесь регулярно и инкрементально загружать данные в БД.
Технологии и инструменты:
- Python
- Airflow
- PostgreSQL
+1 проект в портфолио
Построите для e-commerce-проекта пайплайн автоматизированного получения, обработки и загрузки данных от источников до витрины.
Проверка качества данных
4 модуль 1 неделя
Вы хотите быть уверены, что ваши первые пайплайны работают нормально. Качество данных необходимо проверять, а поломки — вовремя отслеживать.
В этом курсе вы:
- поймёте, как пользоваться метаинформацией и документацией;
- оцените качество данных.
DWH для нескольких источников
5 модуль 2 недели
Вы продолжаете исследовать DWH, потому что развитие компании и, следовательно, увеличение объёма данных не остановить.
В этом курсе вы:
- построите DWH с нуля на реляционной СУБД;
- познакомитесь с MongoDB в качестве источника данных.
Технологии и инструменты:
+1 проект в портфолио
Спроектируете и реализуете DWH для инхаус-стартапа.
Аналитические базы данных
6 модуль 2 недели
Специфичных неструктурированных данных, которые тоже надо хранить и обрабатывать, становится больше. Поэтому мы познакомим вас с концепцией аналитических баз данных на примере СУБД Vertica.
В этом курсе вы:
- изучите организацию хранилища в Vertica;
- научитесь делать базовые операции с данными в Vertica;
- построите простое хранилище данных в Vertica.
Технологии и инструменты:
- Vertica
- PostgreSQL
- Airflow
- S3
+1 проект в портфолио
Построите DWH для высоконагруженной системы малоструктурированных данных мессенджера с использованием Vertica.
Организация Data Lake
7 модуль 4 недели
Классические решения не помогают справиться с объёмом данных. Чтобы справиться с новыми вызовами бизнеса, вы построите и наполните Data Lake.
В этом курсе вы:
- рассмотрите архитектуру Data Lake (пер. «озеро данных»);
- научитесь обрабатывать данные в MPP-системе;
- наполните Data Lake данными из источников;
- потренируетесь в обработке данных с помощью PySpark и Airflow.
Технологии и инструменты:
- Hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 проект в портфолио
Построите Data Lake, а также автоматизируете загрузку и обработку данных в нём.
Потоковая обработка данных
8 модуль 3 недели
Трудности с большим объёмом данных вы победили, но появилась новая задача — нужно помочь бизнесу быстрее принимать решения. Тут понадобятся знания потоковой обработки данных (англ. streaming).
В этом курсе вы:
- рассмотрите особенности потоковой обработки данных;
- построите свою стриминговую систему;
- построите витрину с использованием real-time данных.
Технологии и инструменты:
+1 проект в портфолио
Разработаете систему real-time обработки данных.
Облачные технологии
9 модуль 3 недели
Теперь вы умеете работать и с большими объёмами данных, и с потоками. Осталось только автоматизировать масштабирование систем с помощью облачных сервисов.
В этом курсе вы познакомитесь с тем, как реализовать уже изученные решения, но в облаке (на примере Яндекс Облака).
Технологии и инструменты:
- Яндекс.Облако
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 проект в портфолио
Разработаете инфраструктуры хранения и обработки данных в облаке.
Выпускной проект
10 модуль 3 недели
Подтвердите, что освоили новые навыки.
Здесь вам будет нужно самостоятельно выбрать и реализовать решения для бизнес-задачи. Это поможет вам ещё раз закрепить использование изученных инструментов, а также самостоятельность.