Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.
Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.
Для кого этот курс?
Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.
Для обучения вам понадобятся базовые навыки работы с данными. Предлагаем посмотреть Карту курсов направления Data Science в OTUS, чтобы сориентироваться в необходимом уровне подготовки.
Вы научитесь:
- Использовать стандартные инструменты ML-конвейеров в распределенной среде;
- Разрабатывать собственные блоки для ML-конвейеров;
- Адаптировать ML-алгоритмы к распределенной среде и инструментам big data;
- Использовать Spark, SparkML, Spark Streaming;
- Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;
- Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.
Востребованность специалистов
Навыки, которые вы освоите, максимально прикладные и перспективные. На рынке появляется все больше цифровых продуктов, для развития которых необходима работа с большими данными и потоковую обработку. Уже сейчас специалисты с таким пулом навыков и некоторым опытом работы могут претендовать на зарплату от 270 тыс. рублей. Другой тренд — автоматизация процессов обучения и валидации, напротив, в некотором роде обесценивает работу классического Data Scientist. Все движется к тому, что даже неспециалист сможет сделать fit-predict. Поэтому уже сейчас в цене те, кто имеют хотя бы поверхностные инженерные навыки.
Особенности курса
Много практики работы с данными
Широкий спектр навыков от распределенного ML и потоковой обработки данных до вывода в продакшн
Актуальные инструменты и технологии: Scala, Spark, Python, Docker
Живое общение с экспертами на вебинарах и в чате Slack