Курс «Инженер данных»

Курс находится на модерации. Данные могут быть неактуальны.

4.4

6,5 месяцев

Сложность

Продвинутый

Тип обучения

Курс

Формат обучения

С проверкой домашнего задания

Трудоустройство

Содействие

Стоимость курса

95 000 ₽

есть рассрочка

Освоите проектирование пайплайнов
Узнаете, как создавать витрины и хранилища
Будете учиться на практике вместе с опытной командой
Научитесь обрабатывать данные разными инструментами
Сделаете и добавите в портфолио 9 проектов
Получите помощь в поиске работы после курса

На курсе понадобятся знания SQL и Python

Что нужно знать по SQL:

Базовый синтаксис: операторы SELECT, GROUP BY, WHERE, HAVING и JOIN
Вложенные запросы и их комбинирование
Оконные функции
Ускорение запросов с помощью индексов по вторичному ключу

Что нужно знать по Python:

Базовый синтаксис: переменные, циклы, функции, условия
Структуры данных: список, словарь, кортеж, работа с индексами
Базовые операции с Pandas: открыть csv-файл, посчитать простую агрегацию по столбцу
Основы объектно-ориентированного программирования

Кому подойдёт курс

Практикующим разработчикам
Научитесь строить инфраструктуру для работы с данными и систематизируете знания, чтобы использовать их на текущей должности или сменить направление на инженера данных.
Начинающим инженерам данных
Структурируете знания: кроме понятной теории будет много практики. Вы получите опыт работы над проектами — это поможет составить портфолио, выделиться на фоне других кандидатов и не растеряться на реальной работе.
Специалистам по Data Science и аналитикам
Освоите навыки, которые помогут эффективнее справляться с задачами: строить дата-пайплайны, проектировать витрины, строить ETL и собирать сырые данные в большом объёме.

Какие инструменты освоите

Python
SQL
Metabase
Airflow
PostgreSQL
MongoDB
Docker
Redis
Yandex.Cloud
Kafka
Hadoop
Apache Spark
Spark Streaming
NoSQL

Что вы получите после обучения

Приобретаемые навыки

SQL

Python

Metabase

Apache Airflow

PostgreSQL

MongoDB

Docker

Redis

Yandex.Cloud

Apache Kafka

Hadoop

Apache Spark

Spark Streaming

Образовательная организация

Яндекс Практикум

4.3

888 отзывов

Яндекс Практикум — сервис онлайн-обучения, где каждый может освоить цифровую профессию с нуля или получить новые навыки для дальнейшего профессионального развития.

Яндекс Практикум готовит специалистов по 5 направлениям: анализ данных, программирование, дизайн, маркетинг, менеджмент.

Обучение проходит в собственной технологической среде компании, что позволяет студентам сразу применять полученные знания на практике. Карьерный центр оказывает содействие при поисках и устройстве на работу.

Программы состоят из двух частей: бесплатного вводного курса и платного продолжения. Бесплатная часть поможет оценить формат, примерить на себя профессию и принять взвешенное решение.

Преимущества:

Обучение основано на реальных ситуациях. Все задачи, которые вы будете выполнять, взяты из реальной рабочей практики. Оттуда же все инструменты: редакторы кода или Figma. С первых дней вы будете готовиться к своей будущей работе.
69% выпускников Практикума находят работу. В этом им помогает особый этап курса — карьерный трек. На нём со студентами работают наши HR-специалисты. Они учат студентов планировать процесс поиска работы, правильно составлять резюме, не теряться на собеседованиях и проходить тестовые задания. Читать исследование НИУ ВШЭ
Технологии помогают сделать так, чтобы каждому было удобно учиться. Теория — в учебнике с интерактивными элементами, задачи — в тренажёре.
Обратная связь. Еженедельные созвоны с наставниками и подробный письменный разбор выполненных заданий от ревьюера. Кураторы регулярно собирают обратную связь, чтобы в группе было комфортно и не страшно обратиться за помощью.
Возможность оплаты курса в рассрочку.

Программа курса

Инженер данных
Продолжительность курса 6,5 месяцев 8 проектов в портфолио

00 Вводная часть
Простая витрина данных
Устроитесь на работу в IT-компанию как начинающий инженер
данных и попробуете выполнить своё первое задание — получите
от лида требования и построите по ним витрину данных.
Воркшоп — это онлайн-занятие, которое проводит
наставник. На этих занятиях вы решите новые задачи
из практики инженера данных, разберёте и улучшите
собственные учебные проекты, узнаете больше
о профессии.

В каждом спринте будет от одного до трёх воркшопов.
Они будут проходить в течение всей программы
в фиксированное время.

01 Data Governance / Data Operations
В этом модуле вы изучите DataOps (от англ. Data Operations — «операции  
с данными»): начнёте создания хранилища и обработки данных, а закончите
работой с метриками и контролем качества данных.
Как построить аналитическое  
хранилище данных
Вы поможете молодому и быстрорастущему бизнесу справиться  
с хаосом в организации данных и спроектируете для него DWH —
хранилище данных.
В этом спринте вы:
— познакомитесь с необходимыми для строительства
хранилища данных технологиями

— изучите различные подходы к построению хранилищ

— научитесь работать с требованиями заказчика и выбирать
лучший подход для решения поставленной задачи
В этом спринте проекта нет. Вы продолжите работать  
с той же задачей в следующем спринте. Вместо проекта —
итоговый тест на проверку и закрепление знаний.

Спринт 2 Работа с данными в хранилище
Вы определились с тем, как будете строить хранилище данных,

и согласовали требования к нему с заказчиком. Осталось
изучить ещё пару вещей, и можно приступать к реализации.
В этом спринте вы:
— познакомитесь с понятием витрин данных, научитесь строить  
их и обновлять

— научитесь работать с инкрементальной загрузкой и транзакциями

— узнаете, как оптимизировать запросы
Построите хранилище данных в PostgreSQL Проект

Спринт 3 ETL: автоматизация подготовки
данных
О хранилище данных компании вы теперь знаете почти всё.
Пришло время настроить ETL-процессы.
В этом спринте вы:
— автоматизируете пайплайн работы с данными

— настроите автоматическую выгрузку данных из источников

— научитесь регулярно и инкрементально загружать данные в БД
Построите для e-commerce-проекта пайплайн
автоматизированного получения, обработки
и загрузки данных (ETL) от источников до витрины

Спринт 4 Проверка качества данных
Вы хотите быть уверены, что ваши первые пайплайны
работают нормально. Качество данных необходимо
проверять, а поломки — вовремя отслеживать.
В этом спринте вы:
— поймёте, как пользоваться метаинформацией и документацией

— оцените качество данных

02 Data at scale
Вы научились обрабатывать данные и теперь готовы к более сложной
задаче. Сначала создадите классический  
DWH (от англ. Data Warehouse — «хранилище данных»), а затем построите
Data Lake для разнообразных данных.
DWH для нескольких источников
Вы продолжаете исследовать DWH, потому что развитие компании

и, следовательно, увеличение объёма данных не остановить.
В этом спринте вы:
— построите DWH с нуля на реляционной СУБД

— познакомитесь с MongoDB в качестве источника данных
Спроектируете и реализуете DWH

Спринт 6 Аналитические базы данных
Специфичных неструктурированных данных, которые тоже
надо хранить и обрабатывать, становится больше. Поэтому
мы познакомим вас с концепцией аналитических баз данных
на примере СУБД Vertica.
В этом спринте вы:
— изучите организацию хранилища в Vertica

— научитесь делать базовые операции с данными в в Vertica

— построите простое хранилище данных в Vertica
Построите DWH для высоконагруженной системы
малоструктурированных данных мессенджера
с использованием Vertica

Спринт 7 Организация Data Lake
Классические решения не помогают справиться с объёмом
и разнообразием видов данных. Чтобы справиться с новыми
вызовами бизнеса, вы построите и наполните Data Lake.
В этом спринте вы:
— рассмотрите архитектуру Data Lake (пер. «озеро данных»)

— научитесь обрабатывать данные в MPP-системе

— наполните Data Lake данными из источников

— потренируетесь в обработке данных с помощью PySpark и Airflow.
Построите Data Lake, а также автоматизируете
загрузку и обработку данных в нём

03 Performance at scale
В этом модуле вы научитесь обрабатывать потоковые данные  
в реальном времени, а также изучите эластичность систем
на примере облачных технологий.
Потоковая обработка данных
Трудности с разнообразием данных вы победили, но появилась новая
задача — нужно помочь бизнесу быстрее принимать решения. Тут
понадобятся знания потоковой обработки данных (англ. streaming).
В этом спринте вы:
— рассмотрите особенности потоковой обработки данных

— построите свою стриминговую систему

— построите витрину с использованием real-time данных
Разработаете систему real-time обработки данных

Спринт 9 Облачные технологии
Теперь вы умеете работать и с большими объёмами данных,
и с потоками. Осталось только автоматизировать
масштабирование систем с помощью облачных сервисов.

В этом курсе вы познакомитесь с тем, как реализовать уже
изученные решения, но в облаке (на примере Яндекс Облака).
Разработаете инфраструктуры хранения
и обработки данных в облаке
Проект

04 Выпускной проект
Подтвердите, что освоили новые навыки.

Здесь вам будет нужно самостоятельно выбрать и реализовать
решения для бизнес-задачи. Это поможет вам ещё раз закрепить
использование изученных инструментов, а также самостоятельность.