Курс находится на модерации. Данные могут быть неактуальны.
Сложность
Сложность
Продвинутый
Тип обучения
Тип обучения
Курс
Формат обучения
Формат обучения
С проверкой домашнего задания
Трудоустройство
Трудоустройство
Содействие

Стоимость курса

95 000 ₽
есть рассрочка
  • Освоите проектирование пайплайнов
  • Узнаете, как создавать витрины и хранилища
  • Будете учиться на практике вместе с опытной командой
  • Научитесь обрабатывать данные разными инструментами
  • Сделаете и добавите в портфолио 9 проектов
  • Получите помощь в поиске работы после курса

На курсе понадобятся знания SQL и Python

Что нужно знать по SQL:

  • Базовый синтаксис: операторы SELECT, GROUP BY, WHERE, HAVING и JOIN
  • Вложенные запросы и их комбинирование
  • Оконные функции
  • Ускорение запросов с помощью индексов по вторичному ключу

Что нужно знать по Python:

  • Базовый синтаксис: переменные, циклы, функции, условия
  • Структуры данных: список, словарь, кортеж, работа с индексами
  • Базовые операции с Pandas: открыть csv-файл, посчитать простую агрегацию по столбцу
  • Основы объектно-ориентированного программирования

Кому подойдёт курс

Практикующим разработчикам
Научитесь строить инфраструктуру для работы с данными и систематизируете знания, чтобы использовать их на текущей должности или сменить направление на инженера данных.
Начинающим инженерам данных
Структурируете знания: кроме понятной теории будет много практики. Вы получите опыт работы над проектами — это поможет составить портфолио, выделиться на фоне других кандидатов и не растеряться на реальной работе.
Специалистам по Data Science и аналитикам
Освоите навыки, которые помогут эффективнее справляться с задачами: строить дата-пайплайны, проектировать витрины, строить ETL и собирать сырые данные в большом объёме.

Какие инструменты освоите
 

  • Python
  • SQL
  • Metabase
  • Airflow
  • PostgreSQL
  • MongoDB
  • Docker
  • Redis
  • Yandex.Cloud
  • Kafka
  • Hadoop
  • Apache Spark
  • Spark Streaming
  • NoSQL

Что вы получите после обучения

Приобретаемые навыки
3
Metabase
4
Apache Airflow
6
MongoDB
8
Redis
9
Yandex.Cloud
10
Apache Kafka
11
Hadoop
12
Apache Spark
13
Spark Streaming

Образовательная организация

Яндекс Практикум — сервис онлайн-обучения, где каждый может освоить цифровую профессию с нуля или получить новые навыки для дальнейшего профессионального развития.

Яндекс Практикум готовит специалистов по 5 направлениям: анализ данных, программирование, дизайн, маркетинг, менеджмент.

Обучение проходит в собственной технологической среде компании, что позволяет студентам сразу применять полученные знания на практике. Карьерный центр оказывает содействие при поисках и устройстве на работу.

Программы состоят из двух частей: бесплатного вводного курса и платного продолжения. Бесплатная часть поможет оценить формат, примерить на себя профессию и принять взвешенное решение.

Преимущества:

Обучение основано на реальных ситуациях. Все задачи, которые вы будете выполнять, взяты из реальной рабочей практики. Оттуда же все инструменты: редакторы кода или Figma. С первых дней вы будете готовиться к своей будущей работе.
69% выпускников Практикума находят работу. В этом им помогает особый этап курса — карьерный трек. На нём со студентами работают наши HR-специалисты. Они учат студентов планировать процесс поиска работы, правильно составлять резюме, не теряться на собеседованиях и проходить тестовые задания. Читать исследование НИУ ВШЭ
Технологии помогают сделать так, чтобы каждому было удобно учиться. Теория — в учебнике с интерактивными элементами, задачи — в тренажёре.
Обратная связь. Еженедельные созвоны с наставниками и подробный письменный разбор выполненных заданий от ревьюера. Кураторы регулярно собирают обратную связь, чтобы в группе было комфортно и не страшно обратиться за помощью.
Возможность оплаты курса в рассрочку. 

Программа курса

Актуализация модели данных

1 модуль 2 недели

Компания продолжает погружать вас в свои процессы. Данные, с которыми вы работали, обновились, поэтому необходимо изменить модель данных.

В этом курсе вы:
- разберётесь, как в компании строят БД;
- обновите структуру текущей БД в соответствии с новыми требованиями бизнеса;
- подготовите новые витрины и метрики для аналитиков и менеджеров.

Технологии и инструменты:

  • PostgreSQL

+1 проект в портфолио
Построите витрину данных с инкрементальной загрузкой для аналитики аудитории интернет-магазина. 

DWH: пересмотр модели данных

2 модуль 3 недели

Компания растёт, архитектура данных усложняется. Вам дают задание — оптимизировать процессы с данными.

В этом курсе вы:
- продумаете процесс перехода со старой схемы БД на новую с минимизацией потерь для бизнеса (zero-downtime deployment);
- подготовите миграцию данных;
- учтёте возможные проблемы и спроектируете вариант отката изменений;
- реализуете новую структуру БД и адаптируете её под существующие процессы вокруг данных.

Технологии и инструменты:

  • PosgreSQL
  • Python

+1 проект в портфолио
Приведёте в порядок модель данных и осуществите миграцию данных в рамках текущего хранилища интернет-магазина. 

ETL: автоматизация подготовки данных

3 модуль 3 недели

О хранилище данных компании вы теперь знаете почти всё. Пришло время пересмотреть ETL-процессы.

В этом курсе вы:
- автоматизируете пайплайн данных;
- настроите автоматическую выгрузку данных из источников;
- научитесь регулярно и инкрементально загружать данные в БД.

Технологии и инструменты:

  • Python
  • Airflow
  • PostgreSQL

+1 проект в портфолио
Построите для e-commerce-проекта пайплайн автоматизированного получения, обработки и загрузки данных от источников до витрины.

Проверка качества данных

4 модуль 1 неделя

Вы хотите быть уверены, что ваши первые пайплайны работают нормально. Качество данных необходимо проверять, а поломки — вовремя отслеживать.

В этом курсе вы:
- поймёте, как пользоваться метаинформацией и документацией;
- оцените качество данных.

DWH для нескольких источников

5 модуль 2 недели

Вы продолжаете исследовать DWH, потому что развитие компании и, следовательно, увеличение объёма данных не остановить.

В этом курсе вы:
- построите DWH с нуля на реляционной СУБД;
- познакомитесь с MongoDB в качестве источника данных.

Технологии и инструменты:

  • PostgreSQL
  • MongoDB

+1 проект в портфолио
Спроектируете и реализуете DWH для инхаус-стартапа. 

Аналитические базы данных

6 модуль 2 недели

Специфичных неструктурированных данных, которые тоже надо хранить и обрабатывать, становится больше. Поэтому мы познакомим вас с концепцией аналитических баз данных на примере СУБД Vertica.

В этом курсе вы:
- изучите организацию хранилища в Vertica;
- научитесь делать базовые операции с данными в Vertica;
- построите простое хранилище данных в Vertica.

Технологии и инструменты:

  • Vertica
  • PostgreSQL
  • Airflow
  • S3

+1 проект в портфолио
Построите DWH для высоконагруженной системы малоструктурированных данных мессенджера с использованием Vertica.

Организация Data Lake

7 модуль 4 недели

Классические решения не помогают справиться с объёмом данных. Чтобы справиться с новыми вызовами бизнеса, вы построите и наполните Data Lake.

В этом курсе вы:
- рассмотрите архитектуру Data Lake (пер. «озеро данных»);
- научитесь обрабатывать данные в MPP-системе;
- наполните Data Lake данными из источников;
- потренируетесь в обработке данных с помощью PySpark и Airflow.

Технологии и инструменты:

  • Hadoop
  • MapReduce
  • HDFS
  • Apache Spark (PySpark)

+1 проект в портфолио
Построите Data Lake, а также автоматизируете загрузку и обработку данных в нём.

Потоковая обработка данных

8 модуль 3 недели

Трудности с большим объёмом данных вы победили, но появилась новая задача — нужно помочь бизнесу быстрее принимать решения. Тут понадобятся знания потоковой обработки данных (англ. streaming).

В этом курсе вы:
- рассмотрите особенности потоковой обработки данных;
- построите свою стриминговую систему;
- построите витрину с использованием real-time данных.

Технологии и инструменты:

  • Kafka
  • Spark Streaming

+1 проект в портфолио
Разработаете систему real-time обработки данных. 

Облачные технологии

9 модуль 3 недели

Теперь вы умеете работать и с большими объёмами данных, и с потоками. Осталось только автоматизировать масштабирование систем с помощью облачных сервисов.

В этом курсе вы познакомитесь с тем, как реализовать уже изученные решения, но в облаке (на примере Яндекс Облака).

Технологии и инструменты:

  • Яндекс.Облако
  • Kubernetes
  • kubectl
  • Redis
  • PostgreSQL

+1 проект в портфолио
Разработаете инфраструктуры хранения и обработки данных в облаке.

Выпускной проект

10 модуль 3 недели

Подтвердите, что освоили новые навыки.

Здесь вам будет нужно самостоятельно выбрать и реализовать решения для бизнес-задачи. Это поможет вам ещё раз закрепить использование изученных инструментов, а также самостоятельность.

Рейтинг курса

4.4
рейтинг
0
0
0
0
0

Может быть интересно

обновлено 12.11.2024 16:01
Курс «Инженер данных»

Курс «Инженер данных»

Оставить отзыв
Поделиться курсом с друзьями