Подпишитесь на телеграмм-канал про ИИ в образовании: Егошин | Кеды профессора
Сложность
Сложность
Продвинутый
Тип обучения
Тип обучения
Курс
Формат обучения
Формат обучения
С проверкой домашнего задания
Трудоустройство
Трудоустройство
Содействие

Стоимость курса

95 000 ₽
есть рассрочка
  • Освоите проектирование пайплайнов
  • Узнаете, как создавать витрины и хранилища
  • Будете учиться на практике вместе с опытной командой
  • Научитесь обрабатывать данные разными инструментами
  • Сделаете и добавите в портфолио 9 проектов
  • Получите помощь в поиске работы после курса

На курсе понадобятся знания SQL и Python

Что нужно знать по SQL:

  • Базовый синтаксис: операторы SELECT, GROUP BY, WHERE, HAVING и JOIN
  • Вложенные запросы и их комбинирование
  • Оконные функции
  • Ускорение запросов с помощью индексов по вторичному ключу

Что нужно знать по Python:

  • Базовый синтаксис: переменные, циклы, функции, условия
  • Структуры данных: список, словарь, кортеж, работа с индексами
  • Базовые операции с Pandas: открыть csv-файл, посчитать простую агрегацию по столбцу
  • Основы объектно-ориентированного программирования

Кому подойдёт курс

Практикующим разработчикам
Научитесь строить инфраструктуру для работы с данными и систематизируете знания, чтобы использовать их на текущей должности или сменить направление на инженера данных.
Начинающим инженерам данных
Структурируете знания: кроме понятной теории будет много практики. Вы получите опыт работы над проектами — это поможет составить портфолио, выделиться на фоне других кандидатов и не растеряться на реальной работе.
Специалистам по Data Science и аналитикам
Освоите навыки, которые помогут эффективнее справляться с задачами: строить дата-пайплайны, проектировать витрины, строить ETL и собирать сырые данные в большом объёме.

Какие инструменты освоите
 

  • Python
  • SQL
  • Metabase
  • Airflow
  • PostgreSQL
  • MongoDB
  • Docker
  • Redis
  • Yandex.Cloud
  • Kafka
  • Hadoop
  • Apache Spark
  • Spark Streaming
  • NoSQL

Что вы получите после обучения

Приобретаемые навыки
3
Metabase
4
Apache Airflow
6
MongoDB
8
Redis
9
Yandex.Cloud
10
Apache Kafka
11
Hadoop
12
Apache Spark
13
Spark Streaming

Образовательная организация

Яндекс Практикум — сервис онлайн-обучения, где каждый может освоить цифровую профессию с нуля или получить новые навыки для дальнейшего профессионального развития.

Яндекс Практикум готовит специалистов по 5 направлениям: анализ данных, программирование, дизайн, маркетинг, менеджмент.

Обучение проходит в собственной технологической среде компании, что позволяет студентам сразу применять полученные знания на практике. Карьерный центр оказывает содействие при поисках и устройстве на работу.

Программы состоят из двух частей: бесплатного вводного курса и платного продолжения. Бесплатная часть поможет оценить формат, примерить на себя профессию и принять взвешенное решение.

Преимущества:

Обучение основано на реальных ситуациях. Все задачи, которые вы будете выполнять, взяты из реальной рабочей практики. Оттуда же все инструменты: редакторы кода или Figma. С первых дней вы будете готовиться к своей будущей работе.
69% выпускников Практикума находят работу. В этом им помогает особый этап курса — карьерный трек. На нём со студентами работают наши HR-специалисты. Они учат студентов планировать процесс поиска работы, правильно составлять резюме, не теряться на собеседованиях и проходить тестовые задания. Читать исследование НИУ ВШЭ
Технологии помогают сделать так, чтобы каждому было удобно учиться. Теория — в учебнике с интерактивными элементами, задачи — в тренажёре.
Обратная связь. Еженедельные созвоны с наставниками и подробный письменный разбор выполненных заданий от ревьюера. Кураторы регулярно собирают обратную связь, чтобы в группе было комфортно и не страшно обратиться за помощью.
Возможность оплаты курса в рассрочку. 

Программа курса

Инженер данных
Продолжительность курса 6,5 месяцев 8 проектов в портфолио

00 Вводная часть
Простая витрина данных
Устроитесь на работу в IT-компанию как начинающий инженер
данных и попробуете выполнить своё первое задание — получите
от лида требования и построите по ним витрину данных.
Воркшоп — это онлайн-занятие, которое проводит
наставник. На этих занятиях вы решите новые задачи
из практики инженера данных, разберёте и улучшите
собственные учебные проекты, узнаете больше
о профессии. 

В каждом спринте будет от одного до трёх воркшопов.
Они будут проходить в течение всей программы
в фиксированное время.

01 Data Governance / Data Operations
В этом модуле вы изучите DataOps (от англ. Data Operations — «операции 

с данными»): начнёте создания хранилища и обработки данных, а закончите
работой с метриками и контролем качества данных.
Как построить аналитическое 

хранилище данных
Вы поможете молодому и быстрорастущему бизнесу справиться 

с хаосом в организации данных и спроектируете для него DWH —
хранилище данных.
В этом спринте вы:
— познакомитесь с необходимыми для строительства
хранилища данных технологиями

— изучите различные подходы к построению хранилищ

— научитесь работать с требованиями заказчика и выбирать
лучший подход для решения поставленной задачи
В этом спринте проекта нет. Вы продолжите работать 

с той же задачей в следующем спринте. Вместо проекта —
итоговый тест на проверку и закрепление знаний.

Спринт 2 Работа с данными в хранилище
Вы определились с тем, как будете строить хранилище данных, 

и согласовали требования к нему с заказчиком. Осталось
изучить ещё пару вещей, и можно приступать к реализации.
В этом спринте вы:
— познакомитесь с понятием витрин данных, научитесь строить 

их и обновлять

— научитесь работать с инкрементальной загрузкой и транзакциями

— узнаете, как оптимизировать запросы
Построите хранилище данных в PostgreSQL Проект

Спринт 3 ETL: автоматизация подготовки
данных
О хранилище данных компании вы теперь знаете почти всё.
Пришло время настроить ETL-процессы.
В этом спринте вы:
— автоматизируете пайплайн работы с данными

— настроите автоматическую выгрузку данных из источников

— научитесь регулярно и инкрементально загружать данные в БД
Построите для e-commerce-проекта пайплайн
автоматизированного получения, обработки
и загрузки данных (ETL) от источников до витрины

Спринт 4 Проверка качества данных
Вы хотите быть уверены, что ваши первые пайплайны
работают нормально. Качество данных необходимо
проверять, а поломки — вовремя отслеживать.
В этом спринте вы:
— поймёте, как пользоваться метаинформацией и документацией

— оцените качество данных

02 Data at scale
Вы научились обрабатывать данные и теперь готовы к более сложной
задаче. Сначала создадите классический 

DWH (от англ. Data Warehouse — «хранилище данных»), а затем построите
Data Lake для разнообразных данных.
DWH для нескольких источников
Вы продолжаете исследовать DWH, потому что развитие компании 

и, следовательно, увеличение объёма данных не остановить.
В этом спринте вы:
— построите DWH с нуля на реляционной СУБД

— познакомитесь с MongoDB в качестве источника данных
Спроектируете и реализуете DWH


Спринт 6 Аналитические базы данных
Специфичных неструктурированных данных, которые тоже
надо хранить и обрабатывать, становится больше. Поэтому
мы познакомим вас с концепцией аналитических баз данных
на примере СУБД Vertica.
В этом спринте вы:
— изучите организацию хранилища в Vertica

— научитесь делать базовые операции с данными в в Vertica

— построите простое хранилище данных в Vertica
Построите DWH для высоконагруженной системы
малоструктурированных данных мессенджера
с использованием Vertica

Спринт 7 Организация Data Lake
Классические решения не помогают справиться с объёмом
и разнообразием видов данных. Чтобы справиться с новыми
вызовами бизнеса, вы построите и наполните Data Lake.
В этом спринте вы:
— рассмотрите архитектуру Data Lake (пер. «озеро данных»)

— научитесь обрабатывать данные в MPP-системе

— наполните Data Lake данными из источников

— потренируетесь в обработке данных с помощью PySpark и Airflow.
Построите Data Lake, а также автоматизируете
загрузку и обработку данных в нём

03 Performance at scale
В этом модуле вы научитесь обрабатывать потоковые данные 

в реальном времени, а также изучите эластичность систем
на примере облачных технологий.
Потоковая обработка данных
Трудности с разнообразием данных вы победили, но появилась новая
задача — нужно помочь бизнесу быстрее принимать решения. Тут
понадобятся знания потоковой обработки данных (англ. streaming).
В этом спринте вы:
— рассмотрите особенности потоковой обработки данных

— построите свою стриминговую систему

— построите витрину с использованием real-time данных
Разработаете систему real-time обработки данных

Спринт 9 Облачные технологии
Теперь вы умеете работать и с большими объёмами данных,
и с потоками. Осталось только автоматизировать
масштабирование систем с помощью облачных сервисов.

В этом курсе вы познакомитесь с тем, как реализовать уже
изученные решения, но в облаке (на примере Яндекс Облака).
Разработаете инфраструктуры хранения
и обработки данных в облаке
Проект

04 Выпускной проект
Подтвердите, что освоили новые навыки.

Здесь вам будет нужно самостоятельно выбрать и реализовать
решения для бизнес-задачи. Это поможет вам ещё раз закрепить
использование изученных инструментов, а также самостоятельность.

Рейтинг курса

4.4
рейтинг
0
0
0
0
0

Может быть интересно

обновлено 16.12.2024 08:33
Курс «Инженер данных»

Курс «Инженер данных»

Оставить отзыв
Поделиться курсом с друзьями