Сложность
Сложность
Начинающий
Тип обучения
Тип обучения
Курс
Формат обучения
Формат обучения
С проверкой домашнего задания
Трудоустройство
Трудоустройство
Отсутствует
Сертификат
Сертификат
Да

Стоимость курса

100 000 ₽
есть рассрочка

На интенсиве вы:

  • внедрите правки прямо в прод;
  • узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
  • поймете, какие метрики собирать и как это делать правильно;
  • научитесь быстро поднимать продакшн силами команды;
  • узнаете, как снизить ущерб от отказов в будущем.

Кому полезно

ЛЮДЯМ
SRE-инженером может стать как инженер эксплуатации, так и разработчик. На интенсиве вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.
 
БИЗНЕСУ
SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».

В результате интенсива

Могу настроить:

  • мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Понимаю как эти метрики выбрать;
  • мониторинг SRE-инфраструктурных сервисов. Умею опознавать и решать проблемы с инфраструктурой;
  • alerting и healthcheck;
  • разные методы деплоймента, знаю какие инструменты для этого существуют.

Могу организовать:

  • пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаю, какие инцидент сервисы существуют;
  • надежные коммуникации между сервисами retry, timeout, circuit breaker.

Как проходит интенсив

  • ИЗУЧАЕМ ТЕОРИЮ
  • ЗНАКОМИМСЯ ВНУТРИ КОМАНДЫ И НАЛАЖИВАЕМ ВЗАИМОДЕЙСТВИЕ
  • РЕШАЕМ ПРАКТИЧЕСКИЕ КЕЙСЫ
  • ПОДВОДИМ ИТОГИ, РЕФЛЕКСИРУЕМ
  • ОБСУЖДАЕМ ОНБОРДИНГ SRE-ПОДХОДА В ВАШЕЙ КОМПАНИИ

Строим:
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.

 

Ломаем:
Внутренние и внешние факторы начинают «портить» SLO

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.

 

Чиним:
incident response

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.

 

Изучаем:

Cмотрим на сайт и инциденты с точки зрения SRE

Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы. 

Что вы получите после обучения

Приобретаемые навыки
1
SRE
2
Мониторинг
3
SLO
4
SLI
5
SLA
6
downstream
7
Resiliencе Engineering
8
HiPPO
9
upstream
10
Traffic Shielding
11
Health Checking
12
Kubernetes

Вас будут обучать

Архитектор в Yandex.Cloud

— На счету десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD,
— Certified Kubernetes Administrator,
— Автор нескольких курсов по Kubernetes и DevOps,
— Регулярный докладчик на Российских и международных IT-конференциях.

TechLead SRE
 

— Тысячи выстроенных пайплайнов CI/CD
— Более 100 инсталляций Kubernetes в продакшен
— Автор нескольких курсов по DevOps и его внедрению

Эксперт в области высоких нагрузок
 

— Спикер Highload++ 2022
— Десятки успешных проектов по подъему нагрузки в США, Европе и России
— Серьезный опыт кризис-менеджмента и ведения инцидентов
— Регулярный докладчик на конференциях и митах

Образовательная организация

Учебный центр: обучение для инженеров и технических лидеров. 

Слёрм вырос из внутреннего обучения Southbridge, аутсорсера администрирования нагруженных проектов. В процессе обучения сотрудников появился учебный курс по Kubernetes, а потом базовый курс дополнился продвинутым, появились курсы DevOps, Docker, Ceph, SRE.

Задача Слёрма - передавать применимые на практике знания для IT-специалистов. Учим DevOps-инженеров и разработчиков от новичков до техлидов. 

Учим тому, в чём уверены сами.

Мы улучшаем IT-мир, создавая полезное образование для специалистов, и предпочитаем развиваться без оглядки на других, идти собственным путём.

Программа курса

1 день (вторник) 19:00 мск, установочная AMA-сессия
Обсудим цели и задачи курса, а также расскажем что такое SRE, распределим на команды.

Открытие 2 теоретических тем:

Тема 1: Мониторинг

Зачем нужен мониторинг
Перцентили
Alerting
Observability

Тема 2: Теория SRE

SLO, SLI, SLA
Durability
Error budget

2 день (суббота) 10:00 - 16:00 мск, разбор практик и кейсов*
Практика: Делаем базовый дашборд и настраиваем необходимые алерты

Практика: Добавляем на дашборд SLO/SLI + алерты

Практика: Первая нагрузка системы

Решение 1 кейса: зависимость downstream.

В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.

Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.
3 день (вторник) 19:00 мск, AMA-сессия, ответы на вопросы
AMA-сессия и ответы на вопросы

Открывается доступ к 2-му теоретическому модулю:

Решение проблем с окружением и архитектурой

Второй модуль построен вокруг решения двух кейсов: зависимость upstream и проблемы с архитектурой. Спикеры расскажут про управление инцидентами, правила для пожарной команды и работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.


Тема 3: Управление инцидентами

Resiliencе Engineering
Как выстраивается пожарная бригада
Насколько ваша команда эффективна в инциденте
7 правил для лидера инцидента
5 правил для пожарного
HiPPO — highest paid person's opinion. Communications Leader

Тема 4: Инструменты варрума и алерт менеджмента.

Вest practiсe других компаний в организации инцидент-менеджмента.

4 день (суббота) 10:00 - 17:00 мск, разбор практик и кейсов
Решение 2 кейса: зависимость upstream.

Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.

В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.

Решение 3 кейса: проблемы с базой данных.

База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы — непонятно.

Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.

Практика работы с постмортемами

Практика: Пишем постмортем по предыдущему кейсу и разбираем его со спикерами.


5 день (вторник) 19:00 мск, AMA-сессия, ответы на вопросы
AMA-сессия и ответы на вопросы по предыдущим темам.

Открывается доступ к 3-му теоретическому модулю:

Traffic shielding и канареечные релизы

В третьем модуле мы разберем кейс, посвященный проблеме с окружением, а также поэтапно разберем, как внедрять SRE в компании и узнаем опыт компаний, в которых работают спикеры курса.

Тема 5: Health Checking

Health Check в Kubernetes
Жив ли наш сервис?
Exec probes
InitialDelaySeconds
Secondary Health Port
Sidecar Health Server
Headless Probe
Hardware Probe

Тема 6: Способы деплоймента

Тема 7: SRE онбординг проекта

В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.

6 день (суббота) 10:00 - 16:00 мск, разбор практик и кейсов
Решение 4 кейса: проблема с окружением, билеты купить невозможно.

Задача Healthcheck — обнаружить неработающий сервис и заблокировать трафик к нему. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность — проблемы могут быть в окружении.

Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.

Подведение итогов

Рейтинг курса

3.1
рейтинг
0
0
0
0
0

Может быть интересно

обновлено 26.11.2024 07:04
Site Reliability Engineering: data-driven подход к управлению надежностью систем

Site Reliability Engineering: data-driven подход к управлению надежностью систем

Оставить отзыв
Поделиться курсом с друзьями