Складчина: Мониторинг и стабильность Rails-приложений [Пакет Слушатель] [Thinknetica] [Алексей Наумов]
Этот воркшоп для вас, если:
- дошли до уровня, когда уже задумываетесь о работе всего приложения, а не только делаете отдельные задачи
- в проекте нет системного мониторинга и алертинга
- порой приходится что-то чинить на проде и долго разбираться с причинами проблем
- планируете рост нагрузки на приложение
- хотите сделать мониторинг был действительно полезным и эффективным, а не набором красивых данных, в которые никто не смотрит
- с приложением всё здорово, но хочется быть уверенным в том, что это будет продолжаться и дальше
День 1. Основы мониторинга
Поговорим о том, зачем нужен мониторинг, на какие метрики надо смотреть, чтобы быть уверенными, что приложение работает. Разберём, что такое «золотые сигналы». Заведём в рельсовое приложение мониторинг с помощью Прометеуса, Графаны и Ябеды.
Результат:
- Поймёте, зачем нужен мониторинг и как он помогает не только техническим специалистам, но и бизнесу.
- Научитесь ориентироваться в метриках, на основе которых строится мониторинг — технические, инфраструктурные и бизнесовые метрики.
- Соберёте связку Прометеус-Графана-приложение, чтобы добавить первые дэшборды в ваше приложение.
- Зачем нужно мониторить приложение?
- Какие бывают мониторинги
- На какие метрики смотреть?
- Технические метрики (Latency, Traffic, Errors, Saturation)
- Инфраструктурные метрики
- Бизнесовые метрики
Посмотрим на систему, которую собрали на первом дне воркшопа. Сравним системы сбора метрик и дэшбодров между собой — беплатные, платные, облачные и т.д.
Разберёмся, почему дэшбордов недостаточно для полноценного мониторинга приложений. Алерты — по каким метрикам настраивать, какие пороги выбирать, как обрабатывать. Алерты предвосхищающие проблемы — z-index и Нострадамус.
Трассировка запросов — зачем нужна, какие инструменты использовать, хорошие практики для построения систем.
Результат:
- Разберётесь с множеством систем мониторинга и сможете выбрать наиболее подходящую
- Научитесь настраивать алертинг - выставлять пороги срабатывания, поймёте, в каких случаях нужны ночные звонки, а в каких можно обойтись без них.
- Поёмете, зачем нужна трассировка во взаимодействии между сервисами, как её организовать и как использовать при поиске проблем.
- Опенсорсные решения (Prometheus, Grafana, Grafana OnCall, Zabbix)
- Коммерческие решения (Datadog, New Relic, Dynatrace, Okmeter)
- Быстрый поиск проблем
- Сквозная трассировка запросов (Jaeger, Zipkin)
- Алертинг
- Предсказание проблем
Пройдемся от алертов к причинам их возникновения — инцидентам. Ответим на вопросы: что считать инцидентом? Что делать, чтобы их было меньше? Обсудим регламенты работы, подсказки для сложных ситуаций, дежурства, разборы причин и планирование улучшений.
Поговорим об SLI, SLO, SLA и подходах, которые помогут вам договориться с бизнесом о том, что значит «стабильное приложение» и сколько это будет стоить.
Затронем нагрузочное тестирование приложения. Что такое хаос тесты и когда они вам могут пригодится? Сделаем обзор практик по хаос-инжинирингу.
Результат:
- Поймёте, как внедрить в компании процесс инцидент-менеджмента.
- Узнаете, как договориться с бизнесом о приемлемых диапазонах простоя приложения.
- Сможете убедить бизнес, что 100% работоспособности — это не то, чего он хочет.
- Разберётесь, как подготовится к большим нагрузкам с помощью нагрузочного тестирования. И как протестировать систему на отказ с помощью хаос-тестов.
- Фазы работы над инцидентом
- Роли участников процесса
- Организация с точки зрения процесса и технической реализации
- Метрики стабильности (SLI, SLO, SLA)
- Нагрузочное тестирование
- Хаос-тесты
- Систематизировать знания по мониторингу
Посмотреть на разные решения и практики по стабилизации приложений и подготовке к работе под нагрузкой - Поднять мониторинг на проекте с нуля
С чего начать и как рассказать бизнесу, что мониторинг — это обязательная часть работы системы - Сделать приложение более стабильным
Внедрить практики инцидент менеджмента — дежурства, регламенты, разборы. Быстро находить проблемы с помощью трассировки. - Получить набор инструментов под разные виды метрик
Разобраться какие бывают технические, инфраструктурные и бизнесовые метрики. Какие из метрик более приоритетные и с помощью каких технических решений их можно отслеживать.
Автор воркшопов "Под капотом Rails" и "Дизайн Rails-приложений"
Тариф Слушатель
Цена 7900 руб
Скрытая ссылка