Хто такий SRE?

SRE

Якщо коротко, то інженери SRE

(Site Reliability Engineer) працюють на межі DevOps та розробки та відповідають за надійність, масштабованість та безперебійну роботу ІТ-систем. Вони добре знаються на принципах організації роботи розподілених систем, їх безвідмовності, ризиках, практичних аспектах експлуатації систем.

Стандартизація та автоматизація є основою того, що робить SRE, особливо коли системи переходять у хмару. Таким чином, вони часто працюють у програмному забезпеченні або системній інженерії чи системному адмініструванні з досвідом роботи в ІТ.

Що таке інженерія надійності сайту?

Почнемо з визначення того, що таке цей тип інженерії, перш ніж перейти до ролі та обов’язків інженера з надійності сайту. Інженерія надійності сайту – це термін, який вперше ввів Google, де його описують так «коли ви ставитеся до операцій так, ніби це проблема програмного забезпечення».

Основною метою SRE є розробка програмних систем та автоматизованих рішень для операційних аспектів. Розробку надійності сайту можна вважати набором практик, який включає аспекти розробки програмного забезпечення в операції, тим самим підвищуючи ефективність і надійність програмних систем і покращуючи робочий процес.

SRE і DevOps

Розробка надійності сайту тісно пов’язана з DevOps, іншою концепцією, яка пов’язує розробку програмного забезпечення та функціонування, і може розглядатися як узагальнення основних принципів SRE. Отже, SRE відіграє велику роль в успішному впровадженні практик DevOps.

Крім того, як DevOps, так і SRE прагнуть подолати розрив між операціями та командами розробників, щоб швидше постачати програмне забезпечення.

Однак у статтях Google розрізняють два терміни, в яких стверджується, що SRE «втілює філософію DevOps, але має набагато більш директивний спосіб вимірювання та досягнення надійності за допомогою інженерної та операційної роботи. Іншими словами, SRE визначає, як досягти успіху в різних областях DevOps».

Чим займається інженер з надійності сайту?

Інженер з надійності сайту (SRE) працює між розробкою та експлуатацією. Велика частина цієї ролі пов’язана з написанням та розробкою коду для автоматизації процесів, таких як аналіз журналів, тестування виробничого середовища та реагування на будь-які проблеми, тому цей інженер має бути експертом у написанні коду. Така автоматизація дозволяє розробникам, у свою чергу, зосередитися виключно на розробці функцій, що дозволяє їм якнайшвидше вводити нові функції у виробництво.

Необхідний набір навичок

SRE присвячують свій час створенню програмного забезпечення, яке підвищить надійність систем, усуває проблеми та реагує на інциденти та проблеми. Тому їм потрібно знати різні інструменти автоматизації, оскільки вони зазвичай відповідають за створення та інтеграцію програмних засобів для підвищення надійності та масштабованості організаційної системи.

Окрім цього, SRE вимагає знання кодування та більшості поширених мов програмування, включаючи Ruby, Javascript та PHP. Він/вона також повинен мати досвід роботи з основними постачальниками хмар, такими як AWS і Google Cloud.

Щоденні ролі та обов’язки SRE

Автоматизація

Як згадувалося раніше, інженери SRE створюють інструменти для автоматизації для управління ІТ-операціями. Таким чином, замість того, щоб виконувати ці функції вручну, їх мета – автоматизувати їх. До таких функцій належать:

  • Постійна інтеграція та безперервна доставка
  • Моніторинг
  • Реакція на інцидент
  • Сповіщення
  • Моніторинг

Інженери SRE відповідають за безперебійну роботу базової інфраструктури, а також за належну роботу систем та інструментів. Вони також відстежують важливі програми та служби, щоб мінімізувати час простою та забезпечити їх доступність.

Вирішення питань та командна співпраця

Ці інженери тісно співпрацюють з розробниками, особливо коли виникають проблеми, тому вони співпрацюватимуть з розробниками, щоб допомогти у вирішенні несправностей та надати консультації, коли надходять сповіщення.

Поширені інструменти, які використовуються SRE:

  • Моніторинг: такі інструменти включають AWS CloudWatch і NewRelic
  • Управління інцидентами/за викликом: наприклад, PagerDuty та VictorOps
  • Управління проектами та відстеження проблем: наприклад, Jira та Trello
  • Оркестровка інфраструктури: включаючи Terraform і SaltStack

Загалом можна сказати, що Інженер з надійності сайту стає все більш важливою роллю в організаціях. Це складна роль, яка вимагає пристрасті до кодування та автоматизації.

А оскільки SRE тісно пов’язане з DevOps, то не буде зайвим дізнатися більше і про такий напрям.

Якщо ця стаття виявилася для вас корисною, залишайте свій відгук на неї у соціальних мережах нашої школи!

Интересная статья. Поделись с друзьями!

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *