понедельник, 17 апреля 2023 г.

Технологии формирования устойчивости

Источник.

Руководство по выживанию технологий для устойчивости
24 марта 2023 г.| Статья
Джим Бём, Вольфрам Салманян и Дэниел Уолланс

https://www.mckinsey.com/capabilities/risk-and-resilience/our-insights/a-technology-survival-guide-for-resilience

* * *

Устойчивость означает понимание критичности бизнес-процессов, возможностей базовой технологии, влияния на бизнес отказов технологии и устойчивости организационных рисков.

Рост, увеличение доходов и прибылей увеличивает нагрузку на корпоративные технологические системы по всему стеку технологий: от данных до приложений и сетевой инфраструктуры. 

К технологическим ограничениям относятся 
  • ограничения мощности, 
  • время безотказной работы системы, 
  • качество данных
  • способность восстанавливаться после катастрофических технологических и физических инцендентов, а также кибератак.

Отказоустойчивая технология имеет решающее значение для бесперебойного обслуживания клиентов. Для этого требуется устойчивая инфраструктура с повышенной обзорностью и прозрачностью всего стека технологий. Это нужно для поддержики работы организации в случае кибератак, повреждения данных, катастрофических сбоей системы или других типов инцидентов.

Устойчивая технология должна быть гибкой, масштабируемой и функциональной. Кроме того, устойчивость должна существовать не только в архитектуре и дизайне, но и в развертывании приложений и в постоянном мониторинге работы приложений.

Понимание критичности


Чтобы достичь устойчивости, организация должна понимать важность данного процесса, оценивать лежащую в его основе технологию, осознавать соответствующее влияние на бизнес и знать допустимость риска для организации и внешних заинтересованных сторон. Для этого нужно оценить текущую устойчивость и быть в состоянии ответить на вопрос: может ли организация восстановиться и перестроиться после катастрофических событий.

Принципы устойчивости технологий McKinsey


Ниже приведены пять принципов поддержания отказоустойчивой технологии:
  • Приложения, системы, платформы и сами ИТ-специалисты являются гибкими и масштабируемыми. В отдельных случаях предприятие может увеличивать или уменьшать масштабы услуг для поддержки меняющихся требований к доступности, емкости или производительности по мере изменения бизнес-требований.
  • Наборы данных, приложения и инфраструктура сетевых технологий полностью видны владельцам данных и приложениям и могут отслеживаться. Владельцы ресурсов имеют право сообщать о проблемах и предотвращать сбои до того, как они произойдут.
  • Наборы данных и приложения создаются гибкими и мобильными. Они не должны быть привязаны к одной платформе или среде, их можно по мере необходимости быстро перемещать между платформами.
  • Архитектура приложений, платформ данных, сетевой среды и ИТ-персонала устойчива по своей конструкции, то есть архитектура была построена для компенсации вероятных сбоев (при более низких сроках ликвидации подслествий сбоев) и рекурсивного информирования о будущих проектах повышения устойчивости (при более высоких сроках реализации проектов).
  • Системы совместимы и используют стандартные схемы API, которые определены и хорошо спроектированы как внутри, так и между сторонними службами.

Устойчивость технологий


Устойчивость технологий — это совокупность практик и основ, необходимых для проектирования и безопасного развертывания технологий в стеке технологий. Устойчивость технологий позволяет организациям преодолевать проблемы, когда их технологический стек скомпрометирован, снижает частоту катастрофических событий и позволяет организациям быстрее восстанавливаться в случае наступления аварийных событий.

Возможности отказоустойчивости попадают в спектр зрелости от простого резервирования до дублирования серверов, а также до расширенных возможностей с отказоустойчивостью, встроенной в архитектуру.

  • Архитектура и дизайн. Зрелые организации включают устойчивость технологий в дизайн и архитектуру предприятия. Устойчивые проекты включают в себя элементы уроков, извлеченных из инцидентов и отраслевых тенденций, а также инвестиций в технологии с учетом характера рисков.
  • Развертывание и эксплуатация. При выполнении отказоустойчивых операций следует учитывать не только непредвиденные обстоятельства, такие как аварийное восстановление или требования к производительности, которые возрастают в геометрической прогрессии, но и основную причину инцидентов, возникающих в ходе обычной деятельности, улучшения процедур, обучения и резвертывания соответствующих технологических решений.
  • Мониторинг и проверка. Состоит из реактивных или ретроспективных показателей на более низких уровнях зрелости. На более высоких уровнях зрелости организации переходят к упреждающим (и, в конечном счете, предсказательным) мерам по стресс-тестированию решений перед развертыванием или отработке заранее запланированных ответов и планов на случай непредвиденных обстоятельств для наиболее вероятных непредвиденных обстоятельств.
  • Реагирование и восстановление. Организации с высокой технологической устойчивостью не только реагируют на инциденты, но и постоянно используют уроки своей деятельности, отраслевых тенденций и катастрофических событий при проектировании, эксплуатации, мониторинге и планировании своих предприятий.

Понимание компонентов, лежащих в основе жизненного цикла, позволяет организации наметить, как выглядит ее путь к повышению отказоустойчивости технологий на четырех уровнях зрелости. Первые два уровня описывают базовые способности, третий и четвертый - продвинутые способности.

Пути повышения отказоустойчивости технологий — от этапа к этапу


Уровни один и два являются базовыми способностями, а уровни три и четыре — более продвинутыми.

Базовые способности.

1. Нерегламентированная устойчивость.
  • Отказоустойчивость оставлена на усмотрение отдельных пользователей и владельцев систем.
  • Мониторинг состоит из пользователей и клиентов, сообщающих о сбоях в работе системы.

2. Пассивная устойчивость.
  • Устойчивость благодаря ручному резервному копированию, дублированию систем и ежедневной репликации данных.
  • Мониторинг системных сбоев на уровне платформы или центра обработки данных.

Расширенные возможности.

3. Активная отказоустойчивость за счет аварийного переключения
  • Отказоустойчивость за счет активной синхронизации приложений, систем и баз данных.
  • Активный мониторинг на уровне приложений для обеспечения производительности и стабильности.

4. Неотъемлемая от дизайна устойчивость.
  • Отказоустойчивость, встроенная в стек технологий за счет встроенной избыточности.
  • Активный мониторинг на уровне данных, включая обнаружение и устранение аномалий.

Первый уровень включает в себя базовые возможности, при которых отказоустойчивость отдается на откуп отдельным пользователям и владельцам систем, а мониторинг включает в себя пользователей и клиентов, сообщающих о сбоях в работе системы.

Второй уровень состоит из пассивных возможностей, где устойчивость достигается за счет ручного резервного копирования, дублирования систем и ежедневной репликации данных. На уровне платформы или центра обработки данных также осуществляется мониторинг сбоев системы.

Третий уровень состоит из активной отказоустойчивости за счет аварийного переключения. Устойчивость достигается за счет активной синхронизации приложений, систем и баз данных, а также активного мониторинга на уровне приложений для выявления ранних индикаторов проблем с производительностью и стабильностью.

Четвертый уровень состоит из неотъемлемой от дизайна устойчивости. Отказоустойчивость с самого начала заложена в технологическом стеке за счет встроенной избыточности и активного мониторинга на уровне данных, включая обнаружение аномалий и их устранение.

С точки зрения жизненного цикла диапазон архитектуры и дизайна варьируется от ограниченного наблюдения зависимостей для критических и некритических приложений на первом уровне до зависимостей и потоков данных, встроенных для обеспечения отказоустойчивости при первоначальном проектировании критически важных и некритических приложений на четвертом уровне.

Для развертывания и эксплуатации регулярные сбои системы на первом уровне заменяют проверки устойчивости, а на четвертом уровне случайные проверки отказоустойчивости в рабочей среде проверяют устойчивость.

В случае мониторинга и проверки на первом уровне пользователи отслеживают свои собственные системы на предмет сбоев, тогда как на четвертом уровне мониторинг и оповещение встроены в дизайн, что позволяет принимать упреждающие меры.

Что касается реагирования и восстановления, то ответы на инциденты на первом уровне являются ситуативными и основаны на наилучшем суждении, в то время как на четвертом уровне детальные и разнообразные процедуры заложены в проекте.

Спектр устойчивости

На самом базовом уровне устойчивость остается за отдельными владельцами и пользователями системы. Администратор базы данных отвечает за резервное копирование данных организации, а отдельные сотрудники должны создавать резервные копии своих данных. Двигаясь по шкале зрелости, организации полагаются на централизованные возможности обеспечения устойчивости, управляемые ИТ-отделом или функции обеспечения устойчивости. Такая организация обеспечивает решения для централизованного резервного копирования, поддерживает резервные основные системы, отслеживает сбои систем и сбои приложений.

Устойчивость может быть достигнута пассивно путем ежедневного ручного резервного копирования. Переход к активному подходу включает отслеживание ранних признаков повреждения данных или аномального поведения системы и принятие превентивных мер. Эти индикаторы включают растущий объем поврежденных данных, необычно большое количество кратковременных отключений сети и большее, чем обычно, количество серверов, требующих перезагрузки. Кроме того, активная отказоустойчивость достигается за счет постоянной синхронизации приложений, систем и баз данных, благодаря чему всегда поддерживается избыточность. Также проводятся периодические отказоустойчивые тесты для проверки отказоустойчивости.

Самый продвинутый уровень устойчивости состоит из врожденной устойчивости. Основное отличие заключается в том, что устойчивость встроена в стек технологий. Присущая отказоустойчивость включает в себя такие возможности, как дублирование обработки в разных системах, модульное резервирование и автоматическая отказоустойчивость в системах. Настоящая присущая избыточность позволяет проводить случайные тесты аварийного переключения в рабочей среде для проверки отказоустойчивости. Только технология, обеспечивающая наиболее важные бизнес-процессы организации, должна быть изначально отказоустойчивой. Большинство организаций попадают в диапазон возможностей от пассивного к активному отказоустойчивости, совершая при этом постоянный переход к активному отказоустойчивости.

Как стать устойчивым


Одно дело заложить основу и указать на проблемы, лежащие в основе отказоустойчивости, но как этого достичь? Есть три ключевых вопроса создания и развития более устойчивой технологической среды:

  1. Культура без поиска виноватых. Когда возникают проблемы, команды и менеджеры не ищут виноватых. Они сосредоточены на устранении проблемы и предотвращении повторения. Команды поощряют участников, которые выявляют уязвимости и слабости, необходимые для создания более устойчивых технологий.
  2. Подход, основанный на метриках. Команды постоянно измеряют собственную производительность и сосредотачиваются на том, какие инциденты они создали (например, из выпусков или исправлений) или повторяют инциденты, имеющие одну и ту же основную причину.
  3. Репетиции сбоев. Команды предвидят проблемы и итеративно тренируются, чтобы реагировать на реальные сбои системы. Тренинги строятся на сбоях отдельных приложений до  сбоев систем, продуктов (систем систем) и целых услуг.

Устойчивость к рискам

Компании переходят к технологической устойчивости с учетом рисков. Этот подход признает, что не все активы созданы равными и что они не могут быть одинаково защищены в современной всеобъемлющей цифровой среде. Некоторые возможности и базовые активы более важны для компании и ее бизнеса, чем другие.

Пример, как европейский банк работает над обеспечением устойчивости технологий

Понимание устойчивости технологий — это непрерывный процесс, и, используя три рычага — расстановку приоритетов, оценку и исправление — организации могут добиться успеха. Когда дело доходит до отказоустойчивости технологий, один европейский банк с традиционными центрами обработки данных признал, что ему необходимо понимать свои недостатки, чтобы быть в состоянии противостоять любому типу инцидентов, с которыми он может столкнуться, независимо от того, связаны ли они с технологиями или кибербезопасностью.

Выводы регулирующих органов и недавние кризисы, такие как пандемия COVID-19, геополитические конфликты, энергетические кризисы и риски наводнений, побудили руководство оценить и укрепить свою технологическую устойчивость и кризисные возможности.

Понимая, что его технологический ландшафт состоит из среды мейнфреймов и серверов, которые в основном размещаются в центрах обработки данных, банк проанализировал, как он может повысить отказоустойчивость — в частности, за счет использования облака для восстановления за пределами региона — и гибкого масштабирования ресурсов и связанных с ними услуги.

Банк включил усилия в области кибербезопасности и конфиденциальности данных для согласования требований к приложениям и инфраструктуре в качестве одного из ключевых рычагов для эффективного внедрения.

Три рычага для повышения устойчивости технологий


Достижение высоких уровней устойчивости технологий требует создания необходимых возможностей и процессов с использованием трех рычагов руководства.

1. Расставьте приоритеты для сервисов. Не все бизнес-сервисы и системы следует рассматривать одинаково при развертывании возможностей обеспечения устойчивости технологий. Организации должны определить наиболее важные службы. Сюда входят важнейшие услуги, необходимые для выполнения обязательств перед клиентами, деловыми партнерами, регулирующими органами и обществом.

После определения и получения предпринимательского соглашения об этих службах важно понять лежащий в их основе технологический ландшафт, включая то, какие приложения и системы обеспечивают наиболее важные бизнес-службы, их зависимости и то, как они взаимосвязаны.

Наглядность и прозрачность наиболее важных сервисов и базовых приложений, систем и зависимостей позволяет оценить текущий уровень отказоустойчивости и определить приоритеты целевой отказоустойчивости для каждого приложения и системы на основе.

2. Оцените текущий уровень устойчивости и проанализируйте прошлые кризисы. Следующий шаг включает оценку устойчивости существующих технологий. Организации должны оценивать свою зрелость по одной и той же S-образной кривой технологической устойчивости, независимо от того, обладают ли они устойчивой архитектурой и возможностями, возможностями пассивной устойчивости, активной устойчивостью с возможностями аварийного переключения или изначально устойчивы по своей конструкции.

Как правило, организациям следует оценивать текущие возможности по четырем аспектам жизненного цикла отказоустойчивости технологий. Наиболее зрелые организации предусматривают отказоустойчивость технологий в архитектуре приложений и систем. При развертывании и эксплуатации устойчивые операции должны учитывать не только операционные непредвиденные обстоятельства, но и первопричины инцидентов, возникающих в ходе обычного ведения бизнеса, для улучшения процедур, обучения и технологических решений. Мониторинг и проверка включают реактивные или ретроспективные метрики на более низких уровнях зрелости. На более высоких уровнях зрелости организации переходят к проактивным мерам, чтобы искать ранние индикаторы проблем устойчивости и тестировать ответы и планы на случай непредвиденных обстоятельств для наиболее вероятных непредвиденных обстоятельств. \

Организации также должны оценивать прошлые инциденты, связанные с технологиями, чтобы выявить и выявить общие факторы повышения устойчивости технологий. Как правило, это состоит в выборе для оценки широкого набора недавних инцидентов различной продолжительности и влияния на бизнес-функции. Это также может включать в себя просмотр прошлых журналов реагирования на инциденты, отчетов об инцидентах и ​​других документов для выявления факторов, шаблонов и идей, которые могут пролить свет на причины инцидентов. Встреча с инженерами, владельцами продуктов или систем, менеджерами по выпускам и другими участниками инцидента и реагирования может раскрыть, что произошло, что можно было сделать для предотвращения инцидента и какие инициативы уже реализуются.

После завершения можно определить и, в конечном итоге, устранить общие факторы, которые привели к этим инцидентам, которые могут включать в себя технологическую среду, архитектуру приложений, интерфейсы между системами и третьими лицами, а также то, как устойчивость была встроена в отдельные приложения и системы.

3. Устранение пробелов с помощью кросс-функционального подхода. Для достижения устойчивости технологий необходимо устранить пробелы, выявленные в результате оценки технологий и диагностики прошлых инцидентов. В дополнение к непосредственному устранению выявленных пробелов организации должны предпринять следующие конкретные шаги:
  • Определить право собственности и ответственность за деятельность по обеспечению отказоустойчивости технологий. У распределенных систем может быть несколько владельцев, и разработчики не всегда заинтересованы в проектировании и проектировании с учетом отказоустойчивости. Приложения и системы должны иметь четкое право собственности, разработчикам нужны стимулы с целями производительности, привязанными к отказоустойчивости создаваемых приложений, а сторонние контракты должны включать требования и положения об отказоустойчивости. Отсутствие четких прав собственности на систему и ответственности за устранение недостатков отрицательно скажется на устойчивости систем и бизнес-процессов.
  • Улучшить управление в соответствии с уровнями отказоустойчивости. Надзор за устойчивостью должен осуществляться с исполнительного уровня. Руководству высшего звена необходимо сообщать о намерениях и приоритетах устойчивости на всех уровнях организации с помощью непрерывного и последовательного обмена сообщениями. Комитеты, ежеквартальные информационные бюллетени и вебинары — это потенциальные возможности. Аналогичным образом могут рассматриваться награды и другие формы денежного и неденежного поощрения.
  • Повысить устойчивость отдельных приложений и групп приложений. Необходимо решить проблему устойчивости отдельных приложений и систем. Те из них, которые имеют наибольшее количество инцидентов и поддерживают наиболее важные бизнес-процессы, должны быть приоритетными.
  • Усилить настройку хостинга, локального или облачного. Базовые платформы, на которых размещаются приложения должны быть спроектированыс учетом отказоустойчивости. Организации должны работать над повышением устойчивости своих локальных и облачных платформ, устраняя известные пробелы и факторы прошлых инцидентов.
  • Работать с третьими сторонами для повышения устойчивости сторонних платформ, от которых зависят критически важные бизнес-процессы и службы. У третьих сторон могут быть стимулы для обеспечения отказоустойчивости систем, а в контрактах должны быть четкие формулировки требований к производительности с учетом требований отказоустойчивости.
  • Проводить регулярное тестирование, уделяя особое внимание возможностям автоматического перехода на другой ресурс. Выборочные тестирование восстановления из резервных копий. Устойчивость — это постоянная работа, системы должны регулярно тестироваться и проверяться на соответствие требованиям отказоустойчивости. Ежемесячное тестирование отказоустойчивости критически важных бизнес-приложений необходимо как на уровне приложения, так и на уровне платформы. Тесты на отказоустойчивость должны быть разработаны таким образом, чтобы проверять не только ожидаемые, но и непредвиденные ситуации, такие как резкое отключение, отражающее реальные сценарии. Там, где отказоустойчивость заложена в проекте, приложения должны произвольно отключаться в рабочей среде, чтобы проверить, действительно ли реализуема и встроена в приложения или в систему декларируемая  отказоустойчивость.


Путь к отказоустойчивости технологий за три шага


Понимая три рычага технологической устойчивости, организация может начать технологический путь к отказоустойчивости в три этапа.

Диагностика устойчивости технологий


  • Определите два-три критически важных бизнес-процесса и сопоставьте базовые наборы данных, приложения и технологические системы, обеспечивающие эти процессы.
  • Оцените устойчивость каждого компонента потока создания ценности.
Это приведет к выявлению технологической устойчивости данных, приложений и систем, лежащих в основе критических бизнес-процессов, а также к действиям по снижению рисков.

Ретроспективный анализ инцидентов


  • Проведите ретроспективный анализ недавних технологических инцидентов. 
  • Определите общие факторы и разработайте меры по исправлению для снижения количества инцидентов и повышения устойчивости технологической среды. 
  • Опросите разработчиков, инженеров по выпуску и других лиц, связанных с инцидентами, чтобы выявить факторы, способствовавшие их возникновению, и то, что можно было сделать для их предотвращения. 
Результат даст более четкое представление о факторах, которые привели к инцидентам, и о действиях, которые можно предпринять для снижения количества инцидентов и повышения устойчивости технологий.

Развитие избыточных технологических возможностей


  • Разработайте отказоустойчивую архитектуру для одного или нескольких компонентов стека технологий и технологическую архитектуру будущего состояния, чтобы справиться с предыдущей диагностикой и ретроспективой инцидентов. 
  • Возможности должны включать план перехода и внедрения, а также требования для постоянного мониторинга, обслуживания и проверки. 
Результатом должна стать устойчивая технологическая архитектура, план перехода и внедрения, а также требования к мониторингу и проверке.

Заключение


Достижение устойчивости — это не разовая деятельность. Скорее, это непрерывный процесс и способности, которые займут время, чтобы превратиться в надежный защитный механизм.

Как и в случае со всеми типами защиты, это не «вы получаете то, за что платите», а скорее «вы получаете то, к чему готовитесь». 

Было бы легко вкладывать деньги во все формы устойчивости, но понимание того, чем вы обладаете, а затем обзор и прозрачность того, что у вас есть, поможет сфокусироваться. Что позволит любой организации оставаться устойчивой и быть в рабочем состоянии.


Источник.

Руководство по выживанию технологий для устойчивости
24 марта 2023 г.| Статья
Джим Бём, Вольфрам Салманян и Дэниел Уолланс

https://www.mckinsey.com/capabilities/risk-and-resilience/our-insights/a-technology-survival-guide-for-resilience

Комментариев нет:

Отправить комментарий