Переосмысление надежности: чему можно (и нельзя) научиться на основе инцидентов

Блог

ДомДом / Блог / Переосмысление надежности: чему можно (и нельзя) научиться на основе инцидентов

Jun 30, 2023

Переосмысление надежности: чему можно (и нельзя) научиться на основе инцидентов

Презентации на домашней странице InfoQ Переосмысление надежности: чему вы можете (и не можете) научиться из инцидентов Кортни Нэш обсуждает исследования, собранные в VOID, бросая вызов стандартным отраслевым практикам для

Домашняя страница InfoQ Презентации Переосмысление надежности: чему можно (и нельзя) научиться на основе инцидентов

Кортни Нэш обсуждает исследования, собранные с помощью VOID, бросая вызов стандартным отраслевым практикам реагирования и анализа инцидентов, таким как отслеживание MMTR и использование методологии RCA.

Кортни Нэш — исследователь, специализирующийся на системной безопасности и сбоях в сложных социотехнических системах. Ее всегда восхищало то, как люди учатся и как память влияет на то, как они решают проблемы. За последние два десятилетия она занимала различные редакционные, руководящие, исследовательские и управленческие должности в компаниях Holloway, Fastly, O'Reilly Media, Microsoft и Amazon.

QCon Plus — это виртуальная конференция для старших инженеров-программистов и архитекторов, на которой рассматриваются тенденции, передовой опыт и решения, используемые самыми инновационными в мире организациями-разработчиками программного обеспечения.

Принимайте правильные решения, узнавая, как старшие разработчики программного обеспечения в компаниях-первопроходцах внедряют новые тенденции. Зарегистрироваться!

Нэш: Я Кортни Нэш. Я здесь, чтобы поговорить с вами о переосмыслении надежности, о том, что мы можем и не можем узнать из показателей инцидентов. Я интернет-библиотекарь по инцидентам в Verica. Я исследователь с большим опытом работы в разных местах. Я изучал мозг. Я думаю, что горные велосипеды — самая крутая технология, которую мы когда-либо изобретали.

Я здесь, чтобы поговорить с вами об этой штуке, которую я создал, под названием ПУСТОТА. Открытая база данных инцидентов Verica — это место, где собираются общедоступные отчеты об инцидентах, связанных с программным обеспечением, которые доступны всем и каждому. Наша цель — повысить осведомленность и улучшить понимание сбоев программного обеспечения, чтобы сделать Интернет более устойчивым и безопасным местом. Почему нас это волнует? Потому что программное обеспечение уже давно вышло за рамки размещения фотографий кошек в Интернете и стало управлять транспортом, инфраструктурой и оборудованием в системах здравоохранения, а также устройствами в системах голосования и автономных транспортных средствах. Ожидается, что эти современные онлайн-системы будут работать 24 часа в сутки, 7 дней в неделю, 365 дней в году. Повышенное давление, с которым вы все сталкиваетесь, в сочетании с программными моделями взаимосвязанных, все более автоматизированных сервисов, работающих в облаке, ускорило сложность этих систем. Как вы, вероятно, уже знаете из собственного опыта, когда эти сложные системы выходят из строя, они выходят из строя неожиданным и хаотичным образом. У всех нас бывают инциденты. Да, это пожар в мусорном контейнере, в котором дракон поджигает вулкан. Я думаю, что то, с чем вы сталкиваетесь, больше похоже на Кельвина и Гоббса, где под кроватью сидит монстр, и никогда не знаешь, когда он выйдет наружу.

Действительно важным моментом является то, что технологическая индустрия располагает огромным массивом коммерциализированных знаний, которыми мы могли бы поделиться, чтобы учиться друг у друга и повышать устойчивость и безопасность программного обеспечения. Если вы вообще скептически относитесь к этому, я понимаю, что так оно и есть. Этому есть исторический прецедент. Это не наша отрасль, это другая отрасль. В 1990-е годы в США авиационная промышленность переживала небольшой кризис, у нас были ужасные показатели безопасности. Регулярно происходили крупные аварии с тяжелыми последствиями. Индустрия коллективно и с нуля решила собраться вместе и попытаться что-то с этим сделать. Сначала множество пилотов из разных авиакомпаний собрались вместе и начали делиться данными о своих инцидентах. Они начали делиться своими историями и моделями того, что они видели. В конце концов, к участию присоединилось больше представителей этой отрасли: регулирующие органы, авиадиспетчеры, огромное количество людей, которые рассказали о своих инцидентах и ​​нашли общие черты и закономерности. В ходе этой и, очевидно, других действий показатели безопасности нашей авиационной отрасли значительно возросли. Фактически, у нас не было серьезных инцидентов, пока не произошли некоторые события с Boeing MAX в последние годы. Это можно сделать с нуля, будучи практикующими специалистами, еще до того, как появились люди из регулирующих органов. Это важно.