Ретроспектива сбоев HubSpot для нетехнических пользователей

Ретроспектива сбоев HubSpot для нетехнических пользователей
Ретроспектива сбоев HubSpot для нетехнических пользователей
Anonim

Если вы являетесь пользователем HubSpot, если только вы не были в отпуске с 29 марта по настоящее время (если да, то я завидую!), вы недавно пережили одно из самых катастрофических сбоев в работе HubSpot за всю историю.

Честно говоря, это была неразбериха. Большую часть времени во время сбоев в работе продукта у вас будет один или два инструмента, которые не работают или имеют ошибки, и это устраняется в течение нескольких минут или часов.

На этот раз было практически всё: электронная почта, отправка форм, рабочие процессы, списки, инструменты продаж, CRM, импорт, аналитика. Трудно найти какие-либо части инструмента, которые НЕ БЫЛИ затронуты за это время.

Что еще более тревожно, так это то, что на устранение этого сбоя ушло около 36 часов, но обработка накопившихся данных за эти 36 часов все еще продолжалась на момент публикации этой статьи.

К счастью, во время всего этого кризисная коммуникация HubSpot была надежной. Обновления на status.hubspot.com были регулярными и своевременными (хотя достаточно ли они часты??), учитывая масштаб ситуации.

Дж. Д. Шерман (операционный директор HubSpot) 29 марта опубликовал статью с извинениями и описанием следующих шагов для команды, а именно: провести углубленную ретроспективу причины проблемы и того, как они будут ее решать. уверен, это больше не повторится.

Эта ретроспектива состоялась 4 апреля. Полную статью можно прочитать здесь. Там много подробностей о том, как устроены их системы и что именно произошло. Если вам не нравится всякая «гиковская речь», мы вам поможем.

Краткий обзор того, как работает инфраструктура HubSpot

HubSpot использует комбинацию программных систем - Kafka и ZooKeeper - которые позволяют всем инструментам HubSpot взаимодействовать друг с другом и эффективно обрабатывать все данные.

Обе эти программные системы имеют встроенные средства резервирования и защиты, поэтому в случае сбоя некоторых серверов другие серверы смогут компенсировать слабину, и конечные пользователи не столкнутся с какими-либо проблемами.

Так что же сломалось?

Это немного сложно объяснить, не вдаваясь в технические подробности, но подумайте об этом как о серии неудачных событий.

На ZooKeeper была возложена большая нагрузка, что привело к сбою некоторых его частей. Обычно ZooKeeper восстанавливается быстро, но в данном случае это заняло несколько минут. Задержка восстановления затем прервала связь между ZooKeeper и Kafka, что привело к сбою Kafka.

Несмотря на то, что команде удалось восстановить ZooKeeper, Kafka был нанесен ущерб, и он не смог восстановиться. Что еще хуже, так это второй сбой в ZooKeeper, сопровождавшийся попыткой перезапустить Kafka, что начало вызывать повреждение данных.

Почему исправление заняло так много времени?

Поврежденные данные? Это звучит плохо. И это так. Собственно, именно поэтому некоторые вещи так долго не возвращались в сеть.

Когда команда HubSpot поняла, что восстановление сервера начинает повреждать данные, им пришлось принять решение: либо сосредоточиться на восстановлении данных (и защите от повреждения данных), либо сосредоточиться на восстановлении инструментов.

Они решили сосредоточиться на восстановлении данных, чтобы гарантировать отсутствие пробелов в исторических данных для клиентов (что в долгосрочной перспективе они считают правильным решением, и я лично с этим согласен!). Именно по этой причине восстановление затронутых инструментов заняло почти 36 часов.

Итак, во имя защиты данных клиентов HubSpot вручную восстановил ооочень много наших данных, а затем смог восстановить поврежденные инструменты.

Именно поэтому вы все еще видите (на момент публикации этой статьи) сообщение о статусе «продолжение обработки данных за 28 и 29 марта» от HubSpot.

Что теперь?

Теперь, когда мы точно знаем, что произошло, у HubSpot есть план, как сделать так, чтобы подобное никогда больше не повторилось. Интересно отметить, что команды HubSpot используют множество своих инструментов в разных частях бизнеса, так что это повлияло не только на их клиентов, но и на их собственный бизнес (еще больше мотивации убедиться, что подобное никогда не повторится!).

Они вносят изменения в несколько различных областей, чтобы защититься от новых сбоев: техническая/инфраструктура, надежность, тестирование и связь.

Техника/Инфраструктура

Как и следовало ожидать, HubSpot проведет некоторую реструктуризацию своих кластеров серверов, чтобы гарантировать невозможность повторения такого большого сбоя. Благодаря этому любой сбой, который все же произойдет, должен быть ограничен небольшой частью платформы, а время восстановления проблем должно быть значительно быстрее.

Надежность

HubSpot имеет команду людей, которые тестируют и обновляют свои системы, но это не так важно, как следовало бы. Теперь у них будет специальная команда людей, которые будут «контролировать новые стандарты, частоту и ресурсы, чтобы гарантировать, что мы постоянно оцениваем наши ключевые инфраструктурные системы на предмет исправлений кода и критических исправлений без пробелов».

Тестирование

Наряду с более значительными инвестициями в надежность своей платформы, HubSpot также увеличивает частоту и глубину тестирования своих систем. Опять же, дело не в том, что этих процессов не существовало раньше, но этот сбой выявил некоторые пробелы в частоте тестирования на наличие массовых сбоев, а также в том, насколько всесторонне они тестируют эти системы.

Общение

Наконец, HubSpot обязуется сделать общение во время любого серьезного инцидента более частым и полезным, особенно в минуты и часы сразу после возникновения проблемы.

Их обновления статуса теперь будут включать более подробные объяснения того, что происходит, а также когда можно ожидать следующего обновления.

В заключение

Никто здесь не делает вид, что это отключение не было плохим. Даже HubSpot. Но одна из вещей, которые я больше всего ценю в HubSpot как организации, - это их прозрачность и готовность признать свои ошибки.

Они знают, какое влияние это оказало на их клиентов и на их собственный бизнес, и активно стараются сделать так, чтобы подобное никогда больше не повторилось.

Итак, даже если вы немного встревожены этим сбоем, знайте, что вносятся улучшения, вносятся исправления, и HubSpot продолжит делать свой продукт как можно лучше. Ладно, праздник любви HubSpot окончен!