Глобальный сбой Facebook — фатальное стечение обстоятельств

Глобальный сбой Facebook — фатальное стечение обстоятельств

Плохо написанная команда, инструмент аудита, содержащий ошибки, система DNS, мешающая восстановлению сети, чрезвычайно строгая безопасности, ограничивающая физический доступ в ЦОДы – все это в совокупности привело к многочасовому отказу сервисов.

Компания Facebook заявила, что основной причиной отказа ее сервисов стало неудачное выполнение плановых работ по техническому обслуживанию. В результате серверы DNS оказались недоступны, но в первую очередь стоит отметить, что из строя вышла вся магистральная сеть Facebook.

Ситуация усугубилась тем, что потеря DNS сделала для инженеров Facebook невозможным получение удаленного доступа к тем самым устройствам, с помощью которых они рассчитывали восстановить работоспособность сети. Пришлось вручную перезапускать системы непосредственно в ЦОДах.

Все это задержало процесс, но он замедлился еще сильнее из-за мер предосторожности, которые затрудняют вмешательство в работу ЦОДов абсолютно всем. «Туда трудно попасть, а оборудование и маршрутизаторы спроектированы таким образом, что их работу трудно модифицировать даже при наличии физического доступа», – пояснил вице-президент Facebook по инфраструктуре и проектированию Сантош Джанардан.

Поэтому вся процедура заняла довольно продолжительное время. Но как только системы были восстановлены, сеть снова заработала.

Восстановление сервисов для клиентов, получающих доступ по сети, тоже длилось достаточно долго, потому что их одновременное включение порождало риск возникновения очередного витка сбоев. «В некоторых ЦОДах снижение энергопотребление измерялось десятками мегаватт, а резкий его рост мог привести к нежелательным последствиям, начиная от отказа электрических систем и заканчивая нарушением кеширования», – добавил Джанардан.

В общей сложности системный сбой Facebook продолжался семь часов и пять минут.

Сбой при проведении планового техобслуживания

При проведении технического обслуживания инженеры Facebook планировали отключить только часть магистральной сети. Но выполнение команды, предназначенной для оценки доступности глобальной магистрали, непреднамеренно привело к разрыву всех соединений с магистральной сетью и отключению всех ЦОДов Facebook.

У Facebook даже есть инструмент, предотвращающий выполнение команд, которые могут привести к таким катастрофическим последствиям, но в данном случае он не сработал. «Наши системы проводят аудит подобных команд, чтобы предотвратить действия такого рода, но ошибка в инструменте аудита помешала остановить выполнение команды», – указал Джанардан.

Когда это произошло, система DNS была обречена.

DNS: единая точка отказа

По словам Анжелики Медины, руководителя отдела маркетинга продуктов Cisco ThousandEyes, отслеживающих интернет-трафик и сбои в работе, автоматическая реакция на магистральный сбой привела к отказу системы DNS.

Система DNS (Domain Name System) отвечает за преобразование имен интернет-доменов в IP-адреса, а у Facebook имеются собственные серверы DNS. «В компании выстроена архитектура, позволяющая масштабировать сервис DNS вверх или вниз в зависимости от доступности сервера, – отметила Медина. – И когда уровень готовности серверов из-за сбоя в сети опустился до нуля, все серверы DNS были выведены из эксплуатации».

Вывод их из эксплуатации осуществлялся принадлежащими Facebook серверами имен DNS, отправлявшими соответствующие сообщения маршрутизаторам BGP (border gateway protocol), в которых хранилась информация о маршрутах, используемых для достижения конкретных IP-адресов. Информация о маршрутах регулярно рассылается на маршрутизаторы, чтобы они были "в курсе" того, как следует правильно распределять  трафик.

Серверы DNS Facebook рассылали сообщения BGP, которые отключали маршруты, делая невозможным прохождение трафика по магистральной сети Facebook. «В результате оказались недоступными даже те серверы DNS, которые находились в рабочем состоянии, – пояснил Джанардан. – И обратиться к нашим серверам из оставшейся части Интернета стало невозможно».

Даже если бы доступ к DNS-серверам из Интернета сохранялся, клиенты Facebook все равно не смогли бы воспользоваться сервисом, поскольку сеть, к которой они пытались обратиться, вышла из строя. К несчастью для Facebook, ее собственные инженеры тоже утратили доступ к серверам DNS, которые были нужны платформе удаленного управления для подключения к вышедшей из строя магистральной системе.

«В Facebook сервис DNS используется не только для веб-ресурсов, преданазначенных на клиентов, – указала Медина. – Она нужна и для внутренних инструментов и систем. При полном ее отключении операторы и инженеры не могут получить доступ к внутренним системам, которые нужны им для устранения сбоя».

Для повышения надежности архитектура должна предусматривать наличие двух сервисов DNS, которые могут заменять друг друга. Например, Amazon Web Services использует для обеспечения резервных мощностей два внешних сервиса – Dyn и UltraDNS.

Уроки

Произошедший инцидент высветил недостатки архитектуры Facebook. «Почему DNS оказалась фактически единственной критической точкой? – спрашивает Медина. – В сложившейся ситуации отказа основного сервиса DNS, даже не затронувшего функционирование резервного сервиса, оказалось достаточно для длительного вывода из строя всей системы. Думаю, наличие дополнительной избыточности в системе DNS стало бы хорошим подспорьем».

Еще одно общее замечание касается всех провайдеров. Зачастую в их сетях так много взаимозависимостей, что даже небольшой сбой в какой-то части  архитектуры сервисов может вызвать эффект домино и привести к самым серьезным последствиям.

«Многие компании используют массу различных внутренних сервисов, вмешательство в которые может привести к непредсказуемому результату, – добавила Медина. – Это касается в основном технического персонала, но на такие моменты тоже следует обратить внимание».

Источник

Информационный сайт Уфатайм.рф имеет репутацию авторитетного интернет-издания, на котором публикуются только свежие и достоверные деловые новости Уфы и Республики Башкортостан, касающиеся тендеров госзаказа, аукционов и торгов имущества должников. Кроме этого на сайте всегда можно найти финансовую аналитику и актуальные данные о котировках на валютном рынке.

Социологические опросы независимых экспертов подтверждают, что подавляющее количество бизнесменов республики регулярно читают новостную ленту УфаТайм, используя опубликованную информацию в процессе своей коммерческой деятельности.

Не меньшей популярностью пользуется новостной ресурс и у обычных жителей Башкирии, которые всегда могут не только узнать главные новости города и республики, но также актуальные данные о событиях, происходящих в стране и в мире.

Ориентация на широкую пользовательскую аудиторию Информационный сайт Уфатайм.рф предлагает подборку интересных и новых новостей для разных социальных групп города: бизнесменов; бюджетников; пенсионеров; молодежи.

Все новые события, происходящие в Уфе, оперативно освещаются на сайте в топовых позициях новостной ленты. На главной странице сайта располагаются важные новости всего мира, касающиеся всех горожан и жителей.

Тематические разделы сайта включают в себя новостные сообщения разной тематики. На главной странице каждый пользователь сможет выбрать тематический раздел, чтобы найти интересующую его информацию: о международной политике; о текущих событиях в стране и в мире; о текущих событиях в республике; о новостях башкирских компаний; о намечающихся федеральных, региональных и муниципальных проектах.

Сайт поможет своевременно узнать все важные новости, связанные с погодой, паводком, коронавирусом, а также с другими важными сторонами повседневной жизни Уфы и Башкирии.

Актуальность, оперативность и достоверность Позиционируя себя в качестве агентства деловых новостей Уфы, сайт Уфатайм.рф предлагает большой блок деловой и фактической информации, которая помогает предпринимателям и компаниям Уфы своевременно реагировать на ситуацию, возникающую на городском и региональном рынке.

Кроме деловых, политических, культурных новостей СМИ Уфатайм.рф предлагает своим пользователям актуальные результаты социологических исследований, рейтинги международных и российских экспертных организаций, а также обзоры популярных видов транспорта, профессий и другую интересную информацию.
Оцените статью
Добавить комментарий