Создание распределенной HPC-инфраструктуры для крупной компании
Катастрофоустойчивая инфраструктура в трех территориально распределенных ЦОДах
Краткое резюме проекта
Clustegra реализовала комплексный проект по созданию распределенной высокопроизводительной вычислительной инфраструктуры для крупной российской компании
Инфраструктура была развернута в трех территориально распределенных центрах обработки данных и объединила вычислительные ресурсы, системы хранения, SAN- и IP-сеть, механизмы резервирования и интеграцию с существующим контуром информационной безопасности заказчика.

Проект потребовал не только технической экспертизы в построении отказоустойчивой инфраструктуры, но и управления сложной координацией: работами на режимных объектах, взаимодействием со смежными организациями, согласованием проектной и рабочей документации и выполнением работ в сжатые сроки.
Задача заказчика
• Интегрировать новое решение с существующей ИТ-инфраструктурой и legacy-средой

• Соблюсти требования информационной безопасности для каждой из подсистем
02
Интеграция с существующей средой
• Развернуть инфраструктуру в трех территориально удаленных ЦОДах

• Обеспечить высокую доступность сервисов и географическое резервирование
01
Распределённая инфраструктура
Провести внедрение в условиях ограниченного доступа к площадкам, высокой регламентной нагрузки и жестких сроков
03
Внедрение в регламентных условиях
Перед заказчиком стояла задача создать масштабируемую и катастрофоустойчивую вычислительную инфраструктуру enterprise-уровня, способную поддерживать критичные сервисы и работу большого числа пользователей в условиях территориально распределенной архитектуры
Масштаб проекта
Состав внедрённой инфраструктуры
Решение объединило несколько технологических уровней в единую отказоустойчивую инфраструктуру enterprise-класса
3
Территориально распределенных ЦОДа
Развертывание инфраструктуры на нескольких площадках
80+
Вычислительных сервера
Вычислительные ресурсы инфраструктуры
100+
Ethernet-коммутаторов
Построение сетевой инфраструктуры проекта
10
СХД Lenovo серии DM
Объединение в метрокластер и оперативное резервное копирование
20+
Дисковых полок
Расширение подсистемы хранения данных
20+
Коммутатора Brocade
Организация SAN-сети
10
Коммутаторов Mellanox
Объединение СХД в метрокластер
Архитектура решения
Ключевой особенностью проекта стала распределенная архитектура с географическим резервированием и высокой доступностью критичных сервисов. Решение проектировалось с учетом отказоустойчивости каждой подсистемы и необходимости интеграции с уже существующими сервисами заказчика.

метрокластер для СХД с синхронной репликацией между площадками

• разделение вычислительного и storage-трафика

SAN-сеть на базе Fibre Channel для подсистемы хранения данных

IP-фабрика с архитектурой spine-leaf

• учет требований информационной безопасности для каждой технологической подсистемы, включая интеграцию с межсетевыми экранами и балансировщиками сетевой нагрузки.

Архитектура требовала синхронизации сетевых изменений с security-инфраструктурой, так как политики безопасности напрямую зависели от сетевой топологии и параметров коммутации.

Что сделала Clustegra
Команда Clustegra обеспечила полный цикл внедрения: от архитектурной проработки и подготовки документации до пусконаладочных работ, испытаний, обучения специалистов заказчика и организации сервисного сопровождения.

• разработала и согласовала архитектуру катастрофоустойчивого решения

• подготовила проектную, рабочую, исполнительную и эксплуатационную документацию

• выполнила монтаж и коммутацию оборудования

• провела пусконаладочные работы для внедренных систем

• организовала нагрузочное тестирование оборудования и инфраструктуры

• обеспечила опытную эксплуатацию и приемо-сдаточные испытания

• провела обучение специалистов заказчика

• организовала сервисное сопровождение решения

Особое внимание было уделено тестированию. Инфраструктура проверялась под нагрузками, приближенными к производственным сценариям, включая имитацию сценариев возможных катастроф.

Ключевые вызовы проекта
Проект включал не только внедрение нового пула оборудования, но и адаптацию решения к уже действующей инфраструктуре заказчика. Для этого потребовался пересмотр отдельных элементов сетевой топологии, перенастройка части существующего оборудования и учет legacy-среды при проектировании целевой архитектуры
Интеграция с существующей инфраструктурой
Развертывание инфраструктуры одновременно на нескольких площадках усложняло координацию команд, синхронизацию этапов внедрения и проведение тестирования. Для снижения рисков требовалась точная последовательность работ и постоянная сверка между участниками проекта
Работа в 3х территориально распределенных ЦОДах
Решение интегрировалось со смежной ИБ-инфраструктурой, включая межсетевые экраны и балансировщики сетевой нагрузки. Изменения в сетевой архитектуре влияли на политики безопасности и настройки межсетевых экранов, а изменения в security-контуре могли требовать корректировки коммутации и конфигураций сетевого оборудования
Взаимозависимость сети и информационной безопасности
Крупная корпоративная среда заказчика требовала большого объема согласований и документации. В процессе проекта появлялись дополнительные требования со стороны разных подразделений, поэтому документационная часть стала отдельным значимым направлением работ
Высокая регламентная и документационная нагрузка
Все ЦОДы находились на территориях с повышенными требованиями безопасности. Это влияло на сроки доступа специалистов, логистику оборудования, оформление пропусков, изменение уровней допуска и организацию работ на площадках
Работы на режимных объектах
Проект выполнялся в условиях жестких временных ограничений. Для соблюдения графика работы по всем системам велись параллельно, часть активностей выполнялась в ночное время, выходные и праздничные дни, а ключевые решения согласовывались на регулярных проектных совещаниях с участием ответственных представителей заказчика и смежных команд
Сжатые сроки реализации
Результат
В результате заказчик получил распределенную катастрофоустойчивую вычислительную инфраструктуру, введённую в промышленную эксплуатацию, поддержку критичных сервисов и готовую к дальнейшему масштабированию.

• обеспечена географическая катастрофоустойчивость инфраструктуры

• повышена доступность критичных сервисов

• создана масштабируемая основа для роста вычислительных нагрузок

• реализована интеграция с существующей ИТ- и ИБ-инфраструктурой заказчика

• проведено нагрузочное тестирование и проверка сценариев отказа

• подготовлена документация для эксплуатации и сопровождения решения

• специалисты заказчика получили необходимое обучение для работы с инфраструктурой, включая как каждый вид оборудования, так и обслуживание систем в целом

Выводы проекта
Проект показал, что при внедрении распределенной инфраструктуры enterprise-уровня критичны не только характеристики оборудования, но и качество предварительного планирования, архитектурной синхронизации и управления зависимостями между участниками.

  • Legacy-инфраструктуру необходимо учитывать с самого начала. Даже сильное новое решение может потребовать существенной адаптации, если действующая среда и существующие сервисы не были полноценно учтены на этапе проектирования.

  • Информационная безопасность не является отдельным независимым слоем. В крупных инфраструктурных проектах ИБ глубоко связана с сетевой архитектурой, политиками доступа, коммутацией и параметрами эксплуатации.

  • Координация проекта важна не меньше технологической части. В распределенных внедрениях с большим количеством подсистем и смежных подрядчиков управляемость проекта становится одним из ключевых факторов успеха.

  • Документация должна планироваться как самостоятельный контур работ. В крупных корпоративных структурах требования к документации могут существенно влиять на сроки реализации и нагрузку проектной команды.

  • Сжатые сроки усиливают все проектные риски. Чем сложнее инфраструктура, тем важнее заранее фиксировать зависимости, порядок согласований, доступы к площадкам и участие профильных служб заказчика.


Заключение
Этот проект стал примером комплексного внедрения инфраструктуры enterprise-уровня в условиях высокой технической, организационной и регламентной сложности
Clustegra обеспечила полный цикл реализации: от архитектуры и проектной документации до введения в эксплуатацию, обучения и сервисного сопровождения.

Проект подтвердил способность команды реализовывать сложные инфраструктурные решения, где результат зависит не только от технической экспертизы, но и от управления зависимостями, рисками, сроками и коммуникацией между всеми участниками внедрения.
Свяжитесь с нами
Обсудите похожий инфраструктурный проект
Оставьте заявку, и мы обсудим задачу, ограничения и формат реализации проекта
Расскажите о задаче - подберем подход к проектированию, внедрению или сопровождению инфраструктуры.
E-mail: sales@clustegra.com
Отдел продаж
+7 (499) 136-46-86 (доб. 200)