Проект: распределенная HPC-инфраструктура для нефтяной компании

Создание распределенной HPC-инфраструктуры для крупной компании

Катастрофоустойчивая инфраструктура в трех территориально распределенных ЦОДах

Краткое резюме проекта

Clustegra реализовала комплексный проект по созданию распределенной высокопроизводительной вычислительной инфраструктуры для крупной российской компании

Инфраструктура была развернута в трех территориально распределенных центрах обработки данных и объединила вычислительные ресурсы, системы хранения, SAN- и IP-сеть, механизмы резервирования и интеграцию с существующим контуром информационной безопасности заказчика.

Проект потребовал не только технической экспертизы в построении отказоустойчивой инфраструктуры, но и управления сложной координацией: работами на режимных объектах, взаимодействием со смежными организациями, согласованием проектной и рабочей документации и выполнением работ в сжатые сроки.

Задача заказчика

• Интегрировать новое решение с существующей ИТ-инфраструктурой и legacy-средой

• Соблюсти требования информационной безопасности для каждой из подсистем

02

Интеграция с существующей средой

• Развернуть инфраструктуру в трех территориально удаленных ЦОДах

• Обеспечить высокую доступность сервисов и географическое резервирование

01

Распределённая инфраструктура

• Провести внедрение в условиях ограниченного доступа к площадкам, высокой регламентной нагрузки и жестких сроков

03

Внедрение в регламентных условиях

Перед заказчиком стояла задача создать масштабируемую и катастрофоустойчивую вычислительную инфраструктуру enterprise-уровня, способную поддерживать критичные сервисы и работу большого числа пользователей в условиях территориально распределенной архитектуры

Масштаб проекта

Состав внедрённой инфраструктуры

Решение объединило несколько технологических уровней в единую отказоустойчивую инфраструктуру enterprise-класса

3

Территориально распределенных ЦОДа

Развертывание инфраструктуры на нескольких площадках

80+

Вычислительных сервера

Вычислительные ресурсы инфраструктуры

100+

Ethernet-коммутаторов

Построение сетевой инфраструктуры проекта

10

СХД Lenovo серии DM

Объединение в метрокластер и оперативное резервное копирование

20+

Дисковых полок

Расширение подсистемы хранения данных

20+

Коммутатора Brocade

Организация SAN-сети

10

Коммутаторов Mellanox

Объединение СХД в метрокластер

Архитектура решения

Ключевой особенностью проекта стала распределенная архитектура с географическим резервированием и высокой доступностью критичных сервисов. Решение проектировалось с учетом отказоустойчивости каждой подсистемы и необходимости интеграции с уже существующими сервисами заказчика.

• метрокластер для СХД с синхронной репликацией между площадками

• разделение вычислительного и storage-трафика

• SAN-сеть на базе Fibre Channel для подсистемы хранения данных

• IP-фабрика с архитектурой spine-leaf

• учет требований информационной безопасности для каждой технологической подсистемы, включая интеграцию с межсетевыми экранами и балансировщиками сетевой нагрузки.

Архитектура требовала синхронизации сетевых изменений с security-инфраструктурой, так как политики безопасности напрямую зависели от сетевой топологии и параметров коммутации.

Что сделала Clustegra

Команда Clustegra обеспечила полный цикл внедрения: от архитектурной проработки и подготовки документации до пусконаладочных работ, испытаний, обучения специалистов заказчика и организации сервисного сопровождения.

• разработала и согласовала архитектуру катастрофоустойчивого решения

• подготовила проектную, рабочую, исполнительную и эксплуатационную документацию

• выполнила монтаж и коммутацию оборудования

• провела пусконаладочные работы для внедренных систем

• организовала нагрузочное тестирование оборудования и инфраструктуры

• обеспечила опытную эксплуатацию и приемо-сдаточные испытания

• провела обучение специалистов заказчика

• организовала сервисное сопровождение решения

Особое внимание было уделено тестированию. Инфраструктура проверялась под нагрузками, приближенными к производственным сценариям, включая имитацию сценариев возможных катастроф.

Ключевые вызовы проекта

Проект включал не только внедрение нового пула оборудования, но и адаптацию решения к уже действующей инфраструктуре заказчика. Для этого потребовался пересмотр отдельных элементов сетевой топологии, перенастройка части существующего оборудования и учет legacy-среды при проектировании целевой архитектуры

Интеграция с существующей инфраструктурой

Развертывание инфраструктуры одновременно на нескольких площадках усложняло координацию команд, синхронизацию этапов внедрения и проведение тестирования. Для снижения рисков требовалась точная последовательность работ и постоянная сверка между участниками проекта

Работа в 3х территориально распределенных ЦОДах

Решение интегрировалось со смежной ИБ-инфраструктурой, включая межсетевые экраны и балансировщики сетевой нагрузки. Изменения в сетевой архитектуре влияли на политики безопасности и настройки межсетевых экранов, а изменения в security-контуре могли требовать корректировки коммутации и конфигураций сетевого оборудования

Взаимозависимость сети и информационной безопасности

Крупная корпоративная среда заказчика требовала большого объема согласований и документации. В процессе проекта появлялись дополнительные требования со стороны разных подразделений, поэтому документационная часть стала отдельным значимым направлением работ

Высокая регламентная и документационная нагрузка

Все ЦОДы находились на территориях с повышенными требованиями безопасности. Это влияло на сроки доступа специалистов, логистику оборудования, оформление пропусков, изменение уровней допуска и организацию работ на площадках

Работы на режимных объектах

Проект выполнялся в условиях жестких временных ограничений. Для соблюдения графика работы по всем системам велись параллельно, часть активностей выполнялась в ночное время, выходные и праздничные дни, а ключевые решения согласовывались на регулярных проектных совещаниях с участием ответственных представителей заказчика и смежных команд

Сжатые сроки реализации

Результат

В результате заказчик получил распределенную катастрофоустойчивую вычислительную инфраструктуру, введённую в промышленную эксплуатацию, поддержку критичных сервисов и готовую к дальнейшему масштабированию.

• обеспечена географическая катастрофоустойчивость инфраструктуры

• повышена доступность критичных сервисов

• создана масштабируемая основа для роста вычислительных нагрузок

• реализована интеграция с существующей ИТ- и ИБ-инфраструктурой заказчика

• проведено нагрузочное тестирование и проверка сценариев отказа

• подготовлена документация для эксплуатации и сопровождения решения

• специалисты заказчика получили необходимое обучение для работы с инфраструктурой, включая как каждый вид оборудования, так и обслуживание систем в целом

Выводы проекта

Проект показал, что при внедрении распределенной инфраструктуры enterprise-уровня критичны не только характеристики оборудования, но и качество предварительного планирования, архитектурной синхронизации и управления зависимостями между участниками.

Legacy-инфраструктуру необходимо учитывать с самого начала. Даже сильное новое решение может потребовать существенной адаптации, если действующая среда и существующие сервисы не были полноценно учтены на этапе проектирования.

Информационная безопасность не является отдельным независимым слоем. В крупных инфраструктурных проектах ИБ глубоко связана с сетевой архитектурой, политиками доступа, коммутацией и параметрами эксплуатации.

Координация проекта важна не меньше технологической части. В распределенных внедрениях с большим количеством подсистем и смежных подрядчиков управляемость проекта становится одним из ключевых факторов успеха.

Документация должна планироваться как самостоятельный контур работ. В крупных корпоративных структурах требования к документации могут существенно влиять на сроки реализации и нагрузку проектной команды.

Сжатые сроки усиливают все проектные риски. Чем сложнее инфраструктура, тем важнее заранее фиксировать зависимости, порядок согласований, доступы к площадкам и участие профильных служб заказчика.

Заключение

Этот проект стал примером комплексного внедрения инфраструктуры enterprise-уровня в условиях высокой технической, организационной и регламентной сложности

Clustegra обеспечила полный цикл реализации: от архитектуры и проектной документации до введения в эксплуатацию, обучения и сервисного сопровождения.

Проект подтвердил способность команды реализовывать сложные инфраструктурные решения, где результат зависит не только от технической экспертизы, но и от управления зависимостями, рисками, сроками и коммуникацией между всеми участниками внедрения.

Свяжитесь с нами

Обсудите похожий инфраструктурный проект

Оставьте заявку, и мы обсудим задачу, ограничения и формат реализации проекта

Расскажите о задаче - подберем подход к проектированию, внедрению или сопровождению инфраструктуры.

E-mail: sales@clustegra.com

Отдел продаж

+7 (499) 136-46-86 (доб. 200)