Проблемы архитектуры HPC

Качественные скачки в развитии суперкомпьютеров связанные с решением технических и теоретических проблем, а часто даже с изменением парадигмы построения вычислительных систем. Такие фундаментальные проблемы часто называют стенами (Walls), которые должны быть преодолены или отодвинуты вперед для преодоления следующих екзафлопных рубежей.

Вопросы питания и охлаждения станут еще более важными для суперкомпьютеров и крупных ЦОД, которые строятся для современных социальных сетей, облаков и поисковых машин. Архитекторам таких компьютерных систем, которые обычно имеют опыт в электротехнике или компьютерных науках, в современных условиях необходимо думать про новейшие прогрессивные системы теплообмена.

И хотя, с одной стороны, за последние несколько лет в мире появилось много различных передовых систем охлаждения, лишь единицы из них готовы к внедрению в масштабах HPC с десятками тысяч серверов, и еще меньшее количество пригодных для огромного ЦОД с сотнями тысяч серверов.

Перспективные методы, которые сейчас разрабатываются в этой области, включают охлаждение серверов водой комнатной температуры, в отличие от систем с охлажденной водой, а также повторное использование тепловой энергии. Системы типа суперкомпьютера CLUMEQ в течение нескольких лет показывают потенциал повторного использования тепла, и проблема сейчас — только развить подобные технологии до промышленных масштабов.

Быстрое хранилище. Конечно, можно масштабировать параллельную файловую систему Lustre до десятков петабайт и более. Некоторые крупные HPC центры рассматривают распределены технологии типа Hadoop для решения проблемы «больших данных». Но есть ли более фундаментальные изменения технологии, которые смогут значительно повлиять на методы сохранения данных в этом десятилетии? Так же как вопрос — вебмани это… лишь десяток лет назад был трудным для многих людей. Сейчас же электронные деньги широко вошли в повсеместное использование.

Существует много проектов по разработке быстрых хранилищ на основе технологий SSD. В ближайшей перспективе (1-2 года) не произойдет революционных изменений во флэш технологиях. Флеш память развивается логично и постепенно. Однако, введение серверного интерконнекта и новых флэш-контроллеров PCIeGen3 обещает появление новых интересных возможностей. Для получения преимуществ пропускной способности PCIeGen3 необходимо будет изменить некоторые программные интерфейсы. Придется избавиться устоявшихся протоколов (FC, SCSI, SAS и др.), и только тогда файловая система будет иметь полную мощность.

В долгосрочной перспективе флэш-технологии вдохновлять появление новых технологий памяти, таких как мемристор, которые выйдут не только на новый уровень производительности, но и потребуют значительно меньших затрат энергии.

Быстрые сети — это не просто переход с 10 Gbit на 40 Gbit Ethernet или QDR Infiniband на FDR Infiniband. Это изменение подхода к управлению и масштабируемости современных сетей в HPC. Впереди нас ждут интересные времена в сфере сетей, поскольку распространение «производителей кремния» как Intel, Mellanox, Broadcom и других мотивировать новые проекты на борьбу так, как это было десять лет назад в случае с Linux и производителями серверов.

Если взять, например, сетевой коммутатор, то можно смело делать ставку на производителей ПО, которое сможет на нем работать. Со временем коммутаторы станут все более похожими на обычные серверы, а разница между ними будет исчезать. Ваш сервер работает как коммутатор или на вашем коммутаторе запускаются приложения? Добавьте к этому альтернативные экономичные процессоры и новые программные модели, и разработчики суперкомпьютеров придумают им множество задач на много лет вперед.

Несколько тем, которые в последнее время оживленно обсуждаются.

Во-первых, трудно соревноваться с открытыми промышленными стандартами.

Во-вторых, масштаб имеет значение. Привлекательными станут такие технологии, которые можно применить везде, а не на отдельных специализированных системах, которыми будет пользоваться несколько клиентов.

И наконец, в этой области есть множество возможностей для инноваций независимо от того, это самая компьютерная компания мира, это небольшой проект из двух десятков человек. Единственная вещь, которая до сих пор не изменилась со времен первого суперкомпьютера Cray-1, это то, что высокопроизводительные вычисления являются локомотивом технологий.