Война на суперкомпьютерах: новое исследование обеспечивает эффективное планирование боя

Новое исследование Уорикского университета, которое будет представлено на крупнейшей в мире конференции по суперкомпьютерам на следующей неделе, противопоставляет новый китайский суперкомпьютер № 1 альтернативным разработкам США. В работе представлен важный новый анализ, который принесет пользу планам сражения обеих сторон в эскалации войны между двумя конкурирующими технологиями.

Профессор Стивен Джарвис, научный сотрудник Королевского общества факультета компьютерных наук Университета Уорика, расскажет некоторым из 15 000 делегатов в Новом Орлеане на следующей неделе, как графические процессоры общего назначения (GPGPU) используются в Китае. 2.5 петафлопс Tianhe-1A по сравнению с альтернативными проектами суперкомпьютеров, используемыми в США; они используют относительно простые процессорные ядра, соединенные параллельно с помощью высокоэффективных и масштабируемых межсоединений, как это видно в архитектурах IBM BlueGene.

Профессор Джарвис говорит, что: «Дискуссия о том, стоит ли мне покупать GPGPU или BlueGene, ставит все галочки перед хорошей борьбой. веха в вычислениях 21^{st века, один квинтиллион операций с плавающей запятой в секунду (10^18) Это не просто архитектурное решение - вы можете управлять небольшим городом на требуемой мощности запустить один из этих суперкомпьютеров, и даже если вы решитесь на проектирование и включите его, программирование в настоящее время невозможно.}

Исследование профессора Джарвиса использует математические модели, бенчмаркинг и моделирование для определения вероятной производительности этих будущих вычислительных систем в масштабе:

В Supercomputing в Новом Орлеане мы напрямую сравниваем проекты GPGPU с проектами BlueGene. Если вы инвестируете миллиарды долларов или юаней в программы для суперкомпьютеров, то стоит отступить и подсчитать, какие проекты реально могут вам помочь. Exascale, и как только у вас будет такой дизайн, вы снизите известные риски - мощность, отказоустойчивость и программируемость».

Доклад профессора Джарвиса использует математическое моделирование, чтобы выделить некоторые из самых больших проблем в войне суперкомпьютеров. Первая из них - это огромный разрыв между программированием и инженерией, когда даже лучшие компьютерные программисты изо всех сил пытаются использовать даже небольшую часть вычислительной мощности, которой обладают новейшие разработки суперкомпьютеров, и что будет оставаться проблемой без значительных инноваций. Профессор Джарвис говорит:

"если ваше приложение подходит, то решения GPGPU превзойдут проекты BlueGene по пиковой производительности" - но он также иллюстрирует потенциальные ловушки в этом подходе - "Tianhe-1A имеет теоретическую пиковую производительность 4.7 петафлопс, хотя наши лучшие меры, основанные на программном коде, могут обеспечить только 2,5 петафлопс этого пика, это много неиспользуемого компьютера, который вы включаете. Сравните это с Dawn BlueGene/P в Ливерморской национальной лаборатории Лоуренса в США, это небольшая машина с пиковой производительностью 0,5 петафлопс, но она обеспечивает 0,415 петафлопс этого пика. Во многих отношениях это неудивительно, так как наши текущие модели программирования разрабатываются для центральных процессоров».

Но на этом история не заканчивается. «Конструкция BlueGene не лишена собственных проблем. В нашей статье мы показываем, что BlueGenes может потребовать гораздо больше элементов обработки, чем система на основе графического процессора, для выполнения той же работы. Многие из наших научных алгоритмов - рецепты для выполнения вычислений - просто не масштабируйтесь до такой степени, поэтому, если мы не инвестируем в эту область, мы просто получим фантастические машины, которые мы не сможем использовать».

Еще одна ключевая проблема, выявленная исследованием Уорикского университета, заключается в том, что в спешке с использованием невероятно мощных GPGPU исследователи еще не вложили достаточно энергии в разработку лучших технологий, чтобы на самом деле связать их вместе параллельно в огромных масштабах..

Моделирование профессора Джарвиса показало, что небольшие системы на основе GPU решают задачи в 3-7 раз быстрее, чем традиционные системы на базе CPU. Однако он также обнаружил, что по мере увеличения количества связанных между собой процессорных элементов производительность систем на основе графических процессоров повышалась гораздо медленнее, чем у машин в стиле BlueGene.

Профессор Джарвис заключает, что: «Учитывая распутье, на котором стоят суперкомпьютеры, и национальную гордость, поставленную на карту в достижении экзафлопсного масштаба, эта битва за дизайн будет по-прежнему ожесточенной. Также потребуются лучшие методы моделирования, доступные сообществу. может помочь отличить хороший дизайн от плохого."

Доклад, который будет представлен 15 ноября, озаглавлен «Анализ производительности гибридной реализации MPI/CUDA эталонного теста NAS-LU» и подготовлен С. Дж. Пенникук, С. Д. Хаммонд, Г. Р. Мудалиге и С. А. Джарвиса (все они работали на факультете компьютерных наук Уорикского университета, когда выполнялась эта работа). Документ будет представлен в рамках технического направления SC 10 на семинаре по моделированию производительности, сравнительному анализу и моделированию высокопроизводительных вычислительных систем (PMBS 10).