Глубокое обучение с fpgas - новости

Глубокое обучение с fpgas - новости
Глубокое обучение с fpgas - новости
Anonim

Глубокое обучение с FPGA

Вот почему FPGA набирают обороты, несмотря на то, что графические процессоры являются де-факто стандартом для внедрения алгоритмов глубокого обучения.

В глубоком обучении, графических процессорах или графических процессорах, они стали вычислительной архитектурой выбора для своей безупречной скорости. Итак, почему инженеры переключаются на ПЛИС для реализации алгоритмов глубокого обучения, когда графические процессоры выполняют такую потрясающую работу, и они продолжают улучшаться ». Src =" // www.allaboutcircuits.com/uploads/articles/Image_1_-_FPGA_cluster.jpg" />

FPGA-кластеры могут компенсировать скорость и производительность, подобные графическим процессорам

Компании, подобные Microsoft и китайскому поисковому гиганту Baidu, впервые обратили внимание на использование FPGA в приложениях с глубоким обучением пару лет назад. Они портировали алгоритмы глубокого обучения на FPGA и утверждали, что FPGA предлагают значительное улучшение скорости на долю потребления энергии по сравнению с графическими процессорами.

Microsoft, которая запускает большие центры обработки данных для своей поисковой системы Bing и других высокопроизводительных вычислений (HPC), таких как облако Azure, испытывает трудности при развертывании графических процессоров в качестве единственного источника вычислений. Графические процессоры бывают быстрыми, и это ключевой атрибут в мире сложного глубокого изучения алгоритма. Тем не менее, инженеры Microsoft хотели ускорить глубокие алгоритмы обучения без значительного увеличения энергопотребления.

Тогда возникла проблема с меньшим спросом в данный момент, который оставил много возможностей графического процессора неиспользованным. Таким образом, Microsoft решила использовать более дешевые FPGA-операции Altera Startix 5-in, такие как обработка алгоритмов ранжирования поиска Bing. Компьютерный гигант стал свидетелем повышения общей производительности в 2 раза, когда он подсчитал стоимость серверов и энергопотребление.

Возможности и задачи

Теперь возьмите Alpera Aria 10 FPGA, которые Microsoft использует в своем сверточном нейронном сетевом (CNN) ускорителе. Он обрабатывает 233 изображения за секунду, потребляя 25 Вт. С другой стороны, графический процессор NVIDIA Tesla K40 обрабатывает от 500 до 824 изображений за секунду, в то время как он потребляет 235 Вт.

В итоге три FPGA могут быть развернуты для достижения вычислительной мощности, эквивалентной графическому процессору NVIDIA, и это снизит потребление энергии почти на 30 процентов. Это делает FPGA надежной альтернативой для тяжелых вычислительных приложений в области глубокого обучения.

FPGA также станут вероятным выбором для встроенных систем, потому что они интенсивно работают в вычислительной среде и поддерживают приложения реального времени. Затем существует большее разнообразие функций, которые могут выполнять ПЛИС, в то время как они могут быстро настроить количество слоев и размеров в сети.

Image
Image

TeraDeep использует FPGA для пакетной обработки для соответствия скорости GPU. Изображение предоставлено TeraDeep

Xilinx, Nemesis Altera на рынке FPGA, сделала инвестиции в TeraDeep, фирму, которая ускоряет глубокие алгоритмы обучения с использованием FPGA Xilinx. TeraDeep является ответвлением исследовательского проекта в Университете Пердью, который искал многоуровневые CNN для выполнения обработки изображений и подобных задач, таких как распознавание речи.

Однако, в то время как FPGA выигрывают центр внимания как ускоритель глубокого обучения с конвертом с малой мощностью, ключевым камнем преткновения является сложность программирования FPGA. В отличие от графических процессоров, которые работают на программном обеспечении, инженеры должны преобразовать программный алгоритм в аппаратный блок, прежде чем сопоставлять его с FPGA.

Разработка приложений для FPGA с глубоким обучением по-прежнему находится на ранних стадиях, и крупные фирмы, такие как Microsoft, скорее всего, будут использовать графические процессоры для обучения моделей, портируя их в FPGA для производственных загрузок. Между тем, ПЛИС, скорее всего, продолжат повышать производительность и эффективность.

Третья и заключительная часть серии, посвященная глубокому изучению, расскажут о том, где DSP стоят на этом быстро развивающемся рынке.