Суперкомпьютер Sunway TaihuLight на 93 петафлопс запущен в Китае

Автор: ,

Новый китайский суперкомпьютер Sunway TaihuLight занял первое место в последнем списке суперкомпьютеров TOP500, выпущенном в понедельник утром на конференции ISC High Performance (ISC), проходившей во Франкфурте, Германия. С отметкой Linpack в 93 петафлопсов система превосходит бывшего чемпиона TOP500, Tianhe-2, в три раза. Машина оснащена новым процессором ShenWei и пользовательским межсоединением, оба из которых были разработаны на местном уровне, в результате чего все предположения о том, что Китаю придется полагаться на западные технологии, чтобы эффективно конкурировать в верхних эшелонах суперкомпьютера, оказались несостоятельными.

TaihuLight в настоящее время работает в Национальном суперкомпьютерном центре в городе Уси, производственном и технологическом центре, в двух часах езды к западу от Шанхая. Система будет использоваться для различных исследовательских и инженерных работ в таких областях, как климат, моделирование погоды и земли, исследования в области наук о жизни, передовые технологии производства и анализ данных. 

«Как первая система номер один в Китае, которая полностью основана на отечественных процессорах, система Sunway TaihuLight демонстрирует значительный прогресс, достигнутый Китаем в области проектирования и производства широкомасштабных вычислительных систем», - сказал Ян в интервью TOP500 News.

Суперкомпьютер был разработан Национальным исследовательским центром параллельной вычислительной техники и технологий (NRCPC), той же организацией, которая разработала предшественницу TaihuLight, систему Sunway BlueLight, которая установлена ​​в Национальном суперкомпьютерном центре в Цзинань. BlueLight - суперкомпьютер 796-teraflop, который был развернут в 2011 году.

 

BlueLight рассчитан на использование более старой версии процессора ShenWei - 16-ядерного чипа третьего поколения, известного как SW1600, который насчитывает около 140 гигафлоп. За пять лет, прошедших с момента выхода этой системы, NRCPC разработала гораздо более мощный процессор, SW26010 - 260-ядерный чип, который может выдавать чуть более трех терафлоп. У TaihuLight есть один SW26010 в каждом из его 40 960 узлов, что составляет 125 пиковых петафлоп на всей машине (более 10 миллионов ядер). Linpack, конечно же, собирается оставить некоторые FLOPS на столе, но 93 петафлопса представляют собой 74-процентный доход от максимальной производительности.

В 3-х терафлопсах новый силикон ShenWei находится на одном уровне с Intel «Knights Landing» Xeon Phi - еще одним многопрофильным дизайном, но с гораздо более широкой историей. В некоторой смешной иронии, это было эмбарго США высокопроизводительных процессоров, таких как Xeon Phi, наложенное на ряд китайских суперкомпьютерных центров в апреле 2015 года, что ускорило более согласованные усилия в этой стране по разработке и производству таких чипов внутри страны. Эмбарго, вероятно, не повлияло на временную шкалу TaihuLight, поскольку она уже была предназначена для получения новых частей ShenWei. Но было широко известно, что Tianhe-2 был в очереди, чтобы получить обновление с использованием процессоров Xeon Phi, что, вероятно, повысило бы его производительность до 100-петафлоп-территорий задолго до того, как система Wuxi вышла в интернет.

Как и предыдущие воплощения, этот новейший ShenWei представляет собой 64-битный RISC-процессор с поддержкой команд SIMD и исполнением вне порядка. Его базовая архитектура несколько загадочна, хотя предполагается, что дизайн был получен из архитектуры DEC Alpha. Набор команд задается просто как ShenWei-64.

Процессор разделен на четыре основные группы, каждый из которых содержит 64 вычислительных элемента обработки (CPE) и элемент обработки управления (MPE). Каждая основная группа также включает в себя контроллер памяти, обеспечивающий совокупную пропускную способность памяти 136,5 ГБ/с для каждого сокета. Он работает на относительно скромной 1,45 ГГц и поддерживает только один поток выполнения на ядро. Чип был изготовлен в Национальном центре высокопроизводительных интегральных схем в Шанхае. Узел технологической технологии не обнаружен.

Память, каждый узел которой содержит 32 ГБ, добавляет чуть более 1,3 ПБ для всей машины. На самом деле это не так много, учитывая количество ядер, которые он должен кормить. Например, намного меньший суперкомпьютер 10-petaflop K в RIKEN оснащен 1,4-битной памятью, а большинство других крупных систем в списке TOP500 имеют намного лучшие отношения между байтами и FLOPS, чем у TaihuLight. Он также полагается на более старую технологию DDR3, которая медленнее и энергоемкой, чем более новая память DDR4.

Система также довольно легка в кеше. Фактически, это действительно не имеет никакого смысла в L1-L2-L3. Каждому ядру выделено 12 Кбайт кэша команд, а также 64 КБ локального блокнота. Вот и все. Блокнот может использоваться как кеш уровня 1 до некоторой степени, но без уровней L2 и L3 для его поддержки нет возможности для ускорения.

RSS лента

Комментарии

Комментарии отсутствуют
Для того, чтобы оставить комментарий, Вам необходимо зарегистрироваться или войти под своим аккаунтом.
Также вы можете авторизоваться через социальные сети: