使用 Equality 网络拓扑对多 exaflops 机器进行性能评估
在现代计算架构中,由于核心数量的增加,图论是重头戏。不断寻找更好的连接核心的方法是必不可少的。本文重新审视了一种新颖的弦环互连拓扑系统 Equality,以与之前的一些作品进行比较。本文详细介绍了构建 Equality 互连的过程、其特殊路由过程、选择配置的策略以及使用开源周期精确 BookSim 并评估其性能。提出了代表小型到大型计算设施的四个场景来评估网络性能。这项工作表明,在 16,384 各端点系统中,Equality 网络被证明是最有效的系统。结果还显示了扩展到 48-320K 和一百万个端点的 Equality 网络的稳定可扩展性。平等网络可调整以适应商品硬件,并在十种常见流量模型下具有弹性。建议将 Equality 网络拓扑用于构建高效的 multi-exaflops 超级计算机和数据中心。
介绍
高性能计算(HPC)是一种使用高端计算组件来协同处理普通计算机无法轻易解决的大规模任务的计算类型。计算组件通过 HPC 网络连接,以实现更高的效率。
HPC 网络与其他网络的不同之处在于,它通常寻求同步通信和计算,以便通信不会过多地中断计算以提高效率。HPC 网络还倾向于使用同类计算硬件,例如在整个实施过程中使用相同型号的交换机(具有相同数量的端口)、CPU 和加速器。由于大规模生产,系统中的同质产品确保每个组件的价格更低,并且在某些部件出现问题时通过及时更换来更直接地恢复。
黄等人。与一些流行的 HPC 网络拓扑(例如 2 层胖树、3 层胖树、3D 环面和 5D 环面)相比,已经展示了平等网络的潜力。在这项工作中,我们进一步分析了不同规模的 Equality 网络的性能,以与 Slim Fly、Dragonfly 和两种流行的网络拓扑 Fat-tree 和 Tori 进行比较。我们还扩展了对应用 Equality 网络的关注,以使机器能够根据当前的硬件工艺达到 multi-exaflops。
当前工作不同于以往工作的主要贡献包括:
平等网络系统路由表的开发和实施,
修改后的路由算法 bottleneck-UGAL 避免过度订阅路径,
除了二分带宽外,还介绍了一种称为二分比的新度量,
对各种规模的 Equality 网络的结果网络属性(直径、平均距离、延迟和吞吐量)的分析以及与其他现有出版物的比较,
利用 Equality 网络拓扑为未来 HPC 系统寻找合适配置的策略,以及
BookSim(一个 1 M 端点系统)计算过的最大的周期精确模拟。
网络架构
预先设计不同的网络拓扑通常是为了适应特定的工作负载而设计的。为了证明网络的质量以及它是否适合目标应用程序工作负载,可以检查网络的性能指标并在网络上进行额外的模拟。本文中使用的标准网络度量包括网络直径d和平均距离a。标准的通信度量是消息延迟和网络在不同流量模式和注入强度下的整体吞吐量。