Hadoop的理念具有革命性意义,这一点我们都很清楚。它使得超大规模数据中心能够利用现成的计算机解决海量数据问题。然而,我们试图解决的问题极其复杂,以这种方式进行扩展的成本将高得令人难以承受,无论是电力成本还是能源成本。深度学习根本不可能出现。
因此,我们必须首先进行垂直扩展。这就是我们进行垂直扩展的方式。这是上一代系统架构,被称为HGX。这彻底改变了我们所知的计算技术,也彻底改变了人工智能。
这是八个GPU,每一个都类似于这个。这是两个GPU,一个Blackwell封装中包含两个Blackwell GPU。在这下面还有八个这样的单元。然后这连接到我们称之为NVLink 8 的部件。
然后这连接到类似这样的CPU机架。这里有两个CPU,位于顶部。我们通过PCI Express将其连接起来,然后许多这样的设备通过InfiniBand连接,最终形成一台人工智能超级计算机。过去就是这样做的,我们就是这样开始的。
这就是我们在扩展规模之前所能达到的极限。但我们希望进一步扩展规模。Ranger项目将这个系统又扩展了四倍。
因此,我们有了NVLink 32,但系统规模过于庞大。为此,我们不得不进行一些重要的重新设计,包括NVLink的工作方式以及ScaleUp的工作方式。
首先,我们需要将嵌入在主板上的NVLink交换机从系统中解耦并移除。这是一个NVLink交换机,是世界上性能最高的交换机,它使得每个GPU都能以满带宽在完全相同的时间与其他每个GPU进行通信。
我们将NVLink交换机解耦并移除,并将其放置在机箱的中心。在九个不同的机架中,共有18个交换机托盘(我们称之为)容纳这些交换机。交换机解耦后,计算单元现在位于别处。这相当于计算方面的两个部分。
点击查看全文(剩余0%)