banner
Maison / Blog / Fabriquer un DGX
Blog

Fabriquer un DGX

Jun 27, 2023Jun 27, 2023

Tout le monde ne peut pas se permettre un serveur Nvidia DGX AI équipé des derniers accélérateurs GPU « Hopper » H100 ou même de l’un de ses nombreux clones disponibles auprès des OEM et ODM du monde. Et même s’ils peuvent se permettre cette escalade de traitement IA, cela ne signifie pas une seule seconde qu’ils peuvent mettre la main sur les GPU H100 ou même « Ampere » A100 qui font partie intégrante de ce système étant donné la forte demande pour ces processeurs. moteurs.

Comme d’habitude, les gens trouvent des substituts économiques et techniques, c’est ainsi que fonctionne une économie saine, augmentant le nombre d’alternatives et réduisant les coûts de toutes ces alternatives grâce à la concurrence.

Il en va de même pour les configurations SuperNode que le fournisseur de tissus composables GigaIO a mises en place avec l'aide des fabricants de serveurs Supermicro et Dell. Plutôt que d'utiliser des GPU Nvidia, les SuperNodes GigaIO sont basés sur des accélérateurs GPU AMD « Arcturus » Instinct MI210 moins chers, qui se branchent sur des emplacements PCI-Express et ne disposent pas des sockets spéciaux dont ont besoin les GPU haut de gamme de Nvidia, AMD ou Intel – SXM4 et les sockets SXM5 pour les GPU A100 et H100 de Nvidia et les sockets OAM d'AMD et Intel. Et plutôt que d'utiliser les interconnexions NVLink pour regrouper les mémoires GPU Nvidia A100 et H100 dans un système de mémoire partagée ou l'interconnexion Infinity Fabric d'AMD pour regrouper les mémoires des GPU Instinct MI250X haut de gamme, la configuration SuperNode utilise PCI-Express. 4.0 commutateurs pour relier les mémoires GPU entre elles et aux nœuds hôtes du serveur.

Cette configuration a bien sûr moins de bande passante que les interconnexions NVLink ou Infinity Fabric, et même lorsque les commutateurs PCI-Express 5.0 seront disponibles, ce sera toujours le cas – ce que nous avons déploré récemment au nom d'entreprises comme GigaIO et de leurs clients. Nous maintenons toujours que les niveaux de version PCI-Express pour les ports de serveur, les cartes adaptateurs et les commutateurs devraient être disponibles de manière synchronisée dans le matériel plutôt que d'avoir un énorme décalage entre les serveurs, les adaptateurs et les commutateurs. Si les infrastructures composables doivent devenir monnaie courante, et si les interconnexions PCI-Express sont le meilleur moyen d'y parvenir au niveau des pods (c'est-à-dire quelques racks de machines interconnectés), alors cela nous paraît une évidence.

Ni GigaIO ni ses clients n’ont le temps d’attendre que tout cela s’aligne. Elle doit aujourd'hui créer des clusters et apporter les avantages de la composabilité aux clients, ce qu'elle peut faire comme nous l'avons montré dans le passé avec des études de cas et auxquelles ces liens font référence. Plus important encore, la composabilité permet d'augmenter l'utilisation de moteurs de calcul coûteux tels que les GPU à mesure que les multiples charges de travail exécutées sur des clusters évoluent au fil du temps. Aussi difficile que cela puisse paraître – et cela a été démontré au San Diego Supercomputing Center dans ses tests de référence – vous pouvez utiliser des GPU moins performants ou moins, augmenter leur utilisation et obtenir des résultats plus rapidement avec une infrastructure composable qu'avec une infrastructure composable. vous pouvez le faire avec un gros fer GPU costaud.

Les configurations GigaPod, SuperNode et GigaCluster mises en place par GigaIO sont une commercialisation de cette idée, et elle ne se limite pas aux GPU AMD MI210. N'importe quel GPU, FPGA ou accélérateur discret qui se branche sur un emplacement PCI-Express 4.0 ou 5.0 peut être intégré à ces configurations.

Un GigaPod possède de un à trois nœuds de calcul basés sur des serveurs à deux sockets utilisant les processeurs Epyc 7003 « Milan » d'AMD, mais encore une fois, rien n'empêche GigaIO ou ses clients d'utiliser d'autres processeurs ou serveurs autres que ceux de Dell ou de Supermicro. Il s’agit simplement de la configuration entièrement AMD qui a été certifiée pour être vendue comme une seule unité aux clients.

Le GigaPod dispose d'un commutateur PCI-Express à 24 ports basé sur le commutateur ASIC Switchtec Gen 4.0 PCI-Express de Microchip Technology. (Nous avons présenté ici les ASIC Switchtec de Microchip Gen 5.0, et nous espérons qu'ils commenceront bientôt à être expédiés en volume.) GigaIO utilise des ASIC d'adaptateur PCI-Express de Broadcom pour connecter des serveurs, des boîtiers de stockage et un boîtier d'accélérateur à cette dorsale de commutation, que son logiciel FabreX la pile peut se désagréger et composer à la volée. Le GigaPod dispose de seize accélérateurs et les CPU et GPU sont provisionnés à l'aide de Bright Cluster Manager de Bright Computing, racheté par Nvidia en janvier 2022.

Envoyer une demande
Envoyer