Новият и изключително скъп проект на Илон Мъск, суперкомпютърът xAI Colossus за системи с изкуствен интелект, отвори врати за обществеността за първи път. Журналисти от ресурса ServeTheHome бяха допуснати в съоръжението. Те говориха подробно за клъстера на сървърите на Supermicro, чието сглобяване отне 122 дни и той вече работи почти два месеца.
Сървърите с GPU са изградени на платформата Nvidia HGX H100. Всеки от тях включва осем ускорителя Nvidia H100 и универсална система за течно охлаждане Supermicro 4U с горещи компоненти за всеки GPU поотделно. Сървърите са инсталирани в шкафове по осем, което води до 64 ускорителя на шкаф. В долната част на всяка стойка има друго устройство Supermicro 4U с резервна помпена система и система за наблюдение на стойката.
Стелажите са групирани в групи по осем, давайки 512 GPU на масив. Всеки сървър има четири резервни захранвания; в задната част на стелажите можете да видите трифазни захранвания и Ethernet комутатори; има и колектори с размер на стелажа, които се справят с течното охлаждане. Клъстерът Colossus съдържа повече от 1500 стелажа или около 200 масива. Ускорителите на тези масиви са инсталирани само за три седмици, каза по-рано главният изпълнителен директор на Nvidia Дженсен Хуанг.
Поради високите изисквания за производителност на AI суперклъстера, който непрекъснато обучава модели, инженерите на xAI трябваше да положат усилия по отношение на работата в мрежа. Всяка графична карта е оборудвана със специален 400 GbE мрежов контролер с допълнителен 400 GbE мрежов адаптер на сървър. Тоест всеки сървър на Nvidia HGX H100 има 3.6 Tbps Ethernet - да, целият клъстер работи на Ethernet, а не на InfiniBand или други екзотични интерфейси, стандартни за суперкомпютрите.
Суперкомпютърът изисква не само графични процесори, но и памет и централни процесори за обучение на AI модели, включително Grok 3, но xAI само частично разкри информация за тях. Цензурираните видеоклипове показват, че сървърите, работещи на x86 чипове в кутии Supermicro, са отговорни за това - те също са оборудвани с течно охлаждане и са проектирани да работят или като хранилище на данни, или за работни натоварвания, насочени към централните процесори.
На обекта са монтирани и батерии Tesla Megapack. Когато клъстерът работи, са възможни внезапни промени в потреблението на енергия, така че тези батерии, с капацитет до 3.9 MWh всяка, се налага да бъдат инсталирани между електрическата мрежа и суперкомпютъра като енергиен буфер. Вижте повече във видеото.