banner
Centro de Noticias
Impresionante experiencia en diseño gráfico.

El hierro que impulsará la IA en Meta Platforms

Aug 17, 2023

Si hay algo que es consistentemente cierto sobre los clústeres de HPC durante los últimos treinta años y para los sistemas de entrenamiento de IA durante la última década, es que a medida que crecen las cargas de trabajo, la red se vuelve cada vez más importante, y quizás tan importante como empaquetar tantos fracasos en un nodo como física y térmicamente tiene sentido.

Para los sistemas de capacitación de IA, nada ilustra esto mejor que la evolución de los servidores personalizados creados por Meta Platforms, incluso allá por 2016, cuando todavía se llamaba Facebook y cuando donó su primer diseño de sistema de IA al Open Compute Project que fundó en 2011. Tal co-diseño de hardware y software de aplicación en los últimos años de la Ley de Moore fue uno de los temas centrales que nos llevaron a fundar The Next Platform, y aquí estamos ocho años después y los hiperescaladores y los constructores de la nube todavía están volviendo a enseñar. nosotros algunas de las lecciones que aprendimos hace mucho tiempo en el campo de la HPC con algunos giros y vueltas interesantes que son exclusivos de la IA.

En la OCP Global Summit en Silicon Valley esta semana, Meta Platforms presentó su nuevo sistema de inteligencia artificial "Grand Teton" y una matriz de almacenamiento de alta capacidad "Grand Canyon" complementaria basada en unidades de disco, cuyos diseños se donarán a Open Compute Proyecto para que otros fabricantes puedan crear sistemas que sean compatibles con las plataformas Meta de hierro que usarán para sus propias pilas de software de IA.

Las especificaciones completas del sistema Grand Teton no se divulgaron, lo cual es una pena, pero obtuvimos una idea de un blog publicado por Alexis Bjorlin, vicepresidente de infraestructura de la empresa, y la especificación para la matriz de almacenamiento Grand Canyon es en realidad disponible en el OCP. (A pesar de que Meta Platforms tiene suficiente ancho de banda de transmisión de video para albergar a miles de millones de personas, elige no donar recursos a OCP para que cualquiera pueda asistir al evento prácticamente desde cualquier lugar. Este año, las personas tuvieron que asistir a la Cumbre Global de OCP en persona, lo cual no pudimos hacer. Por lo tanto, no podemos apresurarnos en persona para obtener más detalles, pero tenga la seguridad de que estamos presionando desde lejos).

Afortunadamente, al hurgar, nos encontramos con un artículo publicado por Meta Platforms en abril sobre el sistema Neo de codiseño de hardware y software que se usó para crear el sistema de inteligencia artificial "Zion" de la generación anterior de 2019 y el sistema "ZionEX" de 2021. ese fue su puntapié y del que la empresa no ha hablado mucho públicamente hasta este año. Neo es un tipo de hipervisor de almacenamiento en caché de memoria creado por Meta Platforms que permite el uso flexible y escalable de varias partes de la jerarquía de memoria en clústeres, todo bajo el control del software. (Por cierto, el diseño de ZionEX se contribuyó a OCP y ahora está bajo el documento de especificaciones de Zion 1.0. Grand Teton se contribuirá a OCP en abril de 2023, según fuentes de Meta Platforms. No sabemos qué sucedió. a la especificación original del servidor Zion).

Las máquinas ZionEX y el hipervisor de memoria caché Neo (esos son nuestros términos, no el término de Meta Platforms) se usan para entrenar modelos de recomendación de aprendizaje profundo (DLRM), que son una carga de trabajo clave para las empresas modernas y, en este caso, se usan para probar para averiguar qué anuncio y contenido mostrar a los usuarios en Facebook, Instagram, WhatsApp y el resto de la pila.

Las necesidades de potencia para los DLRM, así como para los modelos de transformadores (utilizados en el procesamiento del lenguaje natural) son bastante intensas, como muestran estos gráficos del artículo de abril:

Meta Platforms ha utilizado los clústeres ZionEX, que acoplan múltiples sistemas Zion, para entrenar modelos DLRM que varían en tamaño desde 95 mil millones hasta 12 billones de parámetros y ofrecen una aceleración de un orden de magnitud sobre clústeres más simples de máquinas Zion. El diseño original de Zion no escalaba bien, según Meta Platforms, y muchas veces una carrera de entrenamiento quedaba atrapada dentro de una máquina. Pero con ZionEX, Meta Platforms ideó una topología completamente conectada para GPU que utiliza RDMA sobre Ethernet convergente para evitar la pila de redes de CPU y otorgar a las GPU acceso total a la memoria de los demás a través de la estructura Ethernet. (Más sobre esto más adelante).

Presumiblemente, dado que el sistema Grand Teton hará uso de las GPU H100 "Hopper", que tienen de 3 a 6 veces el rendimiento de las GPU A100 "Ampere" anteriores utilizadas en las máquinas ZionEX, y también tienen 4 veces el ancho de banda de la GPU anfitriona, 2X el ancho de banda de la red y el doble de potencia que permite usar las GPU Hopper en primer lugar, las máquinas Grand Teton deberían ayudar a Meta Platforms a escalar aún más sus DLRM y obtener resultados aún más rápido en modelos que no crecen.

Una de las cosas que todos los hiperescaladores y los grandes proveedores de la nube se dan cuenta es que necesitan codiseñar su hardware y software para sus pilas de aplicaciones específicas o las de sus clientes de la nube y, además, necesitan controlar la factura de materiales y fuentes de piezas en esas máquinas para que puedan cumplir con sus objetivos de planificación de capacidad en un mundo donde las cadenas de suministro se han desestabilizado por la pandemia de coronavirus.

Y así, Facebook inició el Open Compute Project para tratar de abordar esos problemas y, a medida que se ha transformado en metaplataformas, la necesidad de hardware del cliente se ha vuelto cada vez más aguda. Es por eso que nos hemos estado burlando un poco de Meta Platforms durante el año pasado por ir a Nvidia y tomar un sistema poco personalizado basado en servidores DGX y la infraestructura de conmutador Mellanox denominada Research Super Computer, o RSC para abreviar. Esta no es en absoluto la forma en que Facebook y Meta Platforms hacen las cosas, y si están comprando sistemas de Nvidia, es muy posible que sea porque esa era la única forma de obtener GPU de manera oportuna.

Las GPU para los servidores Zion, ZionEX y ahora Grand Teton utilizan el factor de forma OCP Application Module (OAM), creado por Facebook y Microsoft hace tres años. Las máquinas de IA aceleradas por GPU anteriores, que incluyen Big Sur de 2016, Big Basin de 2017 y Big Basin 2 de 2018, usaban aceleradores de GPU PCI-Express y no usaban los zócalos SXM personalizados de Nvidia con su red NVLink que Nvidia se reserva para sus sistemas de mayor rendimiento.

Meta Platforms, como muchos hiperescaladores, está tratando de mantenerse lo más lejos posible de la propiedad, lo que nuevamente hace que la adquisición del sistema RSC y Meta se jacten de construir una supercomputadora virtual basada en GPU Nvidia A100 en la nube de Microsoft Azure. ambos muy peculiares. De hecho, es por eso que Microsoft y Meta Platforms crearon el factor de forma OAM en primer lugar.

AMD e Intel admiten factores de forma OAM con sus GPU: AMD con su anterior serie "Arcturus" Instinct MI100 de noviembre de 2020 y su última serie "Aldebaran" Instinct MI200 que comenzó a implementarse un año después. Intel está apoyando el factor de forma OAM para sus aceleradores de GPU discretos "Ponte Vecchio" Xe HPC que, francamente, hace mucho tiempo que se necesitaban.

Nvidia nunca ha discutido esto, pero hizo variantes personalizadas de las versiones PCI-Express de sus aceleradores de GPU "Pascal" P100 y "Ampere" A100 en el factor de forma OAM para plataformas Meta para servidores Zion y ZionEx. Suponemos que hará lo mismo con los dispositivos H100 utilizados en el sistema Grand Teton. También suponemos que Nvidia fabrica aceleradores de GPU compatibles con OAM para Microsoft.

La razón por la que Meta Platforms podría estar comprando clústeres de IA en la nube de Microsoft o sistemas DGX lock, stock y barrel de Nvidia podría ser simplemente que Nvidia fabricó una cierta cantidad de GPU basadas en OAM para estas dos empresas y eso fue todo hasta que H100 comenzó a enviarse.

La mejor manera de comprender qué podría ser el sistema Grand Teton (Meta Platforms aún no ha revelado muchos de los detalles) es mirar a Zion y ZionEX y luego ver cómo han evolucionado estos diseños y por qué.

El sistema Zion era interesante por varias razones, y no solo por el factor de forma OAM y la topología de estructura de conmutación PCI-Express reconfigurable que era inherente al diseño. Esta máquina Zion se refería descaradamente tanto a la CPU como a la GPU, y sus respectivas DDR gruesas y lentas y simples y memorias HBM delgadas y rápidas. Y además, fue Facebook (todavía no Meta Platforms en ese momento) lo que obligó a Intel a agregar matemática de punto flotante de media precisión BF16 a los motores vectoriales AVX-512 en los procesadores "Cooper Lake" Xeon SP, igualando así el punto flotante BF16 disponible en las GPU de la época.

Al tener estas memorias y un formato de datos y una metodología de procesamiento comunes, Facebook podría simplificar algunos de sus flujos de datos y transformaciones de aprendizaje automático. Y para ser muy específicos, las ocho CPU del nodo del servidor Zion, con 6 TB de memoria, significaban que los DLRM a escala de terabytes podían tener todas sus incrustaciones en la memoria de la CPU principal, mientras que las partes computacionales del DLRM podían trasladarse a las GPU y datos alimentados con cuchara en su memoria HBM según se necesiten inmediatamente desde la memoria principal de la CPU también.

Como puede ver, los ocho SP de Cooper Lake Xeon en Zion están vinculados sin cola mediante UltraPath Interconnect (UPI) de Intel en una topología de hipercubo torcida (lo que significa que hay un salto entre seis de ocho CPU, pero dos saltos entre los otros dos. ) Las interfaces de red de 100 Gb/s cuelgan de las CPU y hay cuatro conmutadores PCI-Express integrados en la placa OAM que crea la estructura reconfigurable para vincular las GPU entre sí y con las CPU.

El servidor de CPU de ocho vías dentro de Zion en realidad se compone de cuatro tarjetas de CPU "Angels Landing" de dos sockets, cada una con hasta 1,5 TB de memoria y cuatro NIC Ethernet de 100 Gb/s que admiten la especificación OCP 3.0 para tarjetas intermedias. Apilado encima estaba el chasis de la GPU "Emerald Pools", que tenía cuatro conmutadores PCI-Express 4.0 para interconectar las ocho GPU OAM entre sí y con cada una de las ocho CPU del sistema Zion.

Con el sistema ZionEX, cuyas especificaciones puedes ver aquí, Facebook colocó una capa de conmutación intermedia entre las GPU y las CPU, lo que hizo algunas cosas. Primero, el complejo de conmutadores PCI-Express en el medio, llamado "Clear Creek", cuatro conmutadores PCI-Express 4.0, ocho NIC Ethernet de 200 Gb/s para unir los nodos Zion y espacio para dieciséis E1.2 o M.2 unidades flash para almacenamiento local. (Cada conmutador PCI-Express tiene hasta cuatro unidades flash NVM-Express).

Si bien Facebook no habló sobre esto en ese momento, las máquinas Zion y ZionEX podían configurarse con uno, dos o cuatro sleds de cómputo de CPU de dos sockets y no tenían que tener el complemento completo de cuatro sleds. Y, de hecho, con ZionEX, cuatro sockets en dos sleds era el valor predeterminado y se permitía un sled si el modelo DLRM no necesitaba más que esa capacidad de cómputo de CPU y memoria DDR4.

Aquí hay un esquema mucho mejor de ZionEX que muestra la jerarquía de conexiones:

Mientras que las máquinas Zion y ZionEX tienen varios subsistemas independientes, el sistema Grand Teton tiene una sola placa base a la que se conectan todos los componentes: CPU, GPU, conmutadores PCI-Express y tarjetas de interfaz de red.

Esto hace que el sistema sea más confiable, con menos cables y conexiones y menos cosas que puedan salir mal. De hecho, el diseño de Grand Teton elimina por completo el cableado externo, a excepción de la alimentación y la red.

Meta Platforms mantiene en secreto los feeds y las velocidades del sistema Grand Teton en este momento, y será interesante ver qué CPU y GPU elige. Nuestra suposición, dada la larga dependencia de Facebook de los procesadores Intel Xeon D para las cargas de trabajo de la infraestructura, es que Grand Teton utilizará los SP Xeon "Sapphire Rapids" para el cómputo de la CPU, la conmutación PCI-Express 5.0 y la opción de GPU Nvidia, AMD o Intel.

Esto ciertamente encaja. Los Cooper Lake Xeon SP tenían enlaces PCI-Express 3.0 x16 hacia el nodo del conmutador Clear Creek, y cambiarlos a enlaces PCI-Express 5.0 x16 produce 4 veces el host para cambiar el ancho de banda. El uso de conmutadores PCI-Express como estructura en la placa del sistema Grand Teton equilibraría esto y cambiaría a Ethernet RoCE de 400 Gb/s para las interfaces de red en los conmutadores que interactúan con las GPU y a puertos Ethernet de 200 Gb/s en los hosts de la CPU. daría el ancho de banda de la red de cómputo y datos 2X del que habla el blog Meta Platforms.

Quizás lo más interesante es que el sistema Grand Teton puede soportar el doble de calor, y Bjorlin explicó en su blog por qué esto es tan importante.

"La tendencia de aumento de energía que estamos viendo, y la necesidad de avances en refrigeración líquida, nos obligan a pensar de manera diferente sobre todos los elementos de nuestra plataforma, rack y energía, y diseño de centro de datos", explicó Bjorlin. "El gráfico a continuación muestra las proyecciones de aumento de la memoria de alto ancho de banda (HBM) y el crecimiento de la potencia del módulo de capacitación durante varios años, así como también cómo estas tendencias requerirán diferentes tecnologías de enfriamiento a lo largo del tiempo y los límites asociados con esas tecnologías".

Con refrigeración líquida asistida por aire (es decir, refrigeración líquida que mueve el calor dentro del chasis antes de que se descargue en el pasillo caliente del centro de datos) y refrigeración por agua de las instalaciones para eliminar el calor de los racks de manera aún más eficiente, Meta Platforms está mostrando cómo esto El diseño puede acomodar GPU más calientes y pilas de memoria HBM y empujar a 1300 vatios por zócalo y aun así satisfacer la loca demanda de más capacidad para sus sistemas DLRM.

Meta Platforms mencionó de pasada una actualización complementaria a su matriz de almacenamiento actual "Bryce Canyon", llamada "Grand Canyon", que admite unidades de disco duro y módulos flash. Las especificaciones para esto se publicaron el 14 de septiembre y puedes verlas aquí.

El arreglo de almacenamiento Grand Canyon tiene espacio para 72 unidades en un gabinete OpenRack de 4OU, dividido en dos planos de control. Cada plano de control tiene un microservidor "Barton Springs" con un solo procesador "Cooper Lake" Xeon SP de 26 núcleos, 64 GB o 128 GB de memoria DDR4, un par de unidades flash E1.S de 2 TB, controladores y extensores Broadcom SAS, y una interfaz de red OCP 3.0 de 50 Gb/s que eventualmente se actualizará a 100 Gb/s. Este es un almacenamiento denso, no necesariamente un almacenamiento rápido.

Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora