Elon Musk anuncia la línea GROK 3 en Memphis con GPU NVIDIA H100

Elon Musk anunció oficialmente el inicio del entrenamiento GROK 3 en las instalaciones de supercomputadoras de Memphis, equipadas con las GPU H100 de generación actual de NVIDIA. La instalación, que Musk llama "el grupo de entrenamiento de IA más poderoso del mundo", comenzó a operar el lunes con la ayuda de 100.000 GPU H100 refrigeradas por líquido en una sola estructura RDMA.

La práctica estaba programada para las 4:20 a.m. hora local en Memphis. En su siguiente tweet, Musk dijo que “la inteligencia artificial más avanzada del mundo” podría desarrollarse en diciembre de este año. Musk también tuiteó sobre su logro en X y felicitó a los equipos de xAI, X y NVIDIA por su excelente trabajo.

xAI cambia de estrategia y cancela contrato de servidor Oracle

El anuncio se produce inmediatamente después de la reciente cancelación de un acuerdo de servidor de 10.000 millones de dólares entre xAI y Oracle. Musk indicó que la xAI Gigafactory of Compute, que inicialmente se esperaba que estuviera operativa para el otoño de 2025, comenzó a operar antes de lo esperado.

xAI había subcontratado previamente sus chips de IA a Oracle, pero decidió desconectarse para desarrollar su propia supercomputadora avanzada. El proyecto ahora planea explotar el potencial de las GPU H100 de última generación que cuestan alrededor de 30.000 dólares cada una. GROK 2 utilizó 20.000 GPU y GROK 3 necesitó cinco veces más GPU para crear un chatbot de IA más sofisticado.

Lea también: Elon Musk busca opinión pública sobre inversión de 5 mil millones de dólares en xAI para Tesla

Esto es bastante sorprendente, especialmente porque NVIDIA anunció recientemente el próximo lanzamiento de las GPU H200, basadas en la arquitectura Hopper. La decisión de comenzar a entrenar con las GPU H100 en lugar de esperar por la H200 o las próximas GPU B100 y B200 basadas en Blackwell. Las GPU H200, que entraron en producción en masa en el segundo trimestre, prometen mejoras significativas en el rendimiento, pero el enfoque inmediato de xAI es aprovechar la infraestructura H100 existente para lograr sus ambiciosos objetivos.

El analista cuestiona el suministro de energía del Supercúmulo de Memphis

Dylan Patel, un experto en inteligencia artificial y semiconductores, inicialmente expresó su preocupación por los problemas de energía relacionados con la gestión del supercúmulo de Memphis. Señaló que el suministro actual de la red de 7 megavatios sólo puede soportar unas 4.000 GPU. Se espera que la Autoridad del Valle de Tennessee (TVA) proporcione 50 MW a la planta en virtud de un acuerdo que se espera se firme el 1 de agosto. Sin embargo, la subestación necesaria para satisfacer toda la demanda de energía no estará terminada hasta finales de 2024.

Al analizar imágenes de satélite, Patel señaló que Musk utilizó 14 generadores móviles VoltaGrid, que pueden producir 2,5 megavatios cada uno. En total, estos generadores producen 35 megavatios de electricidad. Sumados a los 8 MW de la red, esto suma un total de 43 MW, suficiente para alimentar unas 32.000 GPU H100 con un límite de potencia determinado.