A medida que los modelos de inteligencia artificial (IA) continúan expandiéndose rápidamente, los expertos de la industria sugieren que el futuro de la IA podría depender de un nuevo tipo de supercomputadora que conecte múltiples centros de datos a través de grandes distancias.
Con la creciente demanda de potencia computacional, los analistas predicen que los centros de datos tradicionales pueden no ser suficientes. "La distribución es inevitable", afirmó Sameh Boujelbene, analista de Dell'Oro.
Empresas como Nvidia están explorando formas de integrar centros de datos remotos en una supercomputadora virtual cohesiva. Este enfoque podría abordar las limitaciones de energía y mejorar la eficiencia del entrenamiento de IA.
Las tecnologías actuales, como InfiniBand de Nvidia y la multiplexión por división de longitud de onda densa, permiten la transferencia de datos a distancias de hasta 40 kilómetros. Sin embargo, se están realizando investigaciones para extender significativamente estas capacidades, facilitando potencialmente conexiones a miles de kilómetros.
A pesar de los avances, persisten desafíos como la latencia y el ancho de banda. Las cargas de trabajo de IA requieren un alto ancho de banda y baja latencia, y hasta el 30% del tiempo de entrenamiento a menudo se pasa esperando transferencias de datos. Nuevas tecnologías, incluida la fibra de núcleo hueco, buscan reducir la latencia al minimizar la necesidad de repetidores.
Los expertos enfatizan que la optimización del software puede mitigar algunos de estos desafíos, permitiendo un manejo de datos más eficiente a través de redes distribuidas. Sin embargo, lograr una arquitectura de computación uniforme entre los centros de datos es crucial para evitar cuellos de botella en el rendimiento.
A medida que los modelos de IA se vuelven cada vez más complejos, la industria podría necesitar adoptar el entrenamiento en múltiples centros de datos para mantenerse al día. Si bien las limitaciones de energía actualmente restringen el número de GPU en un solo centro de datos, la necesidad de cargas de trabajo distribuidas podría volverse esencial pronto.