Meta detalla cómo quiere interconectar su clúster Prometheus: miles de GPU y una red a escala gigavatio

Meta ha publicado detalles técnicos sobre el papel de su agregación backend (BAG) para construir clústeres de IA a escala gigavatio, como Prometheus. Importa porque describe la infraestructura de red con la que la empresa pretende conectar miles —y en Prometheus, decenas de miles— de GPU repartidas en varios centros de datos, algo que condiciona qué IA se puede entrenar y quién puede hacerlo. El dilema editorial es claro: más capacidad y fiabilidad para experiencias de IA en sus productos, a cambio de consolidar más poder computacional y aumentar la dependencia de una arquitectura corporativa difícil de auditar desde fuera. Más que el anuncio, lo relevante es el despliegue. ¿Qué controles y métricas deberían acompañar a una infraestructura pensada para operar a 1 gigavatio y a escala de petabits por segundo entre regiones?

Qué se anunció y cuál es el alcance real

El anuncio es un desglose de cómo BAG (Backend Aggregation) actúa como una capa de red super spine basada en Ethernet para interconectar varias fabrics (tejidos de red) de distintos centros de datos y regiones dentro de clústeres grandes. En el caso de Prometheus, Meta afirma que, cuando esté completo, entregará 1 gigavatio de capacidad y conectará decenas de miles de GPU a través de varios edificios de centros de datos en una misma región más grande. También se menciona capacidad inter-BAG en rango de petabits por segundo (ej., 16–48 Pbps por par de regiones). No se especifica calendario de finalización, ubicación de regiones, consumo energético efectivo, mix energético, ni qué parte de esa capacidad es IT frente a infraestructura auxiliar.

Para qué sirve en la práctica

Según el texto, BAG sirve para unir centros de datos y regiones y compartir cómputo y otros recursos en clústeres grandes, con redes de alta capacidad y resiliencia. Ejemplo 1: interconectar capas BAG distribuidas regionalmente usando topologías planar (uno a uno) o spread (distribuida) en función del tamaño del sitio y la disponibilidad de fibra. Ejemplo 2: conectar BAG a redes L2 construidas con dos tecnologías de fabric: Disaggregated Schedule Fabric (DSF) y Non-Scheduled Fabric (NSF), con un backend edge pod por edificio en el caso DSF. Ejemplo 3: gestionar la sobresuscripción: se indica una típica de 4,5:1 de L2 a BAG y una efectiva de 4,98:1 en un ejemplo NSF; el texto no detalla el impacto en cargas concretas.

Qué riesgos abre si se despliega mal

El propio diseño sugiere puntos de riesgo: Meta reconoce que la topología planar concentra potenciales dominios de fallo, y que la elección de topología depende de fibra disponible y tamaño del sitio. También dedica un apartado a modos de fallo (BAG, sala de datos y distribución eléctrica) y a mitigar blackholing (pérdida de tráfico) drenando planos y agregando rutas condicionalmente, lo que apunta a la complejidad operativa. A nivel de seguridad, se menciona MACsec en conexiones BAG-to-BAG, pero no se especifican políticas de auditoría, incidentes, ni cobertura exacta. Y hay un riesgo sistémico que el texto no evalúa: concentrar capacidad a escala de 1 gigavatio podría reforzar la concentración del poder computacional y elevar el coste social y medioambiental si no hay métricas públicas de energía y continuidad.

Qué condiciones mínimas deberían exigirse

Si una infraestructura aspira a operar a escala gigavatio y a interconectar decenas de miles de GPU, las condiciones mínimas deberían incluir gobernanza verificable y métricas comparables, no solo descripciones técnicas. Primero, auditoría independiente: el texto describe eBGP con UCMP, MACsec y análisis de dominios de fallo, pero no aporta resultados, objetivos de disponibilidad ni evidencias externas; deberían exigirse informes periódicos de resiliencia, incidencias y eficacia de mitigaciones como el drenado de planos. Segundo, métricas energéticas y de impacto: se habla de 1-gigawatt of capacity, pero no consta cómo se mide; deberían publicarse consumo total, reparto por IT/red/refrigeración y evolución temporal. Tercero, control local y continuidad: al abarcar múltiples data centers y regiones, deberían definirse responsabilidades operativas, criterios de desconexión segura y condiciones de soberanía tecnológica cuando el cómputo se comparte entre regiones.

Conclusión

La propuesta de Meta será una mejora real si se acompaña de métricas públicas y auditables sobre disponibilidad y fallos, y si la capacidad a 1 gigavatio se traduce en transparencia energética medible, no solo en ingeniería de red. Será un riesgo si se despliega como una caja negra: una infraestructura crítica con enorme concentración de cómputo y complejidad operativa, sin controles externos ni criterios claros para evaluar su impacto y su gobernanza.

Fuente: Fuente no indicada — https://engineering.fb.com/2026/02/09/data-center-engineering/building-prometheus-how-backend-aggregation-enables-gigawatt-scale-ai-clusters/

Nota editorial: Contenido generado y estructurado con apoyo de un editor de IA de PorqueIA.com.

Este contenido ha sido generado de manera automática a partir de información disponible públicamente en distintas fuentes de internet. porqueia.com no garantiza la exactitud o veracidad total de los datos presentados y no se hace responsable por errores, omisiones o interpretaciones derivadas de este contenido. Se recomienda contrastar la información con medios oficiales o especializados. La fuente original siempre será citada dentro del artículo