Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA
La garantía "You Only Compute Once" (YOCO) se compromete a resolver el 90 % de los fallos durante el entrenamiento de modelos de IA sin pérdida de progreso; en caso contrario, los clientes recibirán una compensación económica
PALO ALTO (California, EE. UU.) / ACCESS Newswire / 1 de julio de 2026 / Clockwork.io, pionera en Software-Driven AI Fabrics™ y la empresa responsable de TorchPass, su solución de tolerancia a fallos para IA, anunció hoy la Garantía YOCO, el primer compromiso contractual del sector destinado a reducir drásticamente el coste oculto y acumulativo que provocan los fallos durante el entrenamiento de modelos de inteligencia artificial a gran escala. El anuncio marca un punto de inflexión en la forma en que la industria mide la fiabilidad de la infraestructura de IA, alejándose de las métricas tradicionales de disponibilidad ("uptime") diseñadas para una era anterior y centrándose en lo que realmente valoran los equipos de IA: que el entrenamiento finalice a tiempo y sin pérdida de trabajo.
En virtud de la garantía YOCO (You Only Compute Once), Clockwork.io se compromete a que al menos el 90 % de los fallos de entrenamiento en cargas de trabajo TorchPass compatibles se resolverán mediante la migración en caliente de las GPU, sin pérdida del progreso del entrenamiento, sin necesidad de volver al último punto de control ("checkpoint") y sin tener que recomputar el trabajo ya realizado. Si Clockwork.io no cumple este compromiso durante cualquier año de contrato, los clientes recibirán un crédito del 25 % aplicable a la siguiente renovación o ampliación de TorchPass.
"Desarrollamos TorchPass para que los fallos durante el entrenamiento dejaran de ser un problema", afirmó Suresh Vasudevan, director ejecutivo de Clockwork.io. "La garantía YOCO queda reflejada en el propio contrato. Ponemos en juego nuestra propia credibilidad porque sabemos que TorchPass cumple lo que promete, y queremos que nuestros clientes también lo sepan".
El coste oculto del progreso en IA
Todas las organizaciones que entrenan modelos de IA a gran escala se enfrentan al mismo problema: los clústeres de GPU fallan constantemente y cada fallo obliga a reiniciar un costoso ciclo de recuperación. Según una investigación publicada por Meta FAIR en HPCA 2025, un clúster de 1.024 GPU presenta un tiempo medio entre fallos de apenas 7,9 horas, mientras que en un clúster de 16.384 GPU esa cifra se reduce a 1,8 horas. Cada fallo obliga a asignar nuevos nodos, restaurar el entrenamiento desde el último punto de control y volver a calcular todos los pasos realizados desde entonces. Ese trabajo recomputado supone un coste completo de GPU: capacidad de cálculo que ya se había pagado y que debe volver a ejecutarse desde cero. Habitualmente, cada incidente implica la pérdida de tres o más horas de progreso, acumulándose estas pérdidas día tras día.
Como consecuencia, los clústeres actuales de GPU funcionan de forma efectiva entre un 30 % y un 50 % de su rendimiento teórico, no porque el hardware sea lento, sino porque el modelo de fiabilidad sobre el que se construye nunca fue diseñado para cargas de trabajo de esta naturaleza, duración y escala.
"Los equipos de IA necesitan que sus modelos se completen, no simplemente que sus nodos permanezcan activos. Durante años, el sector ha medido la disponibilidad de los nodos y la ha llamado fiabilidad. YOCO nos hace responsables de lo único que realmente importa: que el modelo termine de entrenarse", añadió Vasudevan.
El impacto económico es considerable. En una implementación típica de 2.048 GPU H200, los reinicios provocados por fallos generan más de 6 millones de dólares anuales en capacidad de cálculo desperdiciada, con cientos de miles de horas de GPU perdidas debido a reintentos encadenados, tiempos de recuperación y recomputación del entrenamiento. Para quienes desarrollan IA, la verdadera unidad de valor no es el tiempo de disponibilidad de las GPU, sino el tiempo necesario para obtener un modelo entrenado. Sin embargo, los contratos de infraestructura que adquieren garantizan la disponibilidad de los nodos, no la continuidad de los trabajos de entrenamiento. Para los operadores de IA ocurre algo similar: cuando el entrenamiento de un cliente falla, se reinicia y pierde días de progreso, la percepción es de falta de fiabilidad, independientemente de lo que establezca el acuerdo de nivel de servicio (SLA).
"La recomputación y los reinicios constituyen el impuesto oculto del entrenamiento de IA a gran escala", señaló Vasudevan. "La mayoría de los equipos lo consideran inevitable. No lo es".
La garantía YOCO cambia ese planteamiento contractual.
TorchPass: la fiabilidad redefinida mediante software
La respuesta de Clockwork.io consiste en convertir la fiabilidad en una propiedad definida por software, en lugar de depender de la disponibilidad del hardware, mediante un replanteamiento arquitectónico que desvincula la continuidad del entrenamiento de la tasa de fallos de cualquier componente individual.
TorchPass aborda los fallos desde su origen mediante la migración en caliente de GPU. Cuando se produce una incidencia, la solución transfiere todo el estado almacenado en memoria del entrenamiento -incluidos los pesos del modelo, los gradientes y el estado del optimizador- a un nodo de reserva operativo. El entrenamiento continúa exactamente donde se había detenido y, por lo general, la recuperación se completa en aproximadamente tres minutos, sin restaurar puntos de control, sin recomputar y sin pérdida de progreso.
TorchPass gestiona tres tipos de incidencias: migración no planificada para fallos repentinos y graves, como bloqueos del kernel, cortes de suministro eléctrico o averías de GPU; migración preventiva, activada por señales tempranas como el aumento de errores ECC o determinados umbrales térmicos; y migración planificada para tareas de mantenimiento, actualizaciones de seguridad o firmware. En los tres casos, el entrenamiento continúa sin interrupciones.
Disponibilidad
La garantía YOCO estará disponible para los nuevos clientes de TorchPass y para las renovaciones a partir del 3 de agosto de 2026. Los clientes actuales podrán ponerse en contacto con su equipo comercial de Clockwork.io para incorporar la garantía a sus contratos vigentes. Más información en clockwork.io/yoco.
Clockwork.io estará presente en RAISE Summit, que se celebrará en París (Francia) los días 8 y 9 de julio, en el stand 27A. Además, Suresh Vasudevan, director ejecutivo de Clockwork.io, participará el 8 de julio, a las 10:40 horas (hora local), en la mesa redonda "Infrastructure as Destiny: The Compute-Capital-Cloud Trinity", que tendrá lugar en el escenario principal.
Contacto:
Dana Trismen
[email protected]
650-269-7478
SOURCE: Clockwork
(T.Renner--BBZ)