Berliner Boersenzeitung - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

EUR -
AED 4.322727
AFN 75.331116
ALL 95.78288
AMD 435.50965
ANG 2.106788
AOA 1080.533638
ARS 1633.433715
AUD 1.621742
AWG 2.120166
AZN 2.019903
BAM 1.953306
BBD 2.378942
BDT 144.734616
BGN 1.963443
BHD 0.446352
BIF 3518.71836
BMD 1.177052
BND 1.495355
BOB 8.13558
BRL 5.796518
BSD 1.181155
BTN 111.399314
BWP 15.805177
BYN 3.324941
BYR 23070.22645
BZD 2.375536
CAD 1.603763
CDF 2726.052992
CHF 0.915341
CLF 0.026817
CLP 1055.45124
CNY 8.017198
CNH 8.004886
COP 4386.650543
CRC 538.928988
CUC 1.177052
CUP 31.191888
CVE 110.584386
CZK 24.307485
DJF 210.33159
DKK 7.472823
DOP 70.374367
DZD 155.67707
EGP 62.057028
ERN 17.655786
ETB 184.428617
FJD 2.567271
FKP 0.865689
GBP 0.864151
GEL 3.154276
GGP 0.865689
GHS 13.242187
GIP 0.865689
GMD 86.515046
GNF 10366.793528
GTQ 8.987488
GYD 246.284546
HKD 9.219398
HNL 31.401088
HRK 7.534898
HTG 154.585153
HUF 356.531523
IDR 20387.370983
ILS 3.417569
IMP 0.865689
INR 110.777579
IQD 1541.938605
IRR 1545469.76174
ISK 143.800494
JEP 0.865689
JMD 186.105335
JOD 0.834493
JPY 184.049206
KES 152.016068
KGS 102.898504
KHR 4734.038796
KMF 493.184423
KPW 1059.359971
KRW 1708.444611
KWD 0.362215
KYD 0.981143
KZT 545.211664
LAK 25859.840498
LBP 105379.132476
LKR 376.917225
LRD 216.077381
LSL 19.462535
LTL 3.47553
LVL 0.711987
LYD 7.476275
MAD 10.827117
MDL 20.239077
MGA 4921.396522
MKD 61.684429
MMK 2471.623351
MNT 4214.371577
MOP 9.502529
MRU 47.142009
MUR 54.99241
MVR 18.191306
MWK 2048.110499
MXN 20.26012
MYR 4.601686
MZN 75.225274
NAD 19.462535
NGN 1602.380285
NIO 43.462985
NOK 10.86984
NPR 178.809164
NZD 1.970338
OMR 0.452583
PAB 1.177392
PEN 4.07554
PGK 5.135828
PHP 71.059853
PKR 329.114764
PLN 4.228472
PYG 7228.802098
QAR 4.289172
RON 5.266716
RSD 117.380426
RUB 87.982793
RWF 1727.197774
SAR 4.423625
SBD 9.439291
SCR 16.21817
SDG 706.820017
SEK 10.852129
SGD 1.490166
SHP 0.878788
SLE 29.014623
SLL 24682.195157
SOS 674.98877
SRD 44.03474
STD 24362.607597
STN 24.546972
SVC 10.301805
SYP 130.121144
SZL 19.248651
THB 37.837542
TJS 11.002707
TMT 4.125569
TND 3.381081
TOP 2.83406
TRY 53.257384
TTD 7.97878
TWD 36.950616
TZS 3055.549101
UAH 51.786176
UGX 4427.329246
USD 1.177052
UYU 47.309604
UZS 14212.90688
VES 580.871148
VND 30967.659325
VUV 139.00247
WST 3.191592
XAF 657.211828
XAG 0.01477
XAU 0.000249
XCD 3.181043
XCG 2.121982
XDR 0.817361
XOF 657.211828
XPF 119.331742
YER 280.874131
ZAR 19.179715
ZMK 10594.877244
ZMW 22.35368
ZWL 379.010383
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

(A.Berg--BBZ)