Berliner Boersenzeitung - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

EUR -
AED 4.212777
AFN 72.835586
ALL 94.512843
AMD 422.248264
ANG 2.053494
AOA 1052.895931
ARS 1680.790338
AUD 1.635257
AWG 2.067368
AZN 1.95436
BAM 1.956354
BBD 2.309354
BDT 140.73988
BGN 1.939347
BHD 0.432422
BIF 3423.630825
BMD 1.146945
BND 1.480319
BOB 7.92328
BRL 5.90941
BSD 1.146625
BTN 108.087801
BWP 15.582008
BYN 3.185903
BYR 22480.122
BZD 2.305963
CAD 1.623185
CDF 2615.035015
CHF 0.925648
CLF 0.026299
CLP 1035.072439
CNY 7.764364
CNH 7.780559
COP 3960.034063
CRC 520.14739
CUC 1.146945
CUP 30.394043
CVE 110.569964
CZK 24.190336
DJF 203.835517
DKK 7.474072
DOP 66.986043
DZD 152.939427
EGP 57.331754
ERN 17.204175
ETB 181.647461
FJD 2.564
FKP 0.866759
GBP 0.866531
GEL 3.039852
GGP 0.866759
GHS 12.874504
GIP 0.866759
GMD 84.304874
GNF 10064.442782
GTQ 8.746478
GYD 239.84901
HKD 8.988436
HNL 30.606273
HRK 7.533248
HTG 149.77244
HUF 351.906109
IDR 20445.785654
ILS 3.394682
IMP 0.866759
INR 108.1919
IQD 1502.49795
IRR 1577049.375404
ISK 143.976448
JEP 0.866759
JMD 181.171337
JOD 0.813229
JPY 185.008009
KES 148.419043
KGS 100.300781
KHR 4599.249852
KMF 492.617229
KPW 1032.250901
KRW 1752.130969
KWD 0.353179
KYD 0.955446
KZT 559.543917
LAK 25295.872375
LBP 102708.92515
LKR 382.668433
LRD 208.916469
LSL 18.815678
LTL 3.386631
LVL 0.693776
LYD 7.311819
MAD 10.580612
MDL 20.248208
MGA 4817.169398
MKD 61.628611
MMK 2407.987936
MNT 4106.547494
MOP 9.256923
MRU 45.947051
MUR 54.881752
MVR 17.720734
MWK 1992.243861
MXN 19.872546
MYR 4.745948
MZN 73.301688
NAD 18.814173
NGN 1560.350288
NIO 41.990088
NOK 11.102658
NPR 172.945006
NZD 1.997675
OMR 0.441554
PAB 1.14663
PEN 3.881306
PGK 5.032508
PHP 69.638491
PKR 319.223511
PLN 4.259467
PYG 7041.056554
QAR 4.175458
RON 5.239364
RSD 117.183799
RUB 83.845404
RWF 1679.12748
SAR 4.299026
SBD 9.24601
SCR 15.693948
SDG 688.744688
SEK 10.986379
SGD 1.482316
SHP 0.85631
SLE 28.387314
SLL 24050.86738
SOS 655.483268
SRD 42.898615
STD 23739.445827
STN 24.544623
SVC 10.032843
SYP 126.774237
SZL 18.814083
THB 37.723444
TJS 10.63456
TMT 4.014308
TND 3.339618
TOP 2.761569
TRY 53.26206
TTD 7.775237
TWD 36.375404
TZS 3017.595134
UAH 51.508996
UGX 4173.182519
USD 1.146945
UYU 45.84299
UZS 13769.075108
VES 695.774297
VND 30176.12295
VUV 135.491976
WST 3.156157
XAF 656.142926
XAG 0.017685
XAU 0.000276
XCD 3.099677
XCG 2.066386
XDR 0.807102
XOF 648.024305
XPF 119.331742
YER 273.665193
ZAR 18.876464
ZMK 10323.847966
ZMW 20.552914
ZWL 369.315822
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

(A.Berg--BBZ)