Berliner Boersenzeitung - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

EUR -
AED 4.258946
AFN 73.644244
ALL 95.798613
AMD 437.043724
ANG 2.075528
AOA 1063.432933
ARS 1622.920043
AUD 1.620274
AWG 2.087436
AZN 1.975819
BAM 1.950622
BBD 2.337955
BDT 142.182605
BGN 1.910753
BHD 0.437819
BIF 3445.358972
BMD 1.159687
BND 1.476226
BOB 8.020814
BRL 6.028514
BSD 1.160854
BTN 106.577032
BWP 15.512227
BYN 3.409309
BYR 22729.862161
BZD 2.334564
CAD 1.573139
CDF 2522.318599
CHF 0.903286
CLF 0.026191
CLP 1033.814027
CNY 7.975134
CNH 7.971537
COP 4303.71385
CRC 548.159202
CUC 1.159687
CUP 30.731701
CVE 109.974044
CZK 24.386588
DJF 206.706686
DKK 7.473567
DOP 69.686833
DZD 152.476734
EGP 60.270435
ERN 17.395303
ETB 180.058429
FJD 2.547719
FKP 0.861723
GBP 0.863555
GEL 3.154192
GGP 0.861723
GHS 12.524917
GIP 0.861723
GMD 84.657029
GNF 10176.296199
GTQ 8.900452
GYD 242.858522
HKD 9.076522
HNL 30.724243
HRK 7.533097
HTG 152.210581
HUF 387.760437
IDR 19594.068932
ILS 3.605762
IMP 0.861723
INR 106.706788
IQD 1520.676783
IRR 1532758.102435
ISK 145.030416
JEP 0.861723
JMD 182.141255
JOD 0.822219
JPY 183.83584
KES 149.889079
KGS 101.414382
KHR 4658.774825
KMF 490.547711
KPW 1043.757932
KRW 1710.967761
KWD 0.355699
KYD 0.967341
KZT 565.653464
LAK 24866.319001
LBP 103950.02288
LKR 360.826925
LRD 212.419838
LSL 18.893894
LTL 3.424254
LVL 0.701483
LYD 7.410554
MAD 10.824608
MDL 19.977576
MGA 4815.34321
MKD 61.590751
MMK 2434.688632
MNT 4152.733598
MOP 9.353912
MRU 46.07689
MUR 53.240931
MVR 17.928903
MWK 2012.809472
MXN 20.442351
MYR 4.54191
MZN 74.160483
NAD 18.893813
NGN 1621.636342
NIO 42.717903
NOK 11.173391
NPR 170.525785
NZD 1.957818
OMR 0.44588
PAB 1.160834
PEN 4.049551
PGK 5.003848
PHP 68.772327
PKR 324.328623
PLN 4.259037
PYG 7558.133978
QAR 4.233001
RON 5.093927
RSD 117.403854
RUB 92.360375
RWF 1697.039452
SAR 4.35133
SBD 9.337405
SCR 15.958452
SDG 696.971804
SEK 10.670186
SGD 1.476734
SHP 0.870065
SLE 28.533318
SLL 24318.052542
SOS 662.259298
SRD 43.533452
STD 24003.176292
STN 24.435877
SVC 10.157128
SYP 129.016644
SZL 18.899324
THB 36.79334
TJS 11.108706
TMT 4.070501
TND 3.394818
TOP 2.792248
TRY 51.134117
TTD 7.876196
TWD 36.851018
TZS 3009.387547
UAH 50.933226
UGX 4300.640443
USD 1.159687
UYU 46.816542
UZS 14109.609718
VES 505.27161
VND 30441.77968
VUV 138.490957
WST 3.16681
XAF 654.237383
XAG 0.013442
XAU 0.000224
XCD 3.134112
XCG 2.091965
XDR 0.813661
XOF 654.240197
XPF 119.331742
YER 276.70102
ZAR 18.991954
ZMK 10438.571552
ZMW 22.519808
ZWL 373.418691
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

(A.Berg--BBZ)