Berliner Boersenzeitung - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.316068
AFN 75.78368
ALL 95.590345
AMD 433.921011
ANG 2.103199
AOA 1078.693153
ARS 1639.785212
AUD 1.624081
AWG 2.115085
AZN 1.998447
BAM 1.953692
BBD 2.367425
BDT 144.224377
BGN 1.960098
BHD 0.443342
BIF 3496.940129
BMD 1.175047
BND 1.48805
BOB 8.122098
BRL 5.804148
BSD 1.175422
BTN 110.788156
BWP 15.737751
BYN 3.321717
BYR 23030.922895
BZD 2.364009
CAD 1.602171
CDF 2720.234209
CHF 0.915114
CLF 0.026583
CLP 1046.250228
CNY 7.992494
CNH 7.994215
COP 4395.921653
CRC 539.208999
CUC 1.175047
CUP 31.138748
CVE 110.718804
CZK 24.309497
DJF 208.829292
DKK 7.472536
DOP 69.974145
DZD 155.20245
EGP 61.946583
ERN 17.625706
ETB 184.837228
FJD 2.569065
FKP 0.864214
GBP 0.865099
GEL 3.14908
GGP 0.864214
GHS 13.242649
GIP 0.864214
GMD 85.778323
GNF 10313.979512
GTQ 8.975086
GYD 245.920458
HKD 9.203498
HNL 31.268177
HRK 7.538985
HTG 153.949298
HUF 356.459886
IDR 20367.502417
ILS 3.409229
IMP 0.864214
INR 110.911284
IQD 1539.311683
IRR 1542719.319578
ISK 143.802053
JEP 0.864214
JMD 185.140228
JOD 0.833171
JPY 184.059961
KES 151.757262
KGS 102.723202
KHR 4714.873056
KMF 492.344575
KPW 1057.555194
KRW 1710.72734
KWD 0.361773
KYD 0.979526
KZT 544.33643
LAK 25792.283247
LBP 105225.46686
LKR 378.490323
LRD 215.562468
LSL 19.235691
LTL 3.469608
LVL 0.710774
LYD 7.437674
MAD 10.742863
MDL 20.222835
MGA 4894.071095
MKD 61.679754
MMK 2467.412574
MNT 4207.19177
MOP 9.480809
MRU 46.925498
MUR 54.88696
MVR 18.1603
MWK 2046.931705
MXN 20.277164
MYR 4.59457
MZN 75.083217
NAD 19.235747
NGN 1598.816408
NIO 43.130063
NOK 10.920412
NPR 177.26371
NZD 1.972799
OMR 0.451806
PAB 1.175412
PEN 4.062727
PGK 5.099342
PHP 71.029227
PKR 327.365667
PLN 4.227866
PYG 7194.237187
QAR 4.280702
RON 5.263274
RSD 117.383642
RUB 87.720656
RWF 1716.15627
SAR 4.436151
SBD 9.438281
SCR 16.52231
SDG 705.619296
SEK 10.86037
SGD 1.48966
SHP 0.877291
SLE 28.907303
SLL 24640.145375
SOS 671.539675
SRD 43.983217
STD 24321.10228
STN 24.999127
SVC 10.284902
SYP 129.899463
SZL 19.235297
THB 37.88334
TJS 10.984361
TMT 4.124415
TND 3.371797
TOP 2.829232
TRY 53.167497
TTD 7.951285
TWD 36.887663
TZS 3052.181577
UAH 51.470562
UGX 4396.218926
USD 1.175047
UYU 46.999286
UZS 14247.445607
VES 583.06901
VND 30915.488845
VUV 138.765659
WST 3.186155
XAF 655.238824
XAG 0.014727
XAU 0.000249
XCD 3.175623
XCG 2.118351
XDR 0.815968
XOF 653.912644
XPF 119.331742
YER 280.367229
ZAR 19.270304
ZMK 10576.837589
ZMW 22.391458
ZWL 378.364682
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

(A.Lehmann--BBZ)