Berliner Boersenzeitung - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.204304
AFN 72.689855
ALL 94.16846
AMD 421.368896
ANG 2.049665
AOA 1050.932648
ARS 1668.297766
AUD 1.632406
AWG 2.063514
AZN 1.9534
BAM 1.955145
BBD 2.306627
BDT 140.692878
BGN 1.935731
BHD 0.431855
BIF 3415.156163
BMD 1.144807
BND 1.481104
BOB 7.91335
BRL 5.891976
BSD 1.145216
BTN 108.362706
BWP 15.542794
BYN 3.204327
BYR 22438.208777
BZD 2.303329
CAD 1.619947
CDF 2610.15881
CHF 0.924437
CLF 0.026317
CLP 1035.752058
CNY 7.749882
CNH 7.756614
COP 3917.413603
CRC 519.525995
CUC 1.144807
CUP 30.337374
CVE 110.228081
CZK 24.204473
DJF 203.941694
DKK 7.474625
DOP 66.947577
DZD 152.776735
EGP 56.975075
ERN 17.172099
ETB 184.638959
FJD 2.573239
FKP 0.865124
GBP 0.863156
GEL 3.033258
GGP 0.865124
GHS 12.855694
GIP 0.865124
GMD 84.135795
GNF 10034.639101
GTQ 8.733075
GYD 239.579758
HKD 8.975404
HNL 30.637739
HRK 7.536604
HTG 149.599895
HUF 352.422404
IDR 20406.119875
ILS 3.401621
IMP 0.865124
INR 108.227713
IQD 1500.297506
IRR 1574109.03434
ISK 144.005294
JEP 0.865124
JMD 180.959391
JOD 0.811689
JPY 184.543976
KES 148.172003
KGS 100.113789
KHR 4598.459839
KMF 491.693168
KPW 1030.326314
KRW 1759.092615
KWD 0.353265
KYD 0.95438
KZT 558.193045
LAK 25292.528781
LBP 102557.450463
LKR 382.941741
LRD 208.440187
LSL 18.817098
LTL 3.380316
LVL 0.692482
LYD 7.342541
MAD 10.676324
MDL 20.139255
MGA 4830.382162
MKD 61.648854
MMK 2403.999893
MNT 4097.52793
MOP 9.247703
MRU 45.792663
MUR 54.733337
MVR 17.687075
MWK 1985.834885
MXN 19.821065
MYR 4.750605
MZN 73.164535
NAD 18.817098
NGN 1565.053077
NIO 42.145884
NOK 11.07799
NPR 173.37993
NZD 1.996371
OMR 0.440203
PAB 1.145216
PEN 3.875202
PGK 5.102291
PHP 69.895015
PKR 318.523717
PLN 4.275279
PYG 6981.661634
QAR 4.175002
RON 5.238518
RSD 117.352956
RUB 84.541347
RWF 1677.33821
SAR 4.297365
SBD 9.228771
SCR 15.65455
SDG 687.453458
SEK 10.991002
SGD 1.479674
SHP 0.854714
SLE 28.33415
SLL 24006.02557
SOS 654.480795
SRD 42.850679
STD 23695.184649
STN 24.491797
SVC 10.020644
SYP 126.537872
SZL 18.812699
THB 37.67158
TJS 10.622242
TMT 4.006823
TND 3.386266
TOP 2.75642
TRY 53.190289
TTD 7.766399
TWD 36.200496
TZS 3008.817265
UAH 51.506949
UGX 4180.599793
USD 1.144807
UYU 45.794662
UZS 13725.402955
VES 694.477055
VND 30131.30893
VUV 135.490495
WST 3.150274
XAF 655.737374
XAG 0.017333
XAU 0.000273
XCD 3.093897
XCG 2.064009
XDR 0.814748
XOF 655.737374
XPF 119.331742
YER 273.152139
ZAR 18.756682
ZMK 10304.633604
ZMW 20.299201
ZWL 368.627249
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

(A.Lehmann--BBZ)