Berliner Boersenzeitung - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.312395
AFN 81.599816
ALL 97.521009
AMD 451.037192
ANG 2.101446
AOA 1076.777926
ARS 1481.732606
AUD 1.803585
AWG 2.113631
AZN 1.949333
BAM 1.958543
BBD 2.371221
BDT 143.631157
BGN 1.959489
BHD 0.4427
BIF 3453.438467
BMD 1.17424
BND 1.502104
BOB 8.115366
BRL 6.446217
BSD 1.174445
BTN 100.819198
BWP 15.668677
BYN 3.843383
BYR 23015.094849
BZD 2.359004
CAD 1.604539
CDF 3387.680896
CHF 0.935847
CLF 0.028808
CLP 1105.475771
CNY 8.425052
CNH 8.424857
COP 4734.651222
CRC 593.130685
CUC 1.17424
CUP 31.117348
CVE 110.733844
CZK 24.637895
DJF 208.68582
DKK 7.460613
DOP 70.513586
DZD 152.202452
EGP 58.321778
ERN 17.613593
ETB 159.432402
FJD 2.639984
FKP 0.860313
GBP 0.861457
GEL 3.182487
GGP 0.860313
GHS 12.208472
GIP 0.860313
GMD 83.957729
GNF 10164.216748
GTQ 9.027643
GYD 245.704111
HKD 9.217598
HNL 30.823762
HRK 7.537678
HTG 153.635167
HUF 399.898539
IDR 19176.270968
ILS 3.934537
IMP 0.860313
INR 100.858311
IQD 1538.253788
IRR 49464.840412
ISK 142.59964
JEP 0.860313
JMD 187.442515
JOD 0.83257
JPY 171.335054
KES 152.05814
KGS 102.687161
KHR 4721.61692
KMF 493.753224
KPW 1056.81516
KRW 1610.775023
KWD 0.358472
KYD 0.978654
KZT 610.074415
LAK 25304.861651
LBP 105211.862666
LKR 353.344863
LRD 235.432722
LSL 20.972285
LTL 3.467224
LVL 0.710286
LYD 6.32895
MAD 10.586356
MDL 19.81241
MGA 5201.881765
MKD 61.55066
MMK 2465.364275
MNT 4208.005138
MOP 9.495999
MRU 46.623157
MUR 52.81687
MVR 18.083818
MWK 2039.061899
MXN 21.888054
MYR 4.975837
MZN 75.103972
NAD 20.971667
NGN 1802.586769
NIO 43.153367
NOK 11.86596
NPR 161.310917
NZD 1.952981
OMR 0.451458
PAB 1.174445
PEN 4.186751
PGK 4.886891
PHP 66.43574
PKR 333.777244
PLN 4.248839
PYG 9359.107515
QAR 4.274935
RON 5.061557
RSD 117.133876
RUB 92.408731
RWF 1683.85949
SAR 4.40388
SBD 9.789546
SCR 16.570562
SDG 705.128395
SEK 11.162268
SGD 1.50133
SHP 0.922768
SLE 26.42648
SLL 24623.220193
SOS 671.07786
SRD 43.743362
STD 24304.387555
SVC 10.276392
SYP 15267.376127
SZL 20.972083
THB 38.303106
TJS 11.303631
TMT 4.121581
TND 3.402358
TOP 2.750191
TRY 46.976827
TTD 7.960148
TWD 34.148998
TZS 3100.217807
UAH 49.135314
UGX 4212.900205
USD 1.17424
UYU 47.136014
UZS 14906.971119
VES 130.672017
VND 30700.492593
VUV 139.06333
WST 3.043639
XAF 656.865759
XAG 0.031912
XAU 0.000352
XCD 3.173441
XDR 0.813862
XOF 654.051311
XPF 119.331742
YER 284.342233
ZAR 20.957545
ZMK 10569.566402
ZMW 28.449359
ZWL 378.104651
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

(A.Lehmann--BBZ)