Berliner Boersenzeitung - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.256956
AFN 73.025715
ALL 95.949476
AMD 436.297619
ANG 2.074964
AOA 1062.93451
ARS 1612.94327
AUD 1.652435
AWG 2.089356
AZN 1.967595
BAM 1.955789
BBD 2.330587
BDT 141.989225
BGN 1.981335
BHD 0.437098
BIF 3425.18131
BMD 1.159144
BND 1.479892
BOB 7.995956
BRL 6.158991
BSD 1.157194
BTN 108.18041
BWP 15.778914
BYN 3.510781
BYR 22719.216032
BZD 2.327287
CAD 1.590438
CDF 2637.051746
CHF 0.913915
CLF 0.027244
CLP 1075.743011
CNY 7.982325
CNH 8.005156
COP 4253.376791
CRC 540.497051
CUC 1.159144
CUP 30.717307
CVE 110.264398
CZK 24.533102
DJF 206.058876
DKK 7.485174
DOP 68.689625
DZD 153.294405
EGP 59.995673
ERN 17.387155
ETB 182.369105
FJD 2.566866
FKP 0.868886
GBP 0.868988
GEL 3.147122
GGP 0.868886
GHS 12.613931
GIP 0.868886
GMD 85.195634
GNF 10142.944655
GTQ 8.863952
GYD 242.098679
HKD 9.082181
HNL 30.628833
HRK 7.547526
HTG 151.809172
HUF 393.825438
IDR 19654.671984
ILS 3.603923
IMP 0.868886
INR 108.971735
IQD 1515.891728
IRR 1524998.397107
ISK 144.047075
JEP 0.868886
JMD 181.799008
JOD 0.821884
JPY 184.582318
KES 149.909182
KGS 101.364683
KHR 4623.974769
KMF 494.9542
KPW 1043.263627
KRW 1744.871088
KWD 0.355359
KYD 0.964295
KZT 556.326964
LAK 24848.864411
LBP 103633.234522
LKR 360.97803
LRD 211.758845
LSL 19.520593
LTL 3.42265
LVL 0.701154
LYD 7.40796
MAD 10.813041
MDL 20.15189
MGA 4824.973672
MKD 61.639664
MMK 2432.829233
MNT 4136.032637
MOP 9.340449
MRU 46.320747
MUR 53.912042
MVR 17.920267
MWK 2006.589051
MXN 20.785187
MYR 4.565818
MZN 74.068653
NAD 19.520593
NGN 1572.088888
NIO 42.579768
NOK 11.082828
NPR 173.089056
NZD 1.98507
OMR 0.445687
PAB 1.157194
PEN 4.000678
PGK 4.994973
PHP 69.722594
PKR 323.078037
PLN 4.286287
PYG 7557.95876
QAR 4.231477
RON 5.101971
RSD 117.449359
RUB 96.003076
RWF 1683.690813
SAR 4.352186
SBD 9.333031
SCR 15.877613
SDG 696.645486
SEK 10.817726
SGD 1.4866
SHP 0.869658
SLE 28.485998
SLL 24306.675843
SOS 661.296392
SRD 43.453394
STD 23991.933773
STN 24.499866
SVC 10.124945
SYP 128.330276
SZL 19.526893
THB 38.14515
TJS 11.114439
TMT 4.068594
TND 3.417581
TOP 2.790939
TRY 51.295008
TTD 7.850957
TWD 37.135139
TZS 3008.583584
UAH 50.692923
UGX 4373.976133
USD 1.159144
UYU 46.629746
UZS 14107.92302
VES 527.051768
VND 30499.388379
VUV 137.76417
WST 3.161925
XAF 655.953421
XAG 0.017051
XAU 0.000258
XCD 3.132643
XCG 2.085489
XDR 0.815796
XOF 655.953421
XPF 119.331742
YER 276.574852
ZAR 19.764849
ZMK 10433.68695
ZMW 22.593877
ZWL 373.24379
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

(A.Lehmann--BBZ)