La IA aprende a mentir, manipular y amenazar a sus creadores

Berliner Boersenzeitung - La IA aprende a mentir, manipular y amenazar a sus creadores

Berlin - 08.07. 2025 - 03:16:48

Berlin 16°C

EUR -

AED 4.312395

AFN 81.599816

ALL 97.521009

AMD 451.037192

ANG 2.101446

AOA 1076.777926

ARS 1481.732606

AUD 1.803585

AWG 2.113631

AZN 1.949333

BAM 1.958543

BBD 2.371221

BDT 143.631157

BGN 1.959489

BHD 0.4427

BIF 3453.438467

BMD 1.17424

BND 1.502104

BOB 8.115366

BRL 6.446217

BSD 1.174445

BTN 100.819198

BWP 15.668677

BYN 3.843383

BYR 23015.094849

BZD 2.359004

CAD 1.604539

CDF 3387.680896

CHF 0.935847

CLF 0.028808

CLP 1105.475771

CNY 8.425052

CNH 8.424857

COP 4734.651222

CRC 593.130685

CUC 1.17424

CUP 31.117348

CVE 110.733844

CZK 24.637895

DJF 208.68582

DKK 7.460613

DOP 70.513586

DZD 152.202452

EGP 58.321778

ERN 17.613593

ETB 159.432402

FJD 2.639984

FKP 0.860313

GBP 0.861457

GEL 3.182487

GGP 0.860313

GHS 12.208472

GIP 0.860313

GMD 83.957729

GNF 10164.216748

GTQ 9.027643

GYD 245.704111

HKD 9.217598

HNL 30.823762

HRK 7.537678

HTG 153.635167

HUF 399.898539

IDR 19176.270968

ILS 3.934537

IMP 0.860313

INR 100.858311

IQD 1538.253788

IRR 49464.840412

ISK 142.59964

JEP 0.860313

JMD 187.442515

JOD 0.83257

JPY 171.335054

KES 152.05814

KGS 102.687161

KHR 4721.61692

KMF 493.753224

KPW 1056.81516

KRW 1610.775023

KWD 0.358472

KYD 0.978654

KZT 610.074415

LAK 25304.861651

LBP 105211.862666

LKR 353.344863

LRD 235.432722

LSL 20.972285

LTL 3.467224

LVL 0.710286

LYD 6.32895

MAD 10.586356

MDL 19.81241

MGA 5201.881765

MKD 61.55066

MMK 2465.364275

MNT 4208.005138

MOP 9.495999

MRU 46.623157

MUR 52.81687

MVR 18.083818

MWK 2039.061899

MXN 21.888054

MYR 4.975837

MZN 75.103972

NAD 20.971667

NGN 1802.586769

NIO 43.153367

NOK 11.86596

NPR 161.310917

NZD 1.952981

OMR 0.451458

PAB 1.174445

PEN 4.186751

PGK 4.886891

PHP 66.43574

PKR 333.777244

PLN 4.248839

PYG 9359.107515

QAR 4.274935

RON 5.061557

RSD 117.133876

RUB 92.408731

RWF 1683.85949

SAR 4.40388

SBD 9.789546

SCR 16.570562

SDG 705.128395

SEK 11.162268

SGD 1.50133

SHP 0.922768

SLE 26.42648

SLL 24623.220193

SOS 671.07786

SRD 43.743362

STD 24304.387555

SVC 10.276392

SYP 15267.376127

SZL 20.972083

THB 38.303106

TJS 11.303631

TMT 4.121581

TND 3.402358

TOP 2.750191

TRY 46.976827

TTD 7.960148

TWD 34.148998

TZS 3100.217807

UAH 49.135314

UGX 4212.900205

USD 1.17424

UYU 47.136014

UZS 14906.971119

VES 130.672017

VND 30700.492593

VUV 139.06333

WST 3.043639

XAF 656.865759

XAG 0.031912

XAU 0.000352

XCD 3.173441

XDR 0.813862

XOF 654.051311

XPF 119.331742

YER 284.342233

ZAR 20.957545

ZMK 10569.566402

ZMW 28.449359

ZWL 378.104651

La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

TECNOLOGíA 29.06.2025

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

(A.Lehmann--BBZ)

Berliner Boersenzeitung - La IA aprende a mentir, manipular y amenazar a sus creadores

La IA aprende a mentir, manipular y amenazar a sus creadores

Destacados

Los machos alfa son raros entre los primates, según estudio

El ETP de Bitcoin de Fineqia obtiene 13,9 millones de dólares

Fineqia emite un ETP de rendimiento de Bitcoin a través de DeFi

Descubren tres nuevas especies de rana en Perú