L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Berliner Boersenzeitung - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Berlin 3°C

EUR -

AED 4.277193

AFN 76.278264

ALL 96.384702

AMD 444.254789

ANG 2.084488

AOA 1067.831058

ARS 1669.875407

AUD 1.753964

AWG 2.096069

AZN 1.984244

BAM 1.954822

BBD 2.344528

BDT 142.396172

BGN 1.956308

BHD 0.43899

BIF 3455.020152

BMD 1.164483

BND 1.507939

BOB 8.043943

BRL 6.350744

BSD 1.164018

BTN 104.659215

BWP 15.4652

BYN 3.346626

BYR 22823.860795

BZD 2.341119

CAD 1.610404

CDF 2599.125794

CHF 0.936598

CLF 0.027365

CLP 1073.513766

CNY 8.233014

CNH 8.233056

COP 4469.284578

CRC 568.61566

CUC 1.164483

CUP 30.858791

CVE 110.746839

CZK 24.199353

DJF 206.952322

DKK 7.46926

DOP 74.818471

DZD 151.338451

EGP 55.403297

ERN 17.46724

ETB 180.669946

FJD 2.633482

FKP 0.872036

GBP 0.873351

GEL 3.138328

GGP 0.872036

GHS 13.333781

GIP 0.872036

GMD 85.007651

GNF 10116.447882

GTQ 8.916541

GYD 243.537172

HKD 9.064392

HNL 30.603057

HRK 7.536071

HTG 152.3838

HUF 382.208885

IDR 19434.051674

ILS 3.767929

IMP 0.872036

INR 104.754244

IQD 1525.472329

IRR 49039.28188

ISK 148.99601

JEP 0.872036

JMD 186.316831

JOD 0.825664

JPY 180.860511

KES 150.572039

KGS 101.834459

KHR 4663.753596

KMF 491.412105

KPW 1048.026495

KRW 1715.92392

KWD 0.357438

KYD 0.970111

KZT 588.683098

LAK 25257.630031

LBP 104279.425622

LKR 359.050455

LRD 206.001381

LSL 19.738426

LTL 3.438415

LVL 0.704384

LYD 6.346874

MAD 10.755749

MDL 19.806011

MGA 5225.03425

MKD 61.609192

MMK 2445.343302

MNT 4129.840334

MOP 9.334532

MRU 46.416721

MUR 53.687009

MVR 17.937387

MWK 2022.70684

MXN 21.166896

MYR 4.787234

MZN 74.422528

NAD 19.738421

NGN 1688.744886

NIO 42.823896

NOK 11.76959

NPR 167.455263

NZD 2.016541

OMR 0.44774

PAB 1.164113

PEN 4.096072

PGK 4.876276

PHP 68.663144

PKR 326.49188

PLN 4.230857

PYG 8005.996555

QAR 4.23994

RON 5.091938

RSD 117.397367

RUB 89.084898

RWF 1689.664388

SAR 4.370504

SBD 9.584382

SCR 16.274091

SDG 700.440621

SEK 10.950883

SGD 1.508844

SHP 0.873664

SLE 27.60251

SLL 24418.617678

SOS 665.506124

SRD 44.982846

STD 24102.440677

STN 24.91993

SVC 10.184289

SYP 12877.133952

SZL 19.738411

THB 37.112493

TJS 10.680213

TMT 4.087334

TND 3.43668

TOP 2.803795

TRY 49.521868

TTD 7.891054

TWD 36.42677

TZS 2835.515749

UAH 48.861004

UGX 4117.9408

USD 1.164483

UYU 45.527234

UZS 13979.615126

VES 296.421323

VND 30695.763805

VUV 142.148529

WST 3.249082

XAF 655.626335

XAG 0.019932

XAU 0.000277

XCD 3.147073

XCG 2.097942

XDR 0.815161

XOF 655.025699

XPF 119.331742

YER 277.787769

ZAR 19.724129

ZMK 10481.745796

ZMW 26.912427

ZWL 374.962952

AEX

-0.2800

947.5

-0.03%
BEL20

16.5400

5029.74

+0.33%
PX1

-7.3100

8114.74

-0.09%
ISEQ

-5.1000

12741.69

-0.04%
OSEBX

7.1500

1632.45

+0.44%
PSI20

-40.3700

8198.25

-0.49%
ENTEC

-5.8300

1416.23

-0.41%
BIOTK

-87.0000

4263

-2%
N150

13.5900

3685.24

+0.37%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

CULTURE 29.06.2025

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

(G.Gruner--BBZ)

Berliner Boersenzeitung - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

En vedette

Le grand architecte Frank Gehry, maître du déconstructivisme, est mort

Cinq oeuvres majeures de l'architecte Frank Gehry

Frank Gehry, l'une des rares superstars de l'architecture

L'UE inflige une amende de 120 millions d'euros à X, vive réaction américaine