Berliner Boersenzeitung - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.224876
AFN 72.462986
ALL 96.160604
AMD 434.099231
ANG 2.058963
AOA 1054.738043
ARS 1606.038123
AUD 1.628909
AWG 2.073245
AZN 1.957787
BAM 1.959215
BBD 2.316138
BDT 141.107219
BGN 1.966056
BHD 0.434221
BIF 3416.109293
BMD 1.150205
BND 1.471035
BOB 7.974972
BRL 6.040894
BSD 1.150005
BTN 106.071837
BWP 15.680472
BYN 3.425836
BYR 22544.020924
BZD 2.312943
CAD 1.573084
CDF 2605.214492
CHF 0.906057
CLF 0.026511
CLP 1046.813004
CNY 8.001115
CNH 7.92826
COP 4260.842959
CRC 540.146332
CUC 1.150205
CUP 30.480436
CVE 111.13859
CZK 24.454509
DJF 204.414853
DKK 7.471767
DOP 70.564391
DZD 152.131445
EGP 60.230841
ERN 17.253077
ETB 181.013531
FJD 2.547595
FKP 0.868334
GBP 0.863925
GEL 3.128823
GGP 0.868334
GHS 12.519984
GIP 0.868334
GMD 84.515954
GNF 10093.05076
GTQ 8.814443
GYD 240.721742
HKD 9.006578
HNL 30.561304
HRK 7.539937
HTG 150.724067
HUF 391.404502
IDR 19517.831177
ILS 3.591441
IMP 0.868334
INR 106.132132
IQD 1506.768745
IRR 1519478.512409
ISK 143.211796
JEP 0.868334
JMD 180.895354
JOD 0.815474
JPY 183.113233
KES 148.840282
KGS 100.58578
KHR 4622.10278
KMF 493.437605
KPW 1035.184626
KRW 1714.570528
KWD 0.353216
KYD 0.958279
KZT 555.322921
LAK 24700.655091
LBP 103000.87101
LKR 358.097383
LRD 210.775166
LSL 19.277199
LTL 3.396257
LVL 0.695748
LYD 7.3728
MAD 10.806191
MDL 20.009056
MGA 4779.102216
MKD 61.709926
MMK 2415.019418
MNT 4107.710362
MOP 9.274449
MRU 46.140499
MUR 53.806333
MVR 17.782217
MWK 1997.906655
MXN 20.371795
MYR 4.520887
MZN 73.509782
NAD 19.277204
NGN 1571.67499
NIO 42.235365
NOK 11.132226
NPR 169.721992
NZD 1.964872
OMR 0.442264
PAB 1.150015
PEN 3.943482
PGK 4.948754
PHP 68.636185
PKR 321.223553
PLN 4.272265
PYG 7464.01199
QAR 4.190485
RON 5.09484
RSD 117.426723
RUB 93.449256
RWF 1678.149313
SAR 4.316316
SBD 9.261061
SCR 16.378688
SDG 691.272965
SEK 10.749024
SGD 1.470163
SHP 0.862952
SLE 28.293004
SLL 24119.239327
SOS 657.347107
SRD 43.214935
STD 23806.924333
STN 24.844431
SVC 10.06263
SYP 127.126407
SZL 19.277227
THB 37.243559
TJS 11.039641
TMT 4.031469
TND 3.35973
TOP 2.769417
TRY 50.804333
TTD 7.798663
TWD 36.812088
TZS 2996.284814
UAH 50.697321
UGX 4341.606456
USD 1.150205
UYU 46.751909
UZS 13923.233407
VES 513.274734
VND 30238.893372
VUV 137.524572
WST 3.146058
XAF 657.108248
XAG 0.014306
XAU 0.00023
XCD 3.108487
XCG 2.072531
XDR 0.819555
XOF 661.945035
XPF 119.331742
YER 274.323586
ZAR 19.240229
ZMK 10353.228016
ZMW 22.395236
ZWL 370.365589
  • AEX

    6.1100

    1007.8

    +0.61%

  • BEL20

    19.4200

    5128.99

    +0.38%

  • PX1

    24.5300

    7935.97

    +0.31%

  • ISEQ

    -60.7300

    12332.85

    -0.49%

  • OSEBX

    20.6300

    1966.63

    +1.06%

  • PSI20

    -13.7200

    9129.84

    -0.15%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    50.3600

    3780.46

    +1.35%

  • N150

    10.3900

    3858.76

    +0.27%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

(G.Gruner--BBZ)