Berliner Boersenzeitung - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.406854
AFN 77.997427
ALL 96.699641
AMD 450.935247
ANG 2.148026
AOA 1100.364447
ARS 1731.258254
AUD 1.715566
AWG 2.16143
AZN 2.040377
BAM 1.956813
BBD 2.397031
BDT 145.435266
BGN 2.015179
BHD 0.452423
BIF 3525.339121
BMD 1.199961
BND 1.507267
BOB 8.224291
BRL 6.221792
BSD 1.190111
BTN 109.163949
BWP 15.664172
BYN 3.391241
BYR 23519.235665
BZD 2.393629
CAD 1.632127
CDF 2687.912943
CHF 0.918474
CLF 0.026143
CLP 1032.266701
CNY 8.345309
CNH 8.326643
COP 4385.509478
CRC 591.303547
CUC 1.199961
CUP 31.798967
CVE 110.322554
CZK 24.225953
DJF 211.938799
DKK 7.467231
DOP 74.878439
DZD 155.038608
EGP 56.394324
ERN 17.999415
ETB 185.043993
FJD 2.63907
FKP 0.876141
GBP 0.869144
GEL 3.233859
GGP 0.876141
GHS 13.008787
GIP 0.876141
GMD 87.596885
GNF 10439.185447
GTQ 9.131764
GYD 248.9999
HKD 9.361514
HNL 31.408123
HRK 7.534435
HTG 156.082076
HUF 380.146451
IDR 20078.947469
ILS 3.727619
IMP 0.876141
INR 109.800572
IQD 1559.100369
IRR 50548.357454
ISK 145.195014
JEP 0.876141
JMD 186.987549
JOD 0.850807
JPY 183.338432
KES 155.071125
KGS 104.935387
KHR 4785.516479
KMF 494.383729
KPW 1079.988196
KRW 1714.972818
KWD 0.367368
KYD 0.991809
KZT 599.5878
LAK 25644.164503
LBP 106577.812016
LKR 368.51918
LRD 220.173944
LSL 19.084518
LTL 3.543173
LVL 0.725844
LYD 7.511856
MAD 10.808239
MDL 20.066217
MGA 5342.787259
MKD 61.638134
MMK 2519.977352
MNT 4278.022293
MOP 9.563409
MRU 47.546408
MUR 54.622161
MVR 18.551811
MWK 2081.932642
MXN 20.632973
MYR 4.705649
MZN 76.50917
NAD 19.084597
NGN 1680.73764
NIO 43.79595
NOK 11.523802
NPR 174.660663
NZD 1.995169
OMR 0.461379
PAB 1.190121
PEN 3.989031
PGK 5.092017
PHP 70.614698
PKR 333.214634
PLN 4.199191
PYG 7977.095064
QAR 4.326657
RON 5.097189
RSD 117.420962
RUB 91.500508
RWF 1736.405859
SAR 4.49976
SBD 9.692896
SCR 16.807959
SDG 721.789858
SEK 10.570306
SGD 1.513211
SHP 0.900282
SLE 29.158078
SLL 25162.58138
SOS 678.954201
SRD 45.954894
STD 24836.770057
STN 24.514525
SVC 10.413346
SYP 13271.058587
SZL 19.078953
THB 37.156187
TJS 11.116053
TMT 4.199864
TND 3.43179
TOP 2.889218
TRY 52.092826
TTD 8.093155
TWD 37.526984
TZS 3064.969164
UAH 51.087652
UGX 4249.216759
USD 1.199961
UYU 44.59345
UZS 14399.391968
VES 430.157401
VND 31314.182343
VUV 143.692105
WST 3.275045
XAF 656.299382
XAG 0.010437
XAU 0.000229
XCD 3.242954
XCG 2.144901
XDR 0.816226
XOF 656.29391
XPF 119.331742
YER 286.068876
ZAR 19.072361
ZMK 10801.091361
ZMW 23.499063
ZWL 386.386953
  • AEX

    2.9000

    1001.68

    +0.29%

  • BEL20

    63.9900

    5396.81

    +1.2%

  • PX1

    21.9500

    8152.82

    +0.27%

  • ISEQ

    77.5700

    13006.09

    +0.6%

  • OSEBX

    6.0800

    1742.8

    +0.35%

  • PSI20

    77.1900

    8654.25

    +0.9%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    147.5100

    4211.2

    +3.63%

  • N150

    9.7600

    3912.09

    +0.25%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

(G.Gruner--BBZ)