Berliner Boersenzeitung - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.303228
AFN 81.923031
ALL 97.909719
AMD 450.171953
ANG 2.096976
AOA 1074.487442
ARS 1469.906879
AUD 1.794206
AWG 2.109136
AZN 1.999097
BAM 1.952812
BBD 2.36751
BDT 142.865081
BGN 1.956194
BHD 0.441689
BIF 3493.476377
BMD 1.171742
BND 1.499089
BOB 8.09162
BRL 6.38623
BSD 1.172657
BTN 100.430197
BWP 15.654757
BYN 3.837305
BYR 22966.148894
BZD 2.355312
CAD 1.60343
CDF 3381.648779
CHF 0.932675
CLF 0.028783
CLP 1104.543443
CNY 8.406137
CNH 8.419173
COP 4747.466217
CRC 592.777215
CUC 1.171742
CUP 31.051171
CVE 110.844284
CZK 24.62897
DJF 208.806749
DKK 7.460554
DOP 70.355427
DZD 151.979693
EGP 58.199616
ERN 17.576134
ETB 162.732892
FJD 2.633784
FKP 0.863301
GBP 0.861412
GEL 3.175237
GGP 0.863301
GHS 12.189053
GIP 0.863301
GMD 83.77774
GNF 10169.893454
GTQ 9.00046
GYD 245.007696
HKD 9.198218
HNL 30.661649
HRK 7.536664
HTG 153.898122
HUF 400.449921
IDR 19043.155705
ILS 3.925073
IMP 0.863301
INR 100.421007
IQD 1536.081823
IRR 49359.64357
ISK 143.011291
JEP 0.863301
JMD 187.151234
JOD 0.830746
JPY 171.786824
KES 151.507599
KGS 102.468664
KHR 4708.024801
KMF 492.716372
KPW 1054.5423
KRW 1612.756825
KWD 0.357885
KYD 0.977198
KZT 609.283796
LAK 25260.767597
LBP 105061.138103
LKR 352.496985
LRD 235.101302
LSL 20.85478
LTL 3.45985
LVL 0.708775
LYD 6.333688
MAD 10.551579
MDL 19.845889
MGA 5178.92726
MKD 61.542715
MMK 2460.081593
MNT 4204.866527
MOP 9.481136
MRU 46.568354
MUR 53.067974
MVR 18.04166
MWK 2033.178856
MXN 21.792886
MYR 4.981087
MZN 74.944607
NAD 20.85478
NGN 1795.296721
NIO 43.151062
NOK 11.826043
NPR 160.688716
NZD 1.952949
OMR 0.450535
PAB 1.171018
PEN 4.153238
PGK 4.916982
PHP 66.250171
PKR 333.35795
PLN 4.239311
PYG 9345.064305
QAR 4.265851
RON 5.076338
RSD 117.128528
RUB 91.628726
RWF 1694.34904
SAR 4.394767
SBD 9.768727
SCR 17.19417
SDG 703.628272
SEK 11.143369
SGD 1.500779
SHP 0.920805
SLE 26.369196
SLL 24570.854255
SOS 670.161186
SRD 43.733523
STD 24252.699675
SVC 10.259875
SYP 15235.145419
SZL 20.846682
THB 38.323037
TJS 11.262367
TMT 4.112815
TND 3.415494
TOP 2.744335
TRY 46.925742
TTD 7.955352
TWD 34.175011
TZS 3069.964632
UAH 48.977755
UGX 4209.559576
USD 1.171742
UYU 47.019267
UZS 14863.921153
VES 131.572362
VND 30626.414118
VUV 139.793453
WST 3.226231
XAF 655.821156
XAG 0.03215
XAU 0.000356
XCD 3.166692
XDR 0.815631
XOF 655.821156
XPF 119.331742
YER 283.385812
ZAR 20.926173
ZMK 10547.081684
ZMW 28.405116
ZWL 377.300539
  • AEX

    2.4800

    919.2

    +0.27%

  • BEL20

    20.5900

    4495.71

    +0.46%

  • PX1

    97.8600

    7864.53

    +1.26%

  • ISEQ

    10.3300

    11492.56

    +0.09%

  • OSEBX

    -2.2900

    1631.54

    -0.14%

  • PSI20

    23.2000

    7756.68

    +0.3%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -4.8800

    2434.83

    -0.2%

  • N150

    31.6000

    3664

    +0.87%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

(G.Gruner--BBZ)