Berliner Boersenzeitung - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.331023
AFN 77.824044
ALL 96.204991
AMD 446.932449
ANG 2.110769
AOA 1081.2786
ARS 1712.071881
AUD 1.697104
AWG 2.122466
AZN 2.007924
BAM 1.945772
BBD 2.377447
BDT 144.365962
BGN 1.980226
BHD 0.444554
BIF 3495.583857
BMD 1.179148
BND 1.499385
BOB 8.186157
BRL 6.208092
BSD 1.180416
BTN 107.944132
BWP 15.536586
BYN 3.37998
BYR 23111.298228
BZD 2.373975
CAD 1.614548
CDF 2541.063785
CHF 0.92033
CLF 0.025849
CLP 1020.682673
CNY 8.190951
CNH 8.184436
COP 4260.603203
CRC 585.686437
CUC 1.179148
CUP 31.247419
CVE 109.699626
CZK 24.301878
DJF 209.557895
DKK 7.468724
DOP 74.227828
DZD 153.236192
EGP 55.532091
ERN 17.687218
ETB 184.008454
FJD 2.627969
FKP 0.860488
GBP 0.863461
GEL 3.177812
GGP 0.860488
GHS 12.943292
GIP 0.860488
GMD 86.077934
GNF 10357.749649
GTQ 9.05732
GYD 246.967642
HKD 9.209086
HNL 31.15941
HRK 7.528271
HTG 154.704646
HUF 380.935486
IDR 19781.384647
ILS 3.656349
IMP 0.860488
INR 107.264075
IQD 1546.330471
IRR 49671.604158
ISK 145.212068
JEP 0.860488
JMD 185.337161
JOD 0.835984
JPY 183.495423
KES 152.263492
KGS 103.115876
KHR 4752.706874
KMF 489.346754
KPW 1061.233082
KRW 1712.346624
KWD 0.362222
KYD 0.983672
KZT 596.092892
LAK 25385.276168
LBP 105707.384156
LKR 365.540714
LRD 218.970746
LSL 18.8985
LTL 3.481717
LVL 0.713255
LYD 7.457659
MAD 10.764223
MDL 19.984849
MGA 5263.893095
MKD 61.629401
MMK 2476.194563
MNT 4203.220257
MOP 9.495959
MRU 46.872427
MUR 53.827748
MVR 18.229311
MWK 2046.76002
MXN 20.530367
MYR 4.648174
MZN 75.182584
NAD 18.8985
NGN 1644.156287
NIO 43.436137
NOK 11.451318
NPR 172.711339
NZD 1.965421
OMR 0.453398
PAB 1.180421
PEN 3.97571
PGK 5.057932
PHP 69.416105
PKR 330.421765
PLN 4.221797
PYG 7848.549884
QAR 4.315061
RON 5.095451
RSD 117.405364
RUB 90.14055
RWF 1725.705999
SAR 4.422011
SBD 9.494043
SCR 17.685253
SDG 709.260254
SEK 10.58085
SGD 1.500743
SHP 0.884666
SLE 28.682728
SLL 24726.14037
SOS 674.628797
SRD 44.837082
STD 24405.980193
STN 24.374379
SVC 10.328898
SYP 13040.874167
SZL 18.889646
THB 37.237836
TJS 11.024827
TMT 4.127018
TND 3.405548
TOP 2.839105
TRY 51.257794
TTD 7.991879
TWD 37.251051
TZS 3052.21225
UAH 50.836046
UGX 4216.270048
USD 1.179148
UYU 45.793985
UZS 14430.626958
VES 436.038953
VND 30681.427545
VUV 140.503382
WST 3.196411
XAF 652.621173
XAG 0.014976
XAU 0.000253
XCD 3.186706
XCG 2.127336
XDR 0.810328
XOF 652.593641
XPF 119.331742
YER 281.020373
ZAR 19.00208
ZMK 10613.749147
ZMW 23.165591
ZWL 379.685133
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

(K.Lüdke--BBZ)