IA aprende a mentir, manipular e ameaçar seus criadores

Berliner Boersenzeitung - IA aprende a mentir, manipular e ameaçar seus criadores

Berlin 19°C

EUR -

AED 4.291853

AFN 74.20555

ALL 95.817815

AMD 433.455649

ANG 2.091744

AOA 1072.818501

ARS 1638.506826

AUD 1.632748

AWG 2.106487

AZN 1.990357

BAM 1.953347

BBD 2.35407

BDT 143.439249

BGN 1.949423

BHD 0.441046

BIF 3476.725911

BMD 1.168647

BND 1.491028

BOB 8.106819

BRL 5.803267

BSD 1.168797

BTN 111.103472

BWP 15.866075

BYN 3.306048

BYR 22905.488356

BZD 2.351147

CAD 1.591388

CDF 2706.587474

CHF 0.915754

CLF 0.027087

CLP 1066.063434

CNY 7.982153

CNH 7.984544

COP 4357.243268

CRC 531.430334

CUC 1.168647

CUP 30.969155

CVE 110.612191

CZK 24.389204

DJF 207.691682

DKK 7.472507

DOP 69.652174

DZD 154.919394

EGP 62.777052

ERN 17.52971

ETB 183.565314

FJD 2.569626

FKP 0.860383

GBP 0.863052

GEL 3.137761

GGP 0.860383

GHS 13.083022

GIP 0.860383

GMD 85.895285

GNF 10257.799024

GTQ 8.932985

GYD 244.542893

HKD 9.157094

HNL 31.121083

HRK 7.532867

HTG 152.967138

HUF 363.833773

IDR 20359.181045

ILS 3.445114

IMP 0.860383

INR 111.424699

IQD 1530.928048

IRR 1536771.285057

ISK 143.404361

JEP 0.860383

JMD 184.138751

JOD 0.828586

JPY 184.014633

KES 150.9308

KGS 102.163736

KHR 4688.613046

KMF 491.418383

KPW 1051.782626

KRW 1722.925073

KWD 0.360066

KYD 0.974177

KZT 542.229047

LAK 25666.412509

LBP 104478.510829

LKR 373.507738

LRD 214.592902

LSL 19.668377

LTL 3.450711

LVL 0.706903

LYD 7.403358

MAD 10.806479

MDL 20.124727

MGA 4855.72974

MKD 61.629324

MMK 2453.867013

MNT 4179.872431

MOP 9.431855

MRU 46.687326

MUR 54.867673

MVR 18.061438

MWK 2035.196284

MXN 20.443791

MYR 4.630763

MZN 74.688328

NAD 19.668818

NGN 1601.502687

NIO 42.912313

NOK 10.821663

NPR 177.763476

NZD 1.988226

OMR 0.449351

PAB 1.169032

PEN 4.097227

PGK 5.063165

PHP 71.926154

PKR 325.76083

PLN 4.254285

PYG 7266.873964

QAR 4.257374

RON 5.198375

RSD 117.379233

RUB 88.062485

RWF 1706.809477

SAR 4.384993

SBD 9.37941

SCR 15.611293

SDG 701.776103

SEK 10.848785

SGD 1.492579

SHP 0.872513

SLE 28.807263

SLL 24505.946442

SOS 667.878202

SRD 43.77288

STD 24188.640968

STN 24.716892

SVC 10.22911

SYP 129.164732

SZL 19.668031

THB 38.261526

TJS 10.942258

TMT 4.096109

TND 3.372136

TOP 2.813823

TRY 52.845082

TTD 7.940029

TWD 36.926332

TZS 3035.574024

UAH 51.508713

UGX 4386.609027

USD 1.168647

UYU 47.080874

UZS 14021.431015

VES 571.401656

VND 30757.045679

VUV 138.810511

WST 3.173098

XAF 655.134256

XAG 0.015865

XAU 0.000256

XCD 3.158328

XCG 2.106954

XDR 0.812946

XOF 652.69255

XPF 119.331742

YER 278.868447

ZAR 19.623401

ZMK 10519.232616

ZMW 21.890509

ZWL 376.303975

IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

TECNOLOGIA 29.06.2025

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

(K.Lüdke--BBZ)

Berliner Boersenzeitung - IA aprende a mentir, manipular e ameaçar seus criadores

IA aprende a mentir, manipular e ameaçar seus criadores

Apresentou

Casa Branca se opõe a ampliar acesso da Anthropic ao modelo Mythos, diz imprensa

Trump crê que EUA vai voltar a pisar na Lua antes do fim de seu mandato

UE quer obrigar Google a abrir Android para concorrentes de IA

Empresas de IA intensificam campanhas de influência para impactar medidas regulatórias