Berliner Boersenzeitung - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

EUR -
AED 4.234647
AFN 72.643117
ALL 95.757309
AMD 435.408728
ANG 2.064091
AOA 1057.36486
ARS 1614.346342
AUD 1.657376
AWG 2.078408
AZN 1.958576
BAM 1.951805
BBD 2.325839
BDT 141.699943
BGN 1.970952
BHD 0.432714
BIF 3418.203011
BMD 1.15307
BND 1.476877
BOB 7.979562
BRL 6.142287
BSD 1.154836
BTN 107.960008
BWP 15.747244
BYN 3.503552
BYR 22600.165943
BZD 2.322546
CAD 1.583482
CDF 2623.233322
CHF 0.910977
CLF 0.02668
CLP 1053.47892
CNY 7.940499
CNH 7.975581
COP 4262.368236
CRC 539.395868
CUC 1.15307
CUP 30.556347
CVE 110.039751
CZK 24.519569
DJF 205.639061
DKK 7.471402
DOP 68.54968
DZD 151.575728
EGP 59.993636
ERN 17.296045
ETB 181.99598
FJD 2.553415
FKP 0.86425
GBP 0.867287
GEL 3.130599
GGP 0.86425
GHS 12.588232
GIP 0.86425
GMD 84.754467
GNF 10122.279909
GTQ 8.845893
GYD 241.602302
HKD 9.0294
HNL 30.56696
HRK 7.534383
HTG 151.499883
HUF 394.348104
IDR 19591.634159
ILS 3.620064
IMP 0.86425
INR 108.33689
IQD 1512.803324
IRR 1517007.312332
ISK 143.810774
JEP 0.86425
JMD 181.43176
JOD 0.817567
JPY 183.967079
KES 149.033754
KGS 100.833527
KHR 4614.554106
KMF 492.361081
KPW 1037.767304
KRW 1744.899987
KWD 0.353497
KYD 0.96233
KZT 555.193531
LAK 24798.023914
LBP 103421.202089
LKR 360.239473
LRD 211.327417
LSL 19.480655
LTL 3.404715
LVL 0.69748
LYD 7.392867
MAD 10.790871
MDL 20.11066
MGA 4815.289368
MKD 61.514082
MMK 2420.814966
MNT 4112.942181
MOP 9.321419
MRU 46.226376
MUR 53.69826
MVR 17.826655
MWK 2002.561585
MXN 20.74707
MYR 4.542518
MZN 73.682844
NAD 19.480823
NGN 1564.415464
NIO 42.493018
NOK 11.085554
NPR 172.734917
NZD 1.989824
OMR 0.440697
PAB 1.154821
PEN 3.992527
PGK 4.984796
PHP 69.617751
PKR 322.430976
PLN 4.281665
PYG 7542.56054
QAR 4.222856
RON 5.092994
RSD 117.210073
RUB 97.493633
RWF 1680.289628
SAR 4.329659
SBD 9.284125
SCR 15.845265
SDG 692.995016
SEK 10.832917
SGD 1.480346
SHP 0.865101
SLE 28.336616
SLL 24179.307368
SOS 659.960522
SRD 43.225694
STD 23866.214565
STN 24.449951
SVC 10.104317
SYP 127.488051
SZL 19.487785
THB 38.115291
TJS 11.091795
TMT 4.047275
TND 3.410619
TOP 2.776315
TRY 51.114334
TTD 7.834894
TWD 37.054472
TZS 2998.28211
UAH 50.591177
UGX 4365.064806
USD 1.15307
UYU 46.533738
UZS 14079.180219
VES 524.289984
VND 30370.702591
VUV 137.475997
WST 3.145334
XAF 654.628344
XAG 0.018232
XAU 0.000269
XCD 3.116229
XCG 2.081222
XDR 0.814158
XOF 654.617013
XPF 119.331742
YER 275.125069
ZAR 19.826569
ZMK 10379.012321
ZMW 22.547845
ZWL 371.28797
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: Kirill Kudryavtsev - AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

(O.Joost--BBZ)