Berliner Boersenzeitung - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.179607
AFN 72.258895
ALL 94.205288
AMD 419.32538
ANG 2.037333
AOA 1043.471931
ARS 1673.878652
AUD 1.646164
AWG 2.049676
AZN 1.931828
BAM 1.955918
BBD 2.296329
BDT 140.068478
BGN 1.924085
BHD 0.43002
BIF 3405.606125
BMD 1.137919
BND 1.476989
BOB 7.895478
BRL 5.920364
BSD 1.140164
BTN 107.948534
BWP 15.503938
BYN 3.202194
BYR 22303.209908
BZD 2.293039
CAD 1.616971
CDF 2577.385877
CHF 0.922079
CLF 0.026365
CLP 1037.657169
CNY 7.709175
CNH 7.735322
COP 3899.04488
CRC 517.224487
CUC 1.137919
CUP 30.15485
CVE 110.271674
CZK 24.228625
DJF 202.230987
DKK 7.475001
DOP 66.733159
DZD 152.068092
EGP 56.580855
ERN 17.068783
ETB 183.814318
FJD 2.561791
FKP 0.85899
GBP 0.86289
GEL 3.009787
GGP 0.85899
GHS 12.797775
GIP 0.85899
GMD 83.067764
GNF 9990.121794
GTQ 8.698526
GYD 238.534437
HKD 8.922706
HNL 30.504712
HRK 7.534161
HTG 149.069022
HUF 355.706046
IDR 20399.24405
ILS 3.40957
IMP 0.85899
INR 107.8111
IQD 1493.5904
IRR 1564638.450732
ISK 144.003725
JEP 0.85899
JMD 179.470074
JOD 0.806818
JPY 183.853426
KES 147.258242
KGS 99.511194
KHR 4575.854724
KMF 490.443242
KPW 1024.127384
KRW 1745.914618
KWD 0.351594
KYD 0.950158
KZT 554.603568
LAK 25248.528174
LBP 102099.879625
LKR 381.463088
LRD 207.502559
LSL 18.801338
LTL 3.359979
LVL 0.688316
LYD 7.316411
MAD 10.671146
MDL 20.072215
MGA 4763.288299
MKD 61.63521
MMK 2388.932514
MNT 4072.611663
MOP 9.207457
MRU 45.285348
MUR 54.57472
MVR 17.592561
MWK 1977.010972
MXN 20.012811
MYR 4.711558
MZN 72.710706
NAD 18.801338
NGN 1558.857449
NIO 41.952539
NOK 11.148254
NPR 172.716695
NZD 2.008275
OMR 0.437534
PAB 1.140169
PEN 3.859434
PGK 5.000325
PHP 69.924546
PKR 317.102593
PLN 4.285607
PYG 6950.390134
QAR 4.156252
RON 5.247057
RSD 117.351293
RUB 84.774961
RWF 1671.993851
SAR 4.273217
SBD 9.177362
SCR 15.231046
SDG 683.318583
SEK 11.088575
SGD 1.476194
SHP 0.849571
SLE 28.163574
SLL 23861.593974
SOS 651.636577
SRD 42.652585
STD 23552.623219
STN 24.500299
SVC 9.976604
SYP 125.77656
SZL 18.795138
THB 37.854581
TJS 10.57484
TMT 3.994095
TND 3.374904
TOP 2.739836
TRY 52.886538
TTD 7.741469
TWD 36.036527
TZS 2987.455785
UAH 51.179898
UGX 4173.252587
USD 1.137919
UYU 45.732768
UZS 13698.829126
VES 701.942638
VND 29955.714328
VUV 135.137568
WST 3.136474
XAF 655.993822
XAG 0.018439
XAU 0.000276
XCD 3.075283
XCG 2.054824
XDR 0.815849
XOF 655.993822
XPF 119.331742
YER 271.564061
ZAR 18.840509
ZMK 10242.636979
ZMW 20.453238
ZWL 366.409413
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

(H.Schneide--BBZ)