Aunque se está volviendo más tonto, ChatGPT es mejor doctor que programador, dicen expertos

𝕏

Domingo, 13 de Agosto, 2023

Por Angel Di Matteo @shadowargel

Mientras un estudio pone en evidencia que ChatGPT ha venido perdiendo facultades tras cada actualización, otras investigaciones encontraron que el chatbot es más útil y preciso en tareas médicas que de programación.

***

Un estudio encontró diferencias sustanciales entre GPT-3.5 y GPT-4
La versión posterior es menos precisa que su antecesora a la hora de dar respuestas
En tareas de programación, ChatGPT mostró un rendimiento por debajo del 50%
Pero en preguntas médicas, tuvo una tasa de éxito del 73%
El grado de acierto de ChatGPT depende principalmente del contenido disponible del cual se basa

Desde su llegada al mercado, ChatGPT de OpenAI figura como uno de los chatbots de inteligencia artificial (IA) más utilizados hoy día. La compañía responsable lanza actualizaciones con frecuencia para optimizar su funcionamiento, pero ante la proliferación de otros productos similares con distintas propiedades, ciertos usuarios ya alertan que comience a quedarse corto frente a lo que otros modelos de leguaje avanzados ofrecen.

Así lo ponen en evidencia ciertos estudios realizados por varias universidades, los cuales cuestionan las habilidades generales de ChatGPT tras la implementación de la versión GPT-4, así como su destreza para el desarrollo de ciertas solicitudes en áreas de conocimiento particulares.

¿ChatGPT se está haciendo más tonto?

Partiendo primero desde una visión más general, un estudio realizado por científicos de la Universidad de Standford, citado por el medio Futurism, apunta a que ChatGPT podría estarse volviendo “más tonto” tras las nuevas actualizaciones, esto dado que existen diferencias importantes entre el desempeño de GPT-3.5 y GPT-4, encontrando menos precisión en las respuestas que arroja la versión más reciente.

La evaluación hecha por los científicos contempló varios aspectos entre ambas versiones, como por ejemplo su pericia para realizar cálculos matemáticos, análisis ante determinadas solicitudes, y su capacidad para generar código aplicable al desarrollo de software. Aparentemente la versión con GPT-3.5 tiene una mayor precisión y éxito que la posterior, lo que da la impresión que el chatbot ha perdido facultades en lugar de optimizarse.

Según indica el reporte, esta misma impresión la han tenido muchos usuarios que usan al chatbot, los cuales alegan que tanto GPT-3.5 como GPT-4 han venido cambiado significativamente su comportamiento, resultando menos precisos y con respuestas carentes de la calidad vista en versiones previas.

La expectativa es mejorarlo

Frente a estos señalamientos, el vicepresidente de producto de OpenAI, Peter Welinder, rechazó la tesis de que las versiones posteriores de GPT sean “menos inteligentes”, alegando que la expectativa es que supere a sus predecesoras.

Al respecto, Welinder aclaró que los cambios en la experiencia de los usuarios “podrían deberse al uso continuo”, especificando que probablemente “cuando usas [ChatGPT] más intensamente, comienzas a notar problemas que no veías antes”.

Mejor doctor que programador

Pero dejando atrás los debates sobre la inteligencia global de ChatGPT, otro de los aspectos que generó cierto interés entre los interesados es la pericia del chatbot para atender solicitudes en determinadas áreas de conocimiento. Bajo esta premisa, dos estudios realizados por reputadas universidades encontraron que al bot de IA le va mejor haciendo exámenes médicos que escribiendo código para programar.

Por un lado está el estudio realizado por la Universidad de Purdue, el cual encontró que al responder solicitudes de programación en la comunidad de programación Stack Overflow, “el 52% de las respuestas generadas por ChatGPT son incorrectas, aunque el 77% de las mismas fueron muy detalladas”.

Por el otro lado está un estudio realizado por UCLA y la Universidad Pepperdine de Malibu, el cual puso a prueba la pericia de ChatGPT para responder inquietudes difíciles sobre exámenes médicos. Acá abordó unas 850 preguntas de opción múltiple sobre nefrología, en las cuales tuvo un 73% de éxito, puntuando muy parecido al promedio de los médicos humanos que atendieron al mismo cuestionario.

Sobre esto último, el equipo de UCLA escribió:

La capacidad superior demostrada actual de GPT-4 para responder con precisión preguntas de opción múltiple en Nefrología apunta a la utilidad de modelos de IA similares y más capaces en futuras aplicaciones médicas.

Todo depende de la disponibilidad de la información

Si bien es notorio que ChatGPT tuvo un mejor desempeño en temas médicos que en las áreas de programación, la razón detrás de esto bien podría obedecer a la disponibilidad de la información en la que se basa el chatbot para responder a las solicitudes.

Al respecto, el científico informático del MIT, Lex Fridman, expuso que ChatGPT toma la información disponible públicamente para abordar las dudas planteadas por los usuarios, por lo que es posible que los modelos nutridos con datos que quizás sean de manejo más privado tengan mejores posibilidades.

También destacó que una IA no puede actuar adecuadamente fuera de los parámetros para los que fue entrenada, y en caso de hacerlo, incurre en una práctica denominada “alucinación”, cuyo grado de acierto muy probablemente no sea tan alto y detallado como cuando se trata de alguna solicitud sobre la cual hay información precisa disponible.

Por ende, es mucho más fácil para una IA como ChatGPT poder acceder a contenidos médicos de amplia difusión en Internet, en lugar de repositorios que no sean de código abierto sobre programación. De aquí está la explicación tentativa sobre sus buenas facultades en el área de la salud frente a las deficiencias para aspectos inherentes a la codificación.

En todo caso, tanto ChatGPT como otras IA del mercado siguen en proceso de aprendizaje y desarrollo, por lo que es posible que futuras versiones proporcionen muchos más datos para abordar preguntas y solicitudes más complejas.

Artículo de Angel Di Matteo / DiarioBitcoin

Imagen de Unsplash

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,0%	$143,5 mmd
BTC	Bitcoin	-2,41%	$95,68 mmd
ETH	Ethereum	1,85%	$35,89 mmd
DAI	Dai	0,03%	$22,23 mmd
USDC	USDC	0,02%	$17,76 mmd
FDUSD	First Digital USD	0,0%	$10,59 mmd
XRP	XRP	-1,39%	$8,84 mmd
SOL	Solana	-0,51%	$6,38 mmd
SUI	Sui	3,95%	$2,87 mmd
PENGU	Pudgy Penguins	8,92%	$2,13 mmd

PUMP	Pump.fun	16,19%	$0,006 331
SEI	Sei	10,14%	$0,369 211
PENGU	Pudgy Penguins	8,92%	$0,031 546
BONK	Bonk	8,31%	$0,000 029
INJ	Injective	6,68%	$13,15
ARB	Arbitrum	4,36%	$0,424 098
SUI	Sui	3,95%	$4,0
TAO	Bittensor	3,72%	$424,81
ENA	Ethena	3,47%	$0,348 312
TIA	Celestia	3,0%	$1,92

FARTCOIN	Fartcoin	-7,54%	$1,2
FORM	Four	-7,16%	$3,08
XDC	XDC Network	-5,93%	$0,074 5
HBAR	Hedera	-4,87%	$0,226 948
PI	Pi	-4,04%	$0,441 365
VIRTUAL	Virtuals Protocol	-3,6%	$1,62
KAIA	Kaia	-2,99%	$0,150 528
BCH	Bitcoin Cash	-2,69%	$490,31
BTC	Bitcoin	-2,41%	$117.130,67
BTT	BitTorrent [New]	-2,41%	$0,0

Aunque se está volviendo más tonto, ChatGPT es mejor doctor que programador, dicen expertos

¿ChatGPT se está haciendo más tonto?

La expectativa es mejorarlo

Mejor doctor que programador

Todo depende de la disponibilidad de la información

Suscríbete a nuestro boletín

Artículos Relacionados

OpenAI busca desafiar el dominio de Google Chrome con su propio navegador de IA

Minero Bitcoin Core Scientific es adquirido por rival CoreWeave por USD $9 mil millones

Trump prepara orden ejecutiva para expandir la IA en Estados Unidos: informe

Google lanza Gemma 3n, modelo IA abierta con capacidades y alto rendimiento en dispositivos locales