Un análisis de políticas de privacidad de seis desarrolladores pioneros de IA en EE. UU. concluye que, por defecto, los chats de los usuarios se usan para entrenar y mejorar modelos de lenguaje, a veces con retención indefinida. El estudio advierte además que información personal, sensible e incluso datos de niños podrían terminar en esos procesos, y reclama más transparencia y responsabilidades claras.
***
- Seis desarrolladores de IA tendrían habilitado por defecto el uso de chats para entrenar y mejorar sus modelos, según un análisis basado principalmente en la ley de privacidad de California.
- Los datos potencialmente usados incluirían información personal revelada en conversaciones, datos sensibles (biométricos y de salud) y archivos cargados por usuarios; en algunos casos, la retención sería indefinida.
- El estudio detecta vacíos de información en las políticas y plantea riesgos por falta de consentimiento, seguridad por retención prolongada y entrenamiento con datos de niños.
🔍💬 La IA en la mira: tus chats podrían ser entrenados sin tu consentimiento.
Un análisis revela que seis desarrolladores de IA usan datos de chat por defecto para mejorar sus modelos.
Algunos almacenan esa información de forma indefinida, incluyendo datos sensibles y de… pic.twitter.com/ludAu1TcN0
— Diario฿itcoin (@DiarioBitcoin) February 28, 2026
Un insumo clave para la carrera de los modelos de lenguaje
Cientos de millones de personas interactúan de forma regular con modelos de lenguaje grande mediante chatbots. En esa dinámica, los desarrolladores compiten por mejorar capacidades, ganar mercado y, sobre todo, asegurar fuentes de datos de entrenamiento que sean útiles y de alta calidad. Esa presión vuelve más relevante una pregunta básica para cualquier usuario: qué pasa con lo que escribe en un chat.
El estudio “User Privacy and Large Language Models: An Analysis of Frontier Developers’ Privacy Policies” examina cómo seis desarrolladores pioneros de IA en Estados Unidos describen, en sus políticas de privacidad, la recolección y el uso de chats. La investigación busca entender en qué medida estas conversaciones se aprovechan para entrenar y mejorar los modelos. El foco está en lo que las empresas dicen que hacen, no en lo que efectivamente ejecutan a nivel técnico.
Para lectores que llegan nuevos al tema, conviene separar dos planos. Uno es la experiencia del usuario, donde el chatbot se siente como una conversación privada. Otro es el plano de datos, donde el texto puede convertirse en registros que alimentan sistemas de mejora, pruebas de seguridad, monitoreo o entrenamiento. El choque entre ambos planos es el centro del debate de privacidad en IA.
El trabajo se apoya principalmente en la Ley de Privacidad del Consumidor de California (CCPA), un marco legal de referencia en EE. UU. para derechos sobre datos personales. A partir de allí, los autores diseñan un esquema de codificación cualitativa para comparar prácticas entre empresas. El resultado final es una lectura sistemática de políticas, orientada a identificar patrones y silencios relevantes.
Qué encontró el análisis: entrenamiento por defecto y retención prolongada
El hallazgo principal es contundente: los seis desarrolladores analizados parecen usar por defecto los datos de chat de sus usuarios para entrenar y mejorar sus modelos. En otras palabras, el uso de conversaciones como insumo para mejora no sería una excepción, sino la regla que operaría si el usuario no toma medidas adicionales, si es que existen.
El estudio también advierte que algunas de las empresas retendrían esos datos de chat de manera indefinida. Ese punto eleva el riesgo, porque una conversación que parecía efímera puede permanecer almacenada por tiempo no acotado. A mayor horizonte de retención, mayor superficie para incidentes, cambios de política futuros o usos secundarios difíciles de anticipar.
En términos de contenido, el documento señala que los desarrolladores pueden recopilar y entrenar con información personal revelada en los chats. Esto no se limita a datos de contacto o identificación directa. Incluye información sensible, como datos biométricos y de salud, si el usuario los menciona en la conversación.
El análisis agrega un vector adicional: los archivos subidos por los usuarios. En muchos productos, el chat ya no es solo texto, sino que incorpora documentos, imágenes u otros adjuntos para análisis. El estudio indica que esos archivos también entrarían dentro del universo de datos potencialmente recolectados y utilizados para entrenamiento o mejora, según cómo se describe en las políticas revisadas.
Datos de niños y cruces con otros productos: señales de alto riesgo
Uno de los puntos más sensibles del estudio es la posibilidad de que datos de niños terminen en el entrenamiento de modelos. Según los autores, cuatro de las seis empresas examinadas parecen incluir los datos de chat de niños para entrenamiento del modelo. La idea es especialmente delicada porque los estándares regulatorios y éticos sobre menores suelen ser más estrictos que para adultos.
Además, el trabajo reporta que esos mismos desarrolladores podrían incorporar datos de clientes provenientes de otros productos. Esto sugiere que el ecosistema de recolección no se limita al chatbot como aplicación aislada. También puede existir una convergencia de datos entre servicios, lo que aumenta la dificultad de que un usuario entienda el verdadero recorrido de su información.
Para dimensionar el tema, basta considerar cómo se usa un chatbot en la vida real. Un estudiante puede pedir ayuda con tareas y compartir detalles personales. Un paciente puede comentar síntomas o tratamientos. Un trabajador puede pegar fragmentos de documentos internos o materiales de clientes. Aunque cada usuario “elige” qué escribir, la asimetría aparece cuando el sistema convierte esa elección en un insumo estándar de entrenamiento.
En ese sentido, el estudio no afirma que todas las empresas ejecuten idénticas prácticas técnicas. Lo que establece es que, al leer las políticas, la interpretación razonable es que el uso para entrenamiento está activado por defecto y que ciertas categorías, como datos infantiles o información de otros productos, quedarían dentro del alcance descrito. Por eso la transparencia del lenguaje legal se vuelve crucial.
Transparencia, consentimiento y seguridad: las brechas que deja la “letra chica”
El documento concluye que las políticas de privacidad a menudo carecen de información esencial sobre prácticas de recopilación y uso de datos. Esa ausencia impide que el usuario promedio evalúe costos y beneficios de usar un chatbot. También dificulta que reguladores, académicos y la sociedad civil puedan auditar expectativas razonables de privacidad.
Los autores abordan implicaciones específicas sobre el consentimiento. Si el uso de datos de chat para entrenamiento ocurre por defecto, la pregunta pasa a ser qué tan informado y voluntario es ese “sí” implícito. El problema no es solo legal. También es de diseño de producto, porque la experiencia de chat tiende a invisibilizar el tratamiento posterior de la conversación.
Otra preocupación central es la seguridad de datos cuando existe retención indefinida. Mantener conversaciones por tiempo ilimitado puede amplificar consecuencias ante filtraciones o accesos no autorizados. Aunque el estudio no detalla incidentes concretos, sí plantea que el simple hecho de retener indefinidamente eleva el nivel de riesgo de forma estructural.
El tercer eje es el entrenamiento con chats de niños. El estudio discute esa posibilidad como un desafío de privacidad particularmente grave. En la práctica, la edad del usuario no siempre es trivial de verificar y, aun así, el tratamiento de datos de menores exige umbrales de protección más altos. Si el lenguaje de políticas permite esos usos, la inquietud pública resulta previsible.
Recomendaciones y por qué el tema importa también para finanzas y cripto
El trabajo cierra con recomendaciones dirigidas tanto a responsables de políticas públicas como a desarrolladores. El objetivo es abordar desafíos de privacidad de datos que plantean los chatbots basados en modelos de lenguaje grande. Aunque el estudio no se centra en criptomonedas, sus conclusiones sí impactan un punto clave del sector: la gestión de datos en entornos de alto riesgo financiero.
En mercados de criptomonedas, forex y acciones, muchos usuarios consultan chatbots para estrategias, análisis, impuestos y hasta soporte de exchanges. En esos diálogos aparecen capturas de pantalla, historiales, direcciones, montos y hábitos de inversión. Si esos datos se usan para entrenamiento por defecto, un usuario puede estar ampliando su exposición sin entenderlo del todo.
También hay implicaciones para proyectos Web3 que integran asistentes de IA en billeteras, protocolos o plataformas de trading. En esos casos, la privacidad se vuelve un argumento comercial y de seguridad. Si la industria quiere promover soberanía de datos, debe prestar atención a cómo se manejan los chats, los adjuntos y los metadatos cuando se “terceriza” IA a un proveedor.
En conjunto, el estudio “User Privacy and Large Language Models: An Analysis of Frontier Developers’ Privacy Policies” pone el foco donde más incomoda: en la normalización del entrenamiento con conversaciones privadas. Su lectura sugiere que la transparencia todavía no acompaña la velocidad de adopción. Y advierte que, sin reglas y diseños más claros, el usuario seguirá pagando con datos lo que cree que está pagando con tiempo.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Sospechan uso de información privilegiada en Polymarket tras ganar USD $1.2 millones por ataque de EEUU a Irán
Tether congela USD $4.200 millones en USDT ilícitos y fortalece cooperación con autoridades
Paul Atkins critica la era de Gary Gensler en la SEC y promete recuperar el terreno perdido