Por Canuto  

Una investigación basada en datos del Internet Archive concluye que cerca de 35% de los sitios web publicados recientemente hacia mediados de 2025 fue generado o asistido por inteligencia artificial. El trabajo también sugiere que este auge no está disparando las falsedades verificables, pero sí estaría empujando a internet hacia un lenguaje más uniforme y marcadamente positivo.

***

  • El estudio estima que 35% de los sitios nuevos publicados hacia mediados de 2025 fue generado o asistido por IA, frente a casi cero antes de ChatGPT.
  • Los investigadores hallaron dos efectos con respaldo estadístico: menor diversidad semántica y un tono mucho más positivo en los textos de IA.
  • No encontraron evidencia sólida de más errores fácticos verificables, aunque admiten que esa parte del análisis tiene limitaciones metodológicas.

 


La expansión del texto generado por inteligencia artificial ya está dejando una huella medible sobre internet. Un equipo de investigadores de Stanford, Imperial College London y el Internet Archive analizó muestras de sitios web archivados entre agosto de 2022 y mayo de 2025 y concluyó que, para mediados de 2025, alrededor de 35% de los sitios recién publicados había sido generado total o parcialmente por IA.

El hallazgo aparece en el trabajo titulado The Impact of AI-Generated Text on the Internet, que se propuso evaluar hasta qué punto herramientas como ChatGPT y sus competidores han remodelado la red desde finales de 2022. Antes de ese punto, según los autores, la proporción de nuevos sitios clasificados como generados o asistidos por IA era prácticamente nula.

El estudio parte de una preocupación cada vez más común en el debate tecnológico: que la proliferación de texto sintético deteriore la diversidad estilística y semántica de la web, afecte la precisión factual y favorezca una internet más homogénea. Esa inquietud ha sido alimentada incluso por ideas como la llamada Dead Internet Theory, que sostiene que una parte creciente de la actividad online proviene de bots interactuando entre sí.

El punto central no es solo cuántos textos produce la IA, sino qué tipo de internet se construye cuando una porción relevante del contenido pasa a ser escrita por modelos entrenados sobre enormes volúmenes de lenguaje previo. El riesgo, según distintos especialistas, no siempre es una explosión de mentiras directas, sino una red cada vez más parecida a sí misma.

Cómo se midió el avance del contenido de IA

Para realizar el análisis, los investigadores trabajaron con muestras representativas de sitios web en inglés extraídas de la Wayback Machine del Internet Archive. El conjunto cubrió 33 intervalos mensuales entre agosto de 2022 y mayo de 2025.

Para cada URL seleccionada, recuperaron la primera instantánea archivada disponible a través de la API CDX y descargaron el HTML bruto para su posterior procesamiento.

Luego, el equipo extrajo el texto de cada sitio y utilizó Pangram v3 como herramienta de detección de contenido generado por IA. Según los autores, compararon varias soluciones y concluyeron que Pangram v3 ofrecía el mejor rendimiento de detección dentro de sus pruebas de robustez. A partir de esas clasificaciones, evaluaron si el aumento del contenido de IA se correlacionaba con distintas señales lingüísticas y estructurales.

El trabajo puso a prueba seis hipótesis frecuentes sobre el impacto de la IA en la web. Entre ellas, si reduce la diversidad de puntos de vista, si incrementa la desinformación, si vuelve la escritura más higienizada y alegre, si elimina las citas a fuentes, si baja la densidad semántica y si empuja la red hacia una monocultura donde desaparecen las voces distintivas.

La lógica metodológica fue directa. Para cada hipótesis, los investigadores definieron una señal medible, la calcularon sobre cada muestra mensual y analizaron si esa señal se movía en línea con el aumento agregado de probabilidad de IA. En el caso de la verdad factual, por ejemplo, extrajeron afirmaciones verificables de los sitios seleccionados y contrataron verificadores humanos para contrastarlas con fuentes externas.

Dos hipótesis sí se sostuvieron

De las seis hipótesis analizadas, solo dos mostraron respaldo estadístico consistente. La primera fue la llamada contracción semántica. El estudio encontró que los textos generados por IA eran 33% más similares semánticamente entre sí que el contenido escrito por humanos. Los investigadores interpretan esto como una señal de que los modelos de lenguaje tienden a gravitar hacia la media de sus datos de entrenamiento.

Ese fenómeno importa porque sugiere una reducción del abanico de ideas, enfoques y formas de expresión disponibles en internet. En términos simples, si una porción cada vez mayor de la web es redactada por sistemas que convergen hacia formulaciones promedio, el resultado puede ser una red menos diversa, con menos matices y con más contenido que suena parecido aunque trate temas distintos.

La segunda hipótesis confirmada fue el desplazamiento hacia la positividad. Los textos clasificados como generados por IA obtuvieron puntajes 107% más altos en sentimiento positivo que los textos íntegramente humanos. El estudio vincula este patrón con una tendencia bien documentada en muchos modelos de lenguaje: la complacencia, el exceso de cortesía y una inclinación a formular respuestas de manera optimista y suavizada.

Para los autores, este cambio puede tener implicaciones culturales más profundas que una simple cuestión de tono. Un ecosistema de contenidos dominado por una prosa persistentemente amable y pulida podría desplazar formas más tensas, críticas o disonantes del discurso humano hacia los márgenes, alterando cómo circula el desacuerdo en línea.

Jonáš Doležal, investigador de IA en Stanford y coautor del trabajo, resumió la magnitud del cambio al señalar, en declaraciones citadas por 404 Media, que le resulta asombrosa la velocidad con la que la IA está tomando parte de la web. Tras décadas moldeada por personas, dijo, una fracción significativa de internet pasó a estar definida por sistemas de IA en apenas tres años.

Lo que el estudio no pudo demostrar

Las otras cuatro hipótesis no se sostuvieron con la misma claridad. El análisis no halló evidencia de una desaparición de los estilos de escritura individuales, ni de una caída en los enlaces externos, ni de una menor densidad informativa. Tampoco pudo demostrar un aumento estadísticamente significativo de afirmaciones claramente falsas a medida que crecía el contenido generado por IA.

Sin embargo, el propio estudio introduce matices importantes sobre este último punto. Para examinar la llamada degradación de la verdad, GPT-4o-mini extrajo hasta cinco afirmaciones verificables por página y luego 50 anotadores humanos las clasificaron como respaldadas, refutadas, con evidencia insuficiente o con evidencia contradictoria. La métrica usada fue la proporción de afirmaciones claramente refutadas.

El problema es que esa parte del análisis se apoyó sobre una muestra mucho más pequeña que el resto del trabajo. Cada anotador revisó afirmaciones de cinco artículos, lo que deja una submuestra de alrededor de 250 sitios web. Frente a las cerca de 10.000 URL por mes consideradas a lo largo de 33 meses en el estudio principal, esa porción es reducida.

Además, el método solo captura una forma estrecha de deterioro informativo: afirmaciones individuales que pueden refutarse de forma clara. Quedan fuera otros problemas potenciales, como formulaciones vagas, insinuaciones difíciles de verificar o afirmaciones imposibles de contrastar con la infraestructura actual de fact-checking. Doležal admitió que la IA podría estar aumentando silenciosamente el volumen de afirmaciones no verificables, aunque no se detectara un salto en las falsedades demostrables.

En esa línea, los autores plantean un riesgo distinto. No necesariamente una web repleta de mentiras directas, sino un entorno donde el texto generado por IA se vuelve tan ubicuo y tan difícil de distinguir del humano que los usuarios terminen desconfiando de la credibilidad de la información online en general. El estudio llama a ese fenómeno “apatía hacia la realidad”.

Percepción pública, límites y posibles respuestas

La investigación también incluyó una encuesta a 853 adultos de Estados Unidos. Según los resultados, la mayoría creyó en todas las hipótesis negativas evaluadas, incluidas las cuatro que no encontraron respaldo empírico. Por ejemplo, 83% estuvo de acuerdo con la idea de que los estilos de escritura individuales están desapareciendo en favor de una voz genérica de IA, algo que los datos del estudio no confirmaron.

Los autores también observaron una brecha entre usuarios frecuentes y poco frecuentes de IA. Quienes rara vez usan estas herramientas tendían más a creer en impactos negativos que los usuarios habituales, con proporciones de 88,3% frente a 76,2%. Entre los escépticos de la IA, la diferencia fue todavía mayor: 91,3% frente a 71,1%.

Más allá de la percepción pública, los investigadores advierten que el volumen alcanzado por el contenido sintético vuelve más concreto el riesgo del llamado colapso del modelo. Ese concepto describe la degradación de sistemas de IA que vuelven a entrenarse con contenido generado por otras IA, en lugar de nutrirse principalmente de producción humana original.

Como respuesta, el estudio sugiere no depender solo de detectores a posteriori. Los autores recomiendan avanzar en estándares criptográficos de procedencia como C2PA y replantear algoritmos de búsqueda y recomendación para recompensar la diversidad semántica. Maty Bohacek, estudiante investigador en Stanford y coautor del trabajo, afirmó que el equipo ya colabora con el Internet Archive para convertir este análisis en una herramienta de monitoreo continuo.

El trabajo también reconoce limitaciones relevantes. Solo analizó textos en inglés y dejó fuera otros idiomas y formatos como imágenes o video. Además, toda la medición depende de la fiabilidad del detector Pangram v3, cuya precisión podría variar conforme evolucionen los modelos de lenguaje. Los datos, por su parte, proceden únicamente del Internet Archive, que no representa la totalidad de la web.

Aun con esas cautelas, la conclusión general es difícil de ignorar. La IA no solo ya produce una parte importante del nuevo contenido publicado en internet, sino que estaría empujando la red hacia un estilo más uniforme y más optimista. Para un ecosistema digital donde la diversidad de voz, enfoque y criterio ha sido una de sus mayores fortalezas, ese giro plantea una pregunta de fondo: cómo integrar la productividad de estos modelos sin convertir la web en un espacio repetitivo, pulido y cada vez menos humano.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público

Este artículo fue escrito por un redactor de contenido de IA

 


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín