Por Canuto  

Una auditoría académica sobre detectores de imágenes generadas por IA sin entrenamiento encontró que pequeños cambios técnicos pueden alterar de forma drástica los resultados, incluso hasta volver algunos métodos peores que el azar en ciertas familias de modelos.
***

  • El estudio auditó tres enfoques sobre un banco de 1.500 imágenes derivado de GenImage, incluyendo siete generadores y pruebas con compresión JPEG.
  • Cambios de backbone, resolución de preprocesamiento y nivel de ruido movieron el AUROC hasta en 0,38 por generador y +0,085 a nivel global.
  • Los autores concluyen que la robustez reportada por muchos detectores puede estar inflada por sesgos de formato y por supuestos frágiles sobre la dirección de la puntuación.

 


La detección de imágenes generadas por inteligencia artificial se ha vuelto un tema central para seguridad digital, verificación de contenido y forensia visual. Sin embargo, una nueva auditoría sugiere que varios métodos promocionados como robustos y listos para despliegue podrían ser mucho más frágiles de lo que aparentan.

El trabajo, titulado How Fragile Are Training-Free AI-Generated Image Detectors? A Controlled Audit of Score Direction, Preprocessing, and Compression, fue elaborado por Jingwen Zhou y Mingzhe Wang, de Xidian University en Xi’an, China. Su objetivo no fue presentar otro detector, sino someter a prueba bajo un mismo protocolo varias señales de detección “training-free”, es decir, sin entrenamiento específico de un clasificador.

Ese enfoque resulta atractivo porque promete generalizar mejor frente a modelos desconocidos. En vez de entrenar una red con pares de imágenes reales y falsas, el sistema calcula una puntuación con modelos congelados y decide si la imagen luce más compatible con una fotografía real o con una salida sintética.

Pero la auditoría revela tres alertas principales. Los números finales cambian de forma fuerte con detalles de implementación, la dirección de algunas puntuaciones depende de hiperparámetros y la compresión JPEG puede inflar artificialmente la supuesta robustez si el conjunto de datos arrastra sesgos de formato.

Para un público acostumbrado a debatir la confiabilidad de modelos en IA, la conclusión es incómoda pero importante. Un detector que luce competitivo en una tabla agregada puede fallar con una familia concreta de generadores, y en algunos casos incluso clasificar peor que si eligiera al azar.

Cómo se hizo la auditoría y qué métodos fueron comparados

Los autores construyeron un benchmark controlado con 1.500 imágenes tomadas de una reempaquetación de GenImage. El conjunto incluyó 800 imágenes reales de ImageNet y 700 falsas, con 100 imágenes por cada uno de siete generadores.

Los modelos evaluados fueron ADM, BigGAN, GLIDE, Midjourney, SD1.5, VQDM y Wukong. Todas las pruebas se ejecutaron con una semilla fija de 42, usando AUROC sin umbral y tratando a las imágenes falsas como clase positiva.

La robustez frente a compresión se midió re-codificando cada imagen a JPEG con calidad 70 y 50. Además, los experimentos corrieron en una sola GPU A100 y ningún componente fue entrenado ni afinado sobre los datos de evaluación.

El primer método auditado fue un puntaje de reconstrucción tipo AEROBLADE. Allí cada imagen se codifica y decodifica con el VAE de Stable Diffusion, específicamente sd-vae-ft-mse, y luego se calcula una distancia perceptual LPIPS entre la imagen original y la reconstruida.

El segundo fue un puntaje tipo RIGID basado en sensibilidad a perturbaciones. En ese esquema se compara la similitud coseno entre embeddings DINOv2-base de una imagen original y de la misma imagen con ruido gaussiano agregado.

El tercer método fue un control más simple. Cada imagen recibió una puntuación según su distancia coseno media a sus 5 vecinos más cercanos dentro de un conjunto separado de 1.000 imágenes reales, también usando características DINOv2.

La idea del control era importante. Si un método complejo no supera con claridad una aproximación ingenua basada en cercanía a imágenes reales, entonces su ventaja práctica se vuelve difícil de defender.

Los resultados cambian con un solo detalle técnico

Una de las conclusiones más fuertes del estudio es que la implementación pesa casi tanto como el método. Solo cambiar el backbone de LPIPS de AlexNet a VGG-16 movió el AUROC global limpio de 0,740 a 0,825.

Ese salto de +0,085 no es menor. En muchos artículos, una diferencia así bastaría para afirmar que un método supera ampliamente a otro, pero aquí surge de una modificación de una sola línea en la implementación.

El preprocesamiento también alteró con fuerza los resultados. Los autores compararon una política de redimensionar al lado corto 512 y recortar al centro contra otra política de usar resolución nativa con recorte al centro, ajustada a múltiplos de 16 y limitada a 512.

Con el score de reconstrucción basado en AlexNet, la tendencia frente a compresión incluso cambió de signo. Bajo resize-512, el AUROC pasó de 0,740 en limpio a 0,762 en JPEG-50, mientras que con resolución nativa cayó de 0,735 a 0,693.

La lectura es directa. Dos trabajos que reporten la misma familia de detector, pero con políticas distintas de recorte o resolución, podrían llegar a conclusiones incompatibles y aun así parecer comparables sobre el papel.

El control kNN apenas rondó 0,56 de AUROC en todas las condiciones. Eso sugiere que tanto el score de reconstrucción como el de perturbación sí capturan una señal útil, aunque no necesariamente una señal robusta ni estable entre generadores.

La fusión ingenua de puntuaciones tampoco resolvió el problema. La combinación por z-score del score AlexNet resize-512 con RIGID alcanzó 0,762 en limpio, apenas por encima del primero y todavía por debajo del mejor detector individual con VGG-16.

Cuando la dirección del detector se invierte y clasifica al revés

El hallazgo más inquietante del trabajo aparece en el método tipo RIGID. Este enfoque parte de la idea de que las imágenes reales son más robustas al ruido y por eso deberían mantener mayor similitud de embeddings que las falsas.

La auditoría muestra que esa suposición no es universal. A nivel de ruido σ = 0,05, las imágenes generadas por SD1.5 y Wukong produjeron AUROC por debajo de 0,5, lo que significa que el método estaba ordenando esas muestras en la dirección incorrecta.

En concreto, con características finales, SD1.5 marcó 0,405 y Wukong 0,444. En otras palabras, el detector se volvía peor que el azar para esas familias, aun sin un cambio clásico de distribución en el conjunto evaluado.

Al reducir el ruido a σ = 0,01, la dirección supuesta se restauró para los siete generadores y para ambas profundidades de características. Ese ajuste también entregó el mejor rendimiento global, con AUROC total de 0,793 usando la capa final.

El problema se agravó al subir el ruido. Con σ = 0,3 y capa final, el AUROC global cayó a 0,361 y seis de los siete generadores quedaron invertidos, mientras SD1.5 se desplomó hasta 0,149.

La profundidad de la característica también importó. Para VQDM en σ = 0,05, la capa intermedia arrojó 0,480, por debajo del azar, mientras la capa final subió a 0,831.

Los autores revisaron que este efecto no se debiera a un error trivial de signo o etiquetado. Según el estudio, la inversión se observó directamente en las similitudes coseno promedio antes de calcular AUROC, y además se reprodujo en corridas independientes con correlación de Pearson de 0,989 sobre las 1.500 imágenes.

Ese detalle refuerza la gravedad del hallazgo. No se trató de un bug superficial, sino de una propiedad real y dependiente de σ en imágenes de la familia Stable Diffusion bajo embeddings DINOv2.

Los generadores no fallan igual y eso complica cualquier ranking simple

La auditoría también dejó claro que no existe un único detector ganador para todos los generadores. Los métodos de reconstrucción y perturbación fallaron en conjuntos casi complementarios.

El score tipo RIGID fue especialmente fuerte en ADM, BigGAN y VQDM. En condición limpia y con σ = 0,05, capa final, esos generadores registraron 0,815, 0,933 y 0,831, respectivamente.

En cambio, los scores de reconstrucción destacaron sobre GLIDE y Midjourney. Con backbone VGG-16 y resize-512, GLIDE alcanzó 0,983 y Midjourney 0,834 en limpio, mientras con resolución nativa Midjourney incluso subió a 0,989.

Los saltos por preprocesamiento fueron extremos en algunos casos. BigGAN cambió 0,38 de AUROC bajo VGG, al pasar de 0,911 con resize-512 a 0,528 con resolución nativa.

Midjourney mostró el patrón opuesto. Con el mismo backbone VGG, pasó de 0,834 a 0,989 según la política de preprocesamiento, una oscilación de 0,155.

Eso implica que un ranking por generador calculado bajo una política puede no sobrevivir cuando se usa otra. Para investigadores y empresas, la advertencia es clara: un número agregado oculta comportamientos muy distintos según el tipo de generador que deba vigilarse.

Los autores sostienen que el AUROC agrupado se vuelve casi engañoso en este contexto. El RIGID global de 0,692, por ejemplo, mezcla celdas individuales que van desde 0,408 hasta 0,931.

El sesgo de formato infla la supuesta robustez frente a JPEG

Otro punto central del estudio fue el sesgo de procedencia de archivos. En GenImage, las imágenes reales provenían de fuentes JPEG, mientras las falsas estaban en PNG, un desbalance que ya había sido señalado en trabajos previos.

Ese detalle puede distorsionar pruebas de robustez. Si se comprimen ambas clases a JPEG, las imágenes reales pueden sufrir menos porque ya venían de una historia de compresión similar, mientras las falsas parten de un formato distinto.

Para corregirlo, Zhou y Wang re-codificaron primero todas las imágenes a JPEG con calidad 95. A partir de ese estado homogéneo, aplicaron luego las degradaciones a calidad 70 y 50.

Tras esa corrección, el score de reconstrucción con VGG volvió a mostrar una degradación monotónica más intuitiva. Su AUROC pasó de 0,835 en q95 a 0,790 en JPEG-70 y a 0,775 en JPEG-50.

En AlexNet persistió una ligera mejora aparente bajo compresión. Sin embargo, el aumento se redujo a +0,011 y quedó localizado casi por completo en BigGAN, que pasó de 0,879 en q95 a 0,979 en JPEG-50.

Los autores atribuyen esa anomalía residual a la interacción patológica entre la recompresión y las imágenes de baja resolución reescaladas de BigGAN. En contraste, el score RIGID casi no se movió para BigGAN, de 0,901 a 0,912.

La corrección de sesgo apenas alteró los niveles base limpios. Del pipeline original a q95, el AUROC cambió +0,009 en AlexNet, +0,009 en VGG, -0,010 en RIGID y prácticamente 0,000 en kNN.

Lo que realmente cambió fue la narrativa de robustez. El efecto JPEG que parecía ayudar al detector era, en gran medida, un artefacto del dataset y no una virtud del método.

Por qué importa este estudio para la industria de IA y qué recomiendan los autores

La discusión del paper sugiere que distintos generadores dejan huellas distintas. Los modelos como ADM, BigGAN y VQDM parecen más vulnerables en el esquema de perturbación, mientras los modelos de la familia Stable Diffusion muestran una suavidad local que puede volverlos más robustos al ruido en el espacio de embeddings.

En los scores de reconstrucción, la historia es diferente. GLIDE y Midjourney fueron los más fáciles de separar, mientras ADM y VQDM quedaron entre los más débiles, y SD1.5 no resultó particularmente sencillo de detectar pese a compartir familia de autoencoder con la herramienta de puntuación.

La fusión simple de señales tampoco ofreció una salida clara. En el pipeline corregido, la combinación z-score de los cuatro puntajes logró 0,782 en q95, 0,757 en JPEG-70 y 0,753 en JPEG-50, sin superar al mejor score individual.

Incluso la mejor pareja, VGG más RIGID, llegó a 0,829 en q95, 0,783 en JPEG-70 y 0,772 en JPEG-50. Según los autores, la razón es que sumar una señal cuya dirección se invierte en algunas familias termina arrastrando el resultado final.

Por eso, el estudio propone estándares mínimos de reporte. Entre ellos figuran informar resultados por generador, validar explícitamente el signo o dirección de cada score antes del despliegue, aplicar re-codificación controlada por procedencia y publicar suficientes desgloses por condición experimental.

También hay límites importantes. La auditoría cubrió una sola familia de benchmark, siete generadores, dos niveles de compresión y tres familias de scores sobre una muestra moderada de 1.500 imágenes.

No se probaron otras corrupciones como reescalado, desenfoque, pipelines de redes sociales o posprocesamiento adversarial. Tampoco se estudió la calibración de umbrales para despliegue, ya que toda la evaluación se centró en AUROC libre de umbral.

Aun con esas reservas, el mensaje general es contundente. En un área donde las promesas de detección universal se multiplican, esta auditoría recuerda que pequeños detalles técnicos pueden decidir si un sistema parece sólido, mediocre o peligrosamente errado.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín