Por Canuto  

Netflix presentó VOID, un modelo de visión-lenguaje capaz de eliminar objetos de un video y reconstruir el comportamiento del resto de la escena de forma físicamente plausible. La propuesta apunta a reducir la necesidad de regrabaciones o efectos tradicionales, y ya fue liberada públicamente para su uso.

***

  • VOID significa Video Object and Interaction Deletion y fue diseñado para borrar objetos de escenas complejas sin romper la lógica visual del entorno.
  • Según sus creadores, el modelo puede transformar un choque frontal en una toma de carretera abierta, eliminando también humo, fuego y escombros.
  • Netflix publicó la herramienta en Hugging Face y afirma que superó a alternativas como Runway en una evaluación con 25 personas.

 


Netflix presentó una nueva herramienta de inteligencia artificial para edición audiovisual llamada VOID, siglas de Video Object and Interaction Deletion. La propuesta se enfoca en una tarea especialmente difícil dentro del video generado o modificado por IA: eliminar objetos de una escena sin afectar de manera poco creíble el comportamiento del resto de los elementos presentes.

En términos simples, la ambición del sistema no es solo borrar algo del encuadre. También busca reconstruir de forma coherente lo que habría ocurrido si ese objeto nunca hubiera estado allí. Ese matiz es importante, porque en video no basta con tapar un elemento. Si ese objeto interactuaba con otros, el entorno completo debe ajustarse.

La fuente original, The Register, explicó el potencial del modelo con un ejemplo cinematográfico: una escena final donde un automóvil choca de frente contra un camión y explota. Con VOID, ese desenlace podría convertirse en una toma donde el vehículo simplemente sigue avanzando por la carretera, sin colisión, sin explosión y sin rehacer la filmación.

Ese enfoque apunta a un problema real para cine, televisión y producción digital. Regrabar una secuencia puede implicar altos costos, retrasos logísticos y limitaciones técnicas. Los efectos por computadora también consumen tiempo y presupuesto. Una herramienta capaz de reescribir material grabado con instrucciones más simples podría modificar de forma significativa ese flujo de trabajo.

Qué hace exactamente VOID

VOID fue descrito por sus autores como un marco de eliminación de objetos en video diseñado para realizar un rellenado físicamente plausible en escenarios complejos. La idea central es que el sistema no solo suprima visualmente un elemento, sino que modele cómo se comportarían los objetos restantes en ausencia de aquello que fue eliminado.

Ese punto marca la diferencia frente a sistemas más básicos de relleno o borrado. Si un choque ocurre entre dos vehículos, por ejemplo, la desaparición de uno de ellos exige recalcular la trayectoria del otro. También requiere corregir el entorno afectado por la colisión, incluyendo humo, llamas, daños en la vía y fragmentos esparcidos.

Según la descripción del trabajo, VOID puede convertir una colisión frontal entre dos vehículos en una escena con un solo automóvil circulando por la carretera. Para ello elimina uno de los vehículos y genera un video donde la trayectoria del automóvil restante resulte físicamente plausible. Luego borra el humo, el fuego, los escombros y cualquier otra huella del impacto.

Otro ejemplo citado por los autores es el de una persona que salta a una piscina y salpica agua dentro y fuera de ella. Si esa persona es eliminada del video, VOID puede generar una versión en la que la piscina aparenta no haber sido alterada. Es decir, desaparecen también las salpicaduras y los efectos derivados de la acción removida.

Desde una perspectiva técnica, eso sitúa a VOID dentro del grupo de modelos VLM, o modelos de visión-lenguaje. Estos sistemas combinan comprensión visual con procesamiento de instrucciones o descripciones, algo que en los últimos años ha ganado relevancia tanto en generación de imágenes como en video sintético, edición asistida y automatización creativa.

Autores, publicación y acceso público

El trabajo fue desarrollado por Saman Motamed, afiliado a Netflix y Sofia University; William Harvey, Benjamin Klein, Zhuoning Yuan y Ta-Ying Cheng, de Netflix; y Luc Van Gool, de Sofia University. En el documento técnico, los investigadores sostienen que su enfoque sobresale al modelar dinámicas complejas que pueden derivarse de la eliminación de objetos.

La primera referencia al estudio aparece en el trabajo titulado Video Object and Interaction Deletion, donde sus autores exponen el marco técnico y sus resultados comparativos. A partir de esa publicación, Netflix también puso el modelo a disposición pública en Hugging Face, lo que significa que cualquier persona puede instalarlo y probarlo por su cuenta.

Esa decisión amplía el impacto potencial de la herramienta más allá de las producciones internas de Netflix. En vez de reservar el sistema como una capacidad exclusiva de su pipeline audiovisual, la empresa eligió abrir el acceso al modelo. Eso podría acelerar experimentos en cine independiente, publicidad, creación de contenido digital y herramientas de posproducción basadas en IA.

También introduce preguntas más amplias sobre autenticidad visual, trazabilidad y uso responsable. Cuanto más convincentes se vuelven estos sistemas, más difícil puede resultar distinguir entre una edición correctiva legítima y una alteración significativa de los hechos mostrados en pantalla. Ese debate ya existe en fotografía y video, pero herramientas como VOID lo llevan a un nivel más sofisticado.

Cómo se compara con otras herramientas

Netflix no llega a un terreno vacío. Ya existen varias soluciones capaces de alterar video o eliminar elementos del encuadre. Entre las alternativas mencionadas se encuentran Runway, Generative Omnimatte, DiffuEraser, ROSE, MiniMax-Remover y ProPainter.

Sin embargo, los investigadores afirman que VOID supera de forma sustancial a esas opciones. Para respaldar esa afirmación, citaron una evaluación con 25 personas en múltiples escenarios. En esa comparación, VOID fue preferido el 64,8 por ciento de las veces.

Runway quedó en segundo lugar con un 18,4 por ciento, una diferencia amplia frente al resultado reportado por Netflix. Aunque se trata de una muestra reducida y basada en preferencias humanas, el dato sugiere que el modelo ofrece mejoras visibles en tareas donde la simple eliminación de objetos no resuelve las consecuencias físicas y visuales que deja su ausencia.

La relevancia de ese resultado está en el tipo de escenas evaluadas. No se trata solo de borrar un poste o una persona inmóvil del fondo. El reto aparece cuando la interacción removida altera otros objetos, superficies, líquidos o trayectorias. Allí es donde los autores sostienen que su sistema logra ventajas frente a líneas base de rellenado y modelos de video guiados por texto.

En el documento, el equipo afirma que, a través de evaluaciones exhaustivas sobre datos sintéticos y del mundo real, demostraron que VOID destaca en el modelado de dinámicas complejas derivadas de la eliminación de objetos. Esa es, precisamente, la clase de problema que más limita hoy a muchas herramientas generativas de edición audiovisual.

El trasfondo y las dudas que deja esta tecnología

Para un público que sigue de cerca la inteligencia artificial, el anuncio de Netflix encaja en una tendencia más amplia. Grandes plataformas tecnológicas y empresas de medios compiten por desarrollar herramientas que reduzcan costos de producción, aceleren flujos de trabajo y permitan iterar escenas con menos fricción. La edición de video asistida por IA es una de las fronteras más disputadas de esa carrera.

En ese contexto, VOID podría resultar atractivo para estudios, creadores y equipos de posproducción. Cambiar una escena sin volver al set, sin reconstruir decorados y sin desplegar un proceso completo de efectos visuales representa una promesa de eficiencia difícil de ignorar. Al mismo tiempo, la facilidad para modificar secuencias complejas puede alterar la relación entre registro y realidad.

La propia cobertura de The Register cerró con una observación incisiva: otra pregunta es si el mundo realmente necesita más manipulación de video convincente. Esa inquietud no invalida la innovación técnica, pero sí obliga a mirar más allá del rendimiento del modelo y considerar su impacto social, cultural y periodístico.

Por ahora, lo concreto es que Netflix ya no solo distribuye producciones audiovisuales. También desarrolla herramientas capaces de reescribirlas a nivel estructural. Y con VOID, la compañía se suma de manera explícita a una nueva etapa de la IA generativa, donde editar un video podría significar no solo retocar una imagen, sino cambiar la lógica completa de lo que ocurrió dentro de ella.


Imagen de Unsplash

Este artículo fue escrito por un redactor de contenido de IA

 


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín