Por Canuto  

GitHub, propiedad de Microsoft, comenzará a usar las interacciones con Copilot como datos de entrenamiento para sus modelos de inteligencia artificial en cuentas personales gratuitas y de pago, aunque los usuarios aún pueden desactivar esa opción desde la configuración de privacidad.
***

  • GitHub utilizará entradas, salidas, fragmentos de código, comentarios, documentación, nombres de archivos y estructura de repositorios para entrenar y mejorar sus modelos de IA.
  • La medida aplica a usuarios de Copilot Free, Copilot Pro y Copilot Pro+, pero no a Copilot Business ni Copilot Enterprise.
  • La recopilación puede desactivarse desde la sección de privacidad en la configuración de funciones de Copilot de cada cuenta de GitHub.

GitHub anunció que comenzará a utilizar las interacciones con GitHub Copilot para “entrenar y mejorar nuestros modelos de IA”. La decisión incorpora una nueva fuente de datos para el desarrollo de sus sistemas de inteligencia artificial, en un momento en que los asistentes generativos ganan peso dentro del trabajo cotidiano de los desarrolladores.

La novedad afecta a quienes usan funciones de Copilot en Visual Studio Code, el sitio web de GitHub, la herramienta Copilot CLI y otros servicios vinculados al asistente. En la práctica, eso significa que preguntas, respuestas, sugerencias de código y otros materiales generados o enviados por el usuario podrían pasar a formar parte del proceso de entrenamiento, a menos que la persona desactive esa opción.

El cambio no altera nada para quienes nunca hayan usado GitHub Copilot. Sin embargo, para quienes sí lo han utilizado, incluso en tareas puntuales como autocompletado de código o consultas dentro de la plataforma, la medida sí abre una nueva capa de implicaciones sobre privacidad, control de datos y uso posterior del material compartido con el asistente.

El anuncio también resulta relevante porque GitHub pertenece a Microsoft, una de las empresas más activas en el negocio de la IA generativa. El movimiento encaja con una tendencia más amplia de la industria tecnológica, donde las compañías buscan mejorar el rendimiento de sus modelos con datos provenientes del uso real de sus productos.

Qué datos entran en la recolección

De acuerdo con el anuncio, GitHub podrá usar tanto datos de entrada como de salida en las interacciones con Copilot. Eso incluye fragmentos de código, comentarios, documentación, nombres de archivos, estructura de repositorios y otra información asociada al uso del asistente dentro de su ecosistema.

La amplitud de esa lista es importante porque no se limita a simples comandos o preguntas aisladas. En un entorno de desarrollo, los nombres de archivos, la organización del repositorio y la documentación interna pueden ofrecer bastante contexto sobre la arquitectura de un proyecto, sus hábitos de trabajo y la lógica utilizada por un equipo o desarrollador.

GitHub Copilot está integrado en varias superficies de uso. Entre ellas figuran Visual Studio Code, el propio sitio web de GitHub y Copilot CLI, una herramienta que compite con Claude Code. Por eso, la medida no se restringe a un solo canal, sino que alcanza múltiples puntos donde los usuarios interactúan con el asistente de código.

Para lectores menos familiarizados con este mercado, Copilot funciona como un asistente de programación basado en IA capaz de sugerir código, responder preguntas técnicas y asistir con tareas de desarrollo. Ese tipo de sistemas depende de grandes volúmenes de entrenamiento, y la calidad del modelo suele mejorar cuando se alimenta con casos de uso más cercanos a escenarios reales.

A quiénes afecta y a quiénes no

La recopilación automática de datos se aplicará tanto a cuentas gratuitas como a cuentas pagas dentro del segmento personal. Eso incluye a los usuarios de Copilot Free, Copilot Pro y Copilot Pro+.

En cambio, GitHub indicó que la medida no alcanzará a las cuentas Copilot Business ni Copilot Enterprise. Esa distinción marca una diferencia clara entre la oferta orientada a consumidores individuales y la dirigida a organizaciones, donde las exigencias de confidencialidad y cumplimiento suelen ser más estrictas.

El punto puede resultar sensible para desarrolladores independientes, estudiantes y pequeños equipos que pagan por funciones premium, ya que el hecho de abonar una suscripción no los deja automáticamente fuera del esquema de entrenamiento. En este caso, la exclusión no depende del nivel de pago, sino del tipo de plan contratado.

También conviene subrayar que la medida no implica un cambio retroactivo para quienes jamás activaron Copilot. Según la información difundida, el foco está en las interacciones con el asistente. Si una cuenta no usó esas funciones, no habría material nuevo que incorporar por esta vía.

La justificación de GitHub y el contexto previo

GitHub explicó que los modelos iniciales de IA para Copilot se construyeron con una mezcla de datos disponibles públicamente y muestras de código elaboradas manualmente. Ese detalle no es menor, porque desde el lanzamiento de este tipo de herramientas han existido debates sobre el origen de los datos de entrenamiento y los límites del uso de código público para fines comerciales y técnicos.

La empresa también señaló que observó mejoras positivas al incorporar datos de empleados de Microsoft. A partir de esa experiencia, ahora espera que el servicio mejore aún más al usar un volumen mayor de interacciones reales como datos de entrenamiento.

En palabras del propio anuncio, este enfoque “se alinea con las prácticas establecidas de la industria” y buscará mejorar el rendimiento del modelo para todos los usuarios. GitHub sostuvo además que quienes participen ayudarán a que los modelos comprendan mejor los flujos de trabajo de desarrollo, ofrezcan sugerencias de patrones de código más precisas y seguras, y mejoren su capacidad para detectar posibles errores antes de llegar a producción.

Ese argumento refleja una tensión común en la economía de la IA. Por un lado, las compañías prometen herramientas más útiles y precisas. Por otro, ese avance suele depender de mayores volúmenes de datos, lo que lleva a discusiones sobre consentimiento, transparencia y control por parte de los usuarios.

Cómo desactivar el uso de datos para entrenamiento

Quienes no deseen participar en esta recolección pueden desactivar la opción desde la página de funciones de Copilot en la configuración de su cuenta de GitHub. El ajuste se encuentra dentro de la sección de privacidad.

Tras iniciar sesión, el usuario debe buscar la opción “Permitir que GitHub use mis datos para el entrenamiento de modelos de IA” y cambiar el menú desplegable a “Disabled”. Según la información difundida, con ese paso bastará para pausar la recopilación de datos destinada al entrenamiento.

GitHub también advirtió que quienes tengan varias cuentas deben realizar este cambio en cada una de ellas. Eso significa que la preferencia no se aplica de manera universal sobre la identidad de una persona, sino de forma separada en cada perfil registrado dentro de la plataforma.

La noticia fue reportada por How-To Geek, que citó el anuncio del blog oficial de GitHub como fuente primaria. En términos prácticos, el cambio vuelve a poner sobre la mesa una cuestión clave para la industria del software: cuánto valor genera la interacción de los usuarios con herramientas de IA, y bajo qué condiciones ese valor puede ser absorbido por las plataformas que las operan.

Más allá del caso puntual de Copilot, el episodio ilustra una evolución más amplia del mercado tecnológico. Los asistentes de IA ya no solo dependen de corpus públicos o datos etiquetados manualmente. Cada vez más, su mejora se apoya en el comportamiento cotidiano de quienes los usan para trabajar.

Para desarrolladores, empresas y equipos técnicos, eso implica prestar mayor atención a la configuración de privacidad en herramientas que antes podían percibirse como simples asistentes de productividad. La diferencia entre participar o no en ese circuito de entrenamiento puede depender de una opción específica en el panel de ajustes.

En este caso, la decisión de GitHub mantiene un mecanismo de salida voluntaria, pero deja activado por defecto el aprovechamiento de interacciones en buena parte de sus planes personales. En un ecosistema donde el código, la documentación y el contexto del proyecto pueden tener alto valor estratégico, esa configuración seguramente seguirá alimentando el debate.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín