Dentro de la carrera clandestina de las Big Tech para comprar datos de entrenamiento de IA Por Reuters

Por Katie Paul y Anna Tong

NUEVA YORK (Reuters) – En su apogeo a principios de la década de 2000, Photobucket era el principal sitio de alojamiento de imágenes del mundo. La columna vertebral de los medios de servicios que alguna vez fueron populares como Myspace y Friendster, contaba con 70 millones de usuarios y representaba casi la mitad del mercado fotográfico en línea de Estados Unidos.

Hoy en día, sólo 2 millones de personas siguen utilizando Photobucket, según el rastreador de análisis Similarweb (NYSE:). Pero la revolución de la IA generativa puede darle una nueva vida.

El director ejecutivo, Ted Leonard, que dirige la empresa de 40 personas con sede en Edwards, Colorado, dijo a Reuters que está en conversaciones con varias empresas de tecnología para licenciar los 13 mil millones de fotos y videos de Photobucket para usarlos en el entrenamiento de modelos generativos de inteligencia artificial que puedan producir nuevos contenidos en respuesta. a mensajes de texto.

Ha discutido tarifas de entre 5 centavos y 1 dólar por foto y más de 1 dólar por video, dijo, con precios que varían ampliamente tanto según el comprador como los tipos de imágenes buscadas.

“Hemos hablado con empresas que han dicho: 'necesitamos mucho más', añadió Leonard, y un comprador le dijo que quería más de mil millones de vídeos, más de los que tiene su plataforma.

“Te rascas la cabeza y dices, ¿de dónde sacas eso?”

Photobucket se negó a identificar a sus posibles compradores, alegando confidencialidad comercial. Las negociaciones en curso, que no se han informado anteriormente, sugieren que la compañía podría tener contenido por valor de miles de millones de dólares y dar una idea de un bullicioso mercado de datos que está surgiendo con la prisa por dominar la tecnología de IA generativa.

Gigantes tecnológicos como Google (NASDAQ :), Meta (NASDAQ y OpenAI, respaldado por Microsoft, inicialmente utilizaron grandes cantidades de datos extraídos de Internet de forma gratuita para entrenar modelos de IA generativa como ChatGPT que pueden imitar la creatividad humana. Han dicho que hacerlo es tanto legal como ético, aunque enfrentan demandas de una serie de titulares de derechos de autor por esta práctica.

Al mismo tiempo, estas empresas de tecnología también están pagando silenciosamente por contenido bloqueado detrás de muros de pago y pantallas de inicio de sesión, dando lugar a un comercio oculto de todo, desde registros de chat hasta fotos personales olvidadas hace mucho tiempo de aplicaciones de redes sociales descoloridas.

“En este momento hay prisa por buscar titulares de derechos de autor que tengan colecciones privadas de material que no está disponible para ser eliminado”, dijo Edward Klaris, del bufete de abogados Klaris Law, que dice que está asesorando a propietarios de contenido en acuerdos por valor de decenas de millones de dólares. cada uno para licenciar archivos de fotografías, películas y libros para el entrenamiento de IA.

Reuters habló con más de 30 personas con conocimiento de los acuerdos de datos de IA, incluidos ejecutivos actuales y anteriores de las empresas involucradas, abogados y consultores, para brindar la primera exploración en profundidad de este incipiente mercado, detallando los tipos de contenido que se compran, los precios. materializándose, además de preocupaciones emergentes sobre el riesgo de que los datos personales lleguen a los modelos de IA sin el conocimiento o el consentimiento explícito de las personas.

OpenAI, Google, Meta, Microsoft (NASDAQ:), Apple (NASDAQ:) y amazon (NASDAQ:) se negaron a comentar sobre acuerdos y discusiones de datos específicos para este artículo, aunque Microsoft y Google remitieron a Reuters a códigos de conducta de proveedores que incluyen disposiciones sobre privacidad de datos.

Google añadió que “tomaría medidas inmediatas, que podrían incluir la rescisión” de su acuerdo con un proveedor si descubriera una infracción.

Muchas importantes empresas de investigación de mercado dicen que ni siquiera han comenzado a estimar el tamaño del opaco mercado de datos de IA, donde las empresas a menudo no revelan los acuerdos. Los investigadores que lo hacen, como Business Research Insights, estiman que el mercado asciende actualmente a aproximadamente 2.500 millones de dólares y pronostican que podría crecer cerca de 30.000 millones de dólares dentro de una década.

DATOS GENERATIVOS FIEBRE DEL ORO

La apropiación de datos se produce cuando los creadores de grandes modelos “fundamentales” de IA generativa se enfrentan a una presión cada vez mayor para dar cuenta de las enormes cantidades de contenido que introducen en sus sistemas, un proceso conocido como “entrenamiento” que requiere una potencia informática intensiva y que a menudo tarda meses en completarse. .

Las empresas de tecnología dicen que la tecnología tendría un costo prohibitivo si no pudieran utilizar grandes archivos de datos de páginas web extraídos de forma gratuita, como los proporcionados por el repositorio sin fines de lucro Common Crawl, que describen como “disponibles públicamente”.

No obstante, su enfoque ha provocado una ola de demandas por derechos de autor y tensiones regulatorias, al tiempo que ha llevado a los editores a agregar código a sus sitios web para bloquear el scraping.

En respuesta, los fabricantes de modelos de IA han comenzado a cubrir riesgos y asegurar las cadenas de suministro de datos, tanto a través de acuerdos con propietarios de contenidos como a través de una floreciente industria de intermediarios de datos que ha surgido para satisfacer la demanda.

En los meses posteriores al debut de ChatGPT a finales de 2022, por ejemplo, empresas como Meta, Google, amazon y Apple llegaron a acuerdos con proveedores de imágenes de archivo. Shutterstock (NYSE utilizar cientos de millones de imágenes, vídeos y archivos de música en su biblioteca para formación, según una persona familiarizada con los arreglos.

Los acuerdos con las grandes empresas tecnológicas inicialmente oscilaron entre 25 y 50 millones de dólares cada uno, aunque la mayoría se ampliaron posteriormente, dijo a Reuters el director financiero de Shutterstock, Jarrod Yahes. Los actores tecnológicos más pequeños han seguido su ejemplo, provocando una nueva “ráfaga de actividad” en los últimos dos meses, añadió.

Yahes se negó a comentar sobre contratos individuales. El acuerdo con Apple y el tamaño de los otros acuerdos no se han hecho públicos previamente.

Un competidor de Shutterstock, Freepik, dijo a Reuters que había llegado a acuerdos con dos grandes empresas de tecnología para licenciar la mayor parte de su archivo de 200 millones de imágenes a entre 2 y 4 centavos por imagen. Hay cinco acuerdos similares más en tramitación, dijo el director general Joaquín Cuenca Abela, declinando identificar compradores.

OpenAI, uno de los primeros clientes de Shutterstock, también firmó acuerdos de licencia con al menos cuatro organizaciones de noticias, incluidas The Associated Press y Axel Springer. Thomson Reuters (NYSE :), propietario de Reuters News, dijo por separado que había llegado a acuerdos para licenciar contenido de noticias para ayudar a entrenar modelos de lenguaje grandes de IA, pero no reveló detalles.

CONTENIDO 'DE ORIGEN ÉTICA'

También está surgiendo una industria de empresas de datos de inteligencia artificial dedicadas, que garantizan los derechos de contenido del mundo real, como podcasts, videos cortos e interacciones con asistentes digitales, al mismo tiempo que construyen redes de trabajadores contratados a corto plazo para producir imágenes personalizadas y muestras de voz desde cero. , similar a una economía de trabajo tipo Uber para datos.

Defined.ai, con sede en Seattle, otorga licencias de datos a una variedad de empresas, incluidas Google, Meta, Apple, amazon y Microsoft, dijo a Reuters la directora ejecutiva, Daniela Braga.

Las tarifas varían según el comprador y el tipo de contenido, pero Braga dijo que las empresas generalmente están dispuestas a pagar entre 1 y 2 dólares por imagen, entre 2 y 4 dólares por vídeo corto y entre 100 y 300 dólares por hora de películas más largas. La tarifa de mercado para los textos es de 0,001 dólares por palabra, añadió.

Las imágenes de desnudos, que requieren un manejo más delicado, cuestan entre cinco y siete dólares, dijo.

Defined.ai divide esas ganancias con los proveedores de contenido, dijo Braga. Comercializa sus conjuntos de datos como “de origen ético”, ya que obtiene el consentimiento de las personas cuyos datos utiliza y elimina la información de identificación personal, añadió.

Uno de los proveedores de la empresa, un empresario con sede en Brasil, dijo que paga a los propietarios de las fotografías, podcasts y datos médicos que obtiene entre el 20% y el 30% del monto total del acuerdo.

Las imágenes más caras de su cartera son las que se utilizan para entrenar sistemas de inteligencia artificial que bloquean contenidos como la violencia gráfica prohibida por las empresas de tecnología, dijo el proveedor, que habló con la condición de que no se identificara su empresa, citando sensibilidad comercial.

Para cumplir con esas solicitudes, obtiene imágenes de escenas de crímenes, violencia de conflicto y cirugías -principalmente de policías, fotoperiodistas independientes y estudiantes de medicina, respectivamente- a menudo en lugares de América del Sur y África donde la distribución de imágenes gráficas es más común, dijo.

Dijo que ha recibido imágenes de fotógrafos independientes en Gaza desde el inicio de la guerra en octubre, además de algunas de Israel al comienzo de las hostilidades.

Su empresa contrata enfermeras acostumbradas a ver lesiones violentas para anonimizar y anotar las imágenes, que resultan perturbadoras para los ojos inexpertos, añadió.

'ME ENCONTRARÍA RIESGOSO'

Si bien la concesión de licencias podría resolver algunos problemas legales y éticos, resucitar los archivos de viejos nombres de Internet como Photobucket como combustible para los últimos modelos de IA plantea otros, particularmente en torno a la privacidad del usuario, según muchos de los actores de la industria entrevistados.

Se ha sorprendido a los sistemas de inteligencia artificial regurgitando copias exactas de sus datos de entrenamiento, escupiendo, por ejemplo, la marca de agua de Getty Images, párrafos textuales de artículos del New York Times e imágenes de personas reales. Eso significa que las fotos privadas o los pensamientos íntimos de una persona publicados hace décadas podrían terminar en resultados generativos de IA sin previo aviso o consentimiento explícito.

Leonard, director ejecutivo de Photobucket, dice que tiene una base legal sólida, citando una actualización de los términos de servicio de la compañía en octubre que le otorga el “derecho irrestricto” de vender cualquier contenido subido con el fin de entrenar sistemas de inteligencia artificial. Considera que los datos de licencias son una alternativa a la venta de anuncios.

“Necesitamos pagar nuestras facturas y esto podría darnos la capacidad de continuar brindando soporte a cuentas gratuitas”, dijo.

Braga, de Defined.ai, dijo que evita adquirir contenido de empresas de “plataformas” como Photobucket y prefiere obtener fotografías de redes sociales de personas influyentes que las crean, quienes, según ella, tienen un derecho más claro a los derechos de licencia.

“Lo encontraría muy arriesgado”, dijo Braga sobre el contenido de la plataforma. “Si hay alguna IA que genera algo que se parece a una imagen de alguien que nunca aprobó eso, eso es un problema”.

Photobucket no es la única plataforma que adopta la concesión de licencias. La empresa matriz de Tumblr, Automattic, dijo el mes pasado que estaba compartiendo contenido con “compañías selectas de inteligencia artificial”. En febrero, Reuters informó que Reddit llegó a un acuerdo con Google para que su contenido estuviera disponible para entrenar los modelos de inteligencia artificial de este último.

Antes de su oferta pública inicial en marzo, Reddit reveló que su negocio de licencias de datos es objeto de una investigación de la Comisión Federal de Comercio de EE. UU. y reconoció que podría infringir la evolución de las regulaciones de privacidad y propiedad intelectual.

La FTC, que advirtió a las empresas en febrero contra el cambio retroactivo de los términos de servicio para el uso de IA, se negó a comentar sobre la investigación de Reddit o decir si estaba investigando otros acuerdos de datos de capacitación.

!function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version=’2.0′;n.queue=();t=b.createElement(e);t.async=!0;t.src=v;s=b.getElementsByTagName(e)(0);s.parentNode.insertBefore(t,s)}(window, document,’script’,’https://connect.facebook.net/en_US/fbevents.js’);

Dentro de la carrera clandestina de las Big Tech para comprar datos de entrenamiento de IA Por Reuters

Technical Terrence Team

MVL mobility ecosystem concludes electric vehicle RWA pilot project

Leave a Reply Cancel reply

Recommended.

What happens when “play” is left out of the school curriculum?

The best meme coins to buy now for mass profits in 2025

Saudi Arabia stock markets close higher; Tadawul All Shares Up 0.20% By Investing.com

Spotify founder helped develop AI-powered body health scanner

Major retailers make key changes to combat retail theft

Categories

Important Links

Dentro de la carrera clandestina de las Big Tech para comprar datos de entrenamiento de IA Por Reuters

Related

Technical Terrence Team

MVL mobility ecosystem concludes electric vehicle RWA pilot project

Leave a Reply Cancel reply

Recommended.

What happens when “play” is left out of the school curriculum?

The best meme coins to buy now for mass profits in 2025

Saudi Arabia stock markets close higher; Tadawul All Shares Up 0.20% By Investing.com

Spotify founder helped develop AI-powered body health scanner

Major retailers make key changes to combat retail theft

Categories

Important Links

Get daily news updates to your inbox!