Internet

Vana planea permitir a los usuarios alquilar sus datos de Reddit para entrenar IA

American Timesis Thursday, May 30 2024

En el auge de la IA generativa, los datos son el nuevo petróleo. Entonces, ¿por qué no deberías poder vender los tuyos?

Desde las grandes empresas tecnológicas hasta las startups, los creadores de IA están licenciando libros electrónicos, imágenes, videos, audio y más de intermediarios de datos, todo en busca de entrenar productos impulsados por IA más capaces (y más legalmente defendibles). Shutterstock tiene acuerdos con Meta, Google, Amazon y Apple para suministrar millones de imágenes para el entrenamiento de modelos, mientras que OpenAI ha firmado acuerdos con varias organizaciones de noticias para entrenar sus modelos en archivos de noticias.

En muchos casos, los creadores individuales y propietarios de esos datos no han visto ni un centavo del dinero que cambia de manos. Una startup llamada Vana quiere cambiar eso.

Con Vana, Kazlauskas y Abal se propusieron construir una plataforma que permitiera a los usuarios "agrupar" sus datos, incluidas conversaciones, grabaciones de voz y fotos, en conjuntos de datos que luego se pueden usar para el entrenamiento de modelos de IA generativa. También quieren crear experiencias más personalizadas, como un correo de voz motivacional diario basado en tus objetivos de bienestar, o una aplicación que genera arte que comprende tus preferencias de estilo, ajustando los modelos públicos en esos datos.

Al crear una cuenta con Vana es bastante simple. Después de confirmar tu correo electrónico, puedes adjuntar datos a un avatar digital (por ejemplo, selfies, una descripción de ti mismo y grabaciones de voz) y explorar aplicaciones construidas usando la plataforma y conjuntos de datos de Vana. La selección de aplicaciones va desde chatbots estilo ChatGPT e libros interactivos hasta un generador de perfiles de Hinge.

Ahora, ¿por qué, podrías preguntar, en esta era de mayor conciencia sobre la privacidad de los datos y ataques de ransomware, alguien se ofrecería voluntariamente para ofrecer su información personal a una startup anónima, mucho menos una respaldada por capital de riesgo? (Vana ha recaudado $20 millones hasta la fecha de Paradigm, Polychain Capital y otros patrocinadores.) ¿Realmente se puede confiar en que una empresa impulsada por el lucro no abusará o maltratará cualquier dato monetizable que llegue a sus manos?

En respuesta a esa pregunta, Kazlauskas enfatizó que el objetivo de Vana es que los usuarios "reclamen el control sobre sus datos", señalando que los usuarios de Vana tienen la opción de alojar sus datos ellos mismos en lugar de almacenarlos en los servidores de Vana y controlar cómo se comparte su datos con aplicaciones y desarrolladores. También argumentó que, como Vana gana dinero cobrando a los usuarios una suscripción mensual (a partir de $3.99) y gravando una tarifa de "transacción de datos" a los desarrolladores (por ejemplo, por la transferencia de conjuntos de datos para el entrenamiento de modelos de IA), la empresa no tiene incentivos para explotar a los usuarios y los tesoros de datos personales que traen consigo.

"Queremos crear modelos de propiedad y gobernados por los usuarios que contribuyan todos sus datos", dijo Kazlauskas, "y permitir a los usuarios llevar sus datos y modelos con ellos a cualquier aplicación."

Ahora, si bien Vana no está vendiendo los datos de los usuarios a empresas para el entrenamiento de modelos de IA generativa (o eso afirma), quiere permitir a los usuarios hacerlo ellos mismos si así lo desean, comenzando con sus publicaciones en Reddit.

Este mes, Vana lanzó lo que llama la Organización Autónoma Digital de Datos de Reddit (DAO), un programa que combina los datos de varios usuarios de Reddit (incluido su karma y su historial de publicaciones) y les permite decidir juntos cómo se utiliza esos datos combinados. Al unirse con una cuenta de Reddit, enviar una solicitud a Reddit para sus datos y cargar esos datos en el DAO, los usuarios obtienen el derecho a votar junto con otros miembros del DAO sobre decisiones como la licencia de los datos combinados a empresas de IA generativa para obtener un beneficio compartido.

Es una especie de respuesta a los movimientos recientes de Reddit para comercializar datos en su plataforma.

Reddit anteriormente no restringía el acceso a publicaciones y comunidades con fines de entrenamiento de IA generativa. Pero revirtió su decisión a finales del año pasado, antes de su salida a bolsa. Desde el cambio de política, Reddit ha recaudado más de $203 millones en tarifas de licencia de empresas, incluida Google.

"La idea general [con el DAO] es liberar los datos de los usuarios de las principales plataformas que buscan acapararlos y monetizarlos", dijo Kazlauskas. "Esto es algo nuevo y es parte de nuestro impulso para ayudar a las personas a agrupar sus datos en conjuntos de datos de propiedad de los usuarios para el entrenamiento de modelos de IA".

No sorprende que Reddit, que no está trabajando con Vana en ningún capacidad oficial, no esté satisfecho con el DAO.

Reddit prohibió el subreddit de Vana dedicado a la discusión sobre el DAO. Y un portavoz de Reddit acusó a Vana de "explotar" su sistema de exportación de datos, que está diseñado para cumplir con regulaciones de privacidad de datos como el GDPR y la Ley de Privacidad del Consumidor de California.

"Nuestros acuerdos de datos nos permiten establecer límites para tales entidades, incluso en información pública", dijo el portavoz a TechCrunch. "Reddit no comparte datos personales no públicos con empresas comerciales, y cuando los usuarios de Reddit solicitan una exportación de sus datos, reciben de vuelta datos personales no públicos de nosotros de acuerdo con las leyes aplicables. Las asociaciones directas entre Reddit y organizaciones verificadas, con términos claros y responsabilidad, son importantes, y estas asociaciones y acuerdos evitan el uso indebido y abuso de los datos de las personas."

¿Pero tiene Reddit alguna razón real para estar preocupado?

Kazlauskas visualiza que el DAO crezca hasta el punto en que afecte la cantidad que Reddit puede cobrar a los clientes por sus datos. Eso está muy lejos, suponiendo que alguna vez suceda; el DAO tiene poco más de 141,000 miembros, una pequeña fracción de la base de usuarios de 73 millones de Reddit. Y algunos de esos miembros podrían ser bots o cuentas duplicadas.

Luego está la cuestión de cómo distribuir de manera justa los pagos que el DAO pueda recibir de los compradores de datos.

Actualmente, el DAO otorga "tokens" — criptomonedas — a los usuarios correspondientes a su karma de Reddit. Pero el karma podría no ser la mejor medida de contribuciones de calidad al conjunto de datos — especialmente en comunidades de Reddit más pequeñas con menos oportunidades para ganarlo.

Kazlauskas sugiere la idea de que los miembros del DAO podrían optar por compartir sus datos cruzados de plataforma y demográficos, lo que haría que el DAO fuera potencialmente más valioso e incentivaría las inscripciones. Pero eso también requeriría que los usuarios confíen aún más en Vana para tratar sus datos sensibles de manera responsable.

Personalmente, no veo que el DAO de Vana alcance la masa crítica. Los obstáculos que se interponen en el camino son demasiados. Sin embargo, creo que no será el último intento popular de afirmar el control sobre los datos que se utilizan cada vez más para entrenar modelos de IA generativa.

Startups como Spawning están trabajando en formas de permitir a los creadores imponer reglas que guíen cómo se utilizan sus datos para el entrenamiento, mientras que proveedores como Getty Images, Shutterstock y Adobe continúan experimentando con esquemas de compensación. Pero nadie ha resuelto el enigma aún. ¿Se puede resolver? Dada la naturaleza despiadada de la industria de IA generativa, ciertamente es una tarea difícil. Pero tal vez alguien encuentre una manera — o los encargados de formular políticas obliguen a hacerlo.

American Timesis 3 weeks ago