Стартап Vana представил платформу «аренды» данных Reddit для обучения ИИ

Стартап Vana разработал платформу, которая позволит пользователям Reddit «сдавать в аренду» данные для обучения моделей ИИ.

Анна Казлаускас и Арт Абал из Медиа-лаборатории Массачусетского технологического института основали Vana в 2021 году. Первый изучал информатику и экономику в МТИ, а затем запустил финтех-стартап по автоматизации Iambiq. Абал же работал юристом в консалтинговой фирме The Cadmus Group, а затем — в компании по аннотированию данных Appen.

Платформа Vana позволит пользователям «объединять» свои данные — включая чаты, записи речи и фотографии — в наборы, которые затем можно будет использовать для обучения генеративной модели ИИ. Это также позволит создавать более персонализированный опыт — например, приложение для создания произведений искусства, которое понимает стилевые предпочтения пользователей.

API Vana объединяет межплатформенные персональные данные, а приложение получает мгновенный доступ к персонализированной модели искусственного интеллекта или базовым данным пользователя, что упрощает его адаптацию и устраняет проблемы с вычислительными затратами.

Чтобы создать учётную запись в Vana, нужно подтвердить адрес электронной почты, прикрепить данные к цифровому аватару (например, селфи, описание себя и голосовые записи) и изучить приложения, созданные с использованием платформы и наборов данных. Выбор приложений варьируется от чат-ботов в стиле ChatGPT и интерактивных сборников рассказов до генератора профилей Hinge. 

Vana будет брать с пользователей ежемесячную подписку, а стоимость тарифа начинается от $3,99. С разработчиков будут взимать комиссию за «транзакцию данных» (например, за передачу наборов для обучения моделей ИИ).

В этом месяце Vana запустила Reddit Data DAO — программу, которая объединяет данные Reddit нескольких пользователей (включая их карму и историю сообщений) и позволяет им вместе решать, как использовать эти объединённые датасеты. Пользователи получают право голосовать вместе с другими членами DAO при принятии таких решений, как лицензирование объединённых данных компаниям, занимающимся генеративным ИИ, и будут делить между собой прибыль. В DAO насчитывается чуть более 141 тысячи участников, что составляет лишь небольшую часть 73-миллионной пользовательской базы Reddit. В настоящее время Reddit Data выдает «токены» пользователям, которые соответствуют их карме Reddit. 

Reddit ранее не закрывал доступ к данным для обучения ИИ, но в конце прошлого года, перед IPO, компания изменила курс и получила более $203 млн в виде лицензионных сборов от компаний, включая Google.

Теперь Reddit заблокировал сабреддит Vana, посвященный обсуждению DAO. Представитель платформы обвинил стартап в «эксплуатации» своей системы экспорта данных, которая разработана в соответствии с правилами GDPR и Калифорнийского закона о конфиденциальности потребителей.

Ранее стало известно, что разработчик ПО для электронной подписи DocuSign начал применять данные пользователей для обучения моделей искусственного интеллекта. Она  уточнила, что будет спрашивать у пользователей разрешение, прежде чем использовать их данные для такого обучения ИИ. Кроме того, данные будут предварительно обезличивать. 

Источник: habr.com

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии