Даниэль Де Фрейтас (слева) и Ноам Шазир, основатели стартапа Character.ai
Компания Google и стартап Character.ai объявили о сотрудничестве. В рамках достигнутых соглашений Google получит неэксклюзивные права на технологии больших языковых моделей Character.ai, а исполнительный директор стартапа Ноам Шазир и второй сооснователь Даниэль Де Фрейтас начнут работать в подразделении DeepMind. Сама Character.ai собирается продолжать существовать на основе дообучения открытых моделей.
С самых ранних дней Google было очевидно, что компания лишь маскируется под поисковик, а на деле её основная сфера деятельности — искусственный интеллект. Такое мнение высказывает один из абзацев статьи журнала New Yorker от 2018 года. Для иллюстрации приводится пример: в 2001 году один из сотрудников Google Ноам Шазир устал от поведения системы проверки правописания и написал собственную с элементами ИИ.
В те годы Google лицензировала спеллчекер у сторонней компании. Статья не приводит, для чего был нужен этот продукт, но вероятно, что для исправления поисковых запросов с опечатками. Эта система проверки правописания делала глупые ошибки уровня «мультик анальный». В статье New Yorker в пример приводится исправление TurboTax (популярный в США программный пакет для подготовки налоговых деклараций) на turbot ax — грамматические правильные, но не имеющие смысла в этом порядке существительные: рыба тюрбо и топор. Подобные спеллчекеры хороши настолько, насколько богат их словарь.
На тот момент Шазир — молодой инженер, который сидел в одном кабинете с Джеффом Дином и Санджаем Гемаватом. Шазиру пришла мысль, что проиндексированный Веб — самый огромный словарь в истории. Чтобы воспользоваться этим массивом информации, инженер написал программу, которая оценивала статистические свойства текста во Всемирной паутине и определяла, какие слова могли оказаться опечатками. К примеру, pritany spears и brinsley spears — это явно неправильное написание имени популярной в начале 2000-х певицы Britney Spears.
В те годы в корпоративной культуре Google ещё были пятничные встречи TGIF [Thank God It’s Friday, «слава богу, сегодня пятница»]; их заметно переработают лишь в 2019 году. Собственную систему Шазир представил на одной из таких TGIF. Его творение подвергли тесту попытками обмануть, но спеллчекер Шазира не ошибался.
На уровне слухов эта история пересказывается чуть иначе: якобы подобную идею Ноам предложил на собеседовании в Google, а затем инженера взяли, чтобы он реализовал спеллчекер на практике. Точно известно, что Шазир и Дин в дальнейшем применили похожие принципы ИИ, чтобы связать рекламные объявления с контекстом страницы.
Таргетирование рекламы до сих пор приносит основной объём доходов Google. Шазир же покинул Google в октябре 2021 года, а в ноябре вместе с другим бывшим сотрудником Google Даниэлем Де Фрейтасом он основал стартап Character.ai.
Character.ai — это приложение на основе больших языковых моделей (БЯМ) с набором чат-ботов, которые общаются с пользователями. Боты берут на себя роль людей или персонажей, а затем отыгрывают собственное поведение в чате. Создают ботов сами пользователи с помощью текстового описания.
Как Фрейтас, так и Шазир были одними из ключевых исследователей искусственного интеллекта в Google. Достаточно сказать, что имя Ноама стоит под легендарной исследовательской работой «Attention Is All You Need», которая связана с изобретением трансформеров. Даниэль работал над экспериментальным проектом ИИ Meena, который затем перерос в LaMDA. Именно с этой БЯМ связана история, в которой один из инженеров Google заявил о наличии у нейросети сознания.
Активность Ноама Шазира в репозитории проекта Mesh TensorFlow. GitHub
В ноябре 2022 года для всех желающих открылся сервис ChatGPT организации OpenAI и практически сразу обрёл огромную популярность. 100 миллионов пользователей ChatGPT набрал в январе 2023 года, всего за два месяца.
В Google почти сразу была объявлена тревога, начались разбирательства, к работе подключились основатели компании Ларри Пейдж и Сергей Брин. Выяснилось, что у Google была схожая с GPT-3.5 БЯМ LaMDA, но её не запустили в виде сервиса по типу ChatGPT из-за неких репутационных рисков.
К февралю 2023 года у Google была готовая тестовая версия чаб-бота Bard. В марте в очередном раунде инвестиций стартап Character.ai достиг миллиард долларов капитализации. В заявлении для прессы сооснователь стартапа-единорога Фрейтас тогда отвечал на вопросы о конкуренции: хотя два продукта делят пользовательскую базу, Google ничего интересного не произведёт. Даниэль объяснил свою уверенность тем, что уже работал в Google.
Вообще, не известно доподлинно, почему два сотрудника Google уволились и начали свой стартап. Инсайды из СМИ утверждают (archive.is/bNxEQ), будто руководство Google осознанно пресекало попытки создать систему по типу ChatGPT.
Глава материнского холдинга Alphabet и самой Google Сундар Пичаи якобы лично запретил Шазиру и Фрейтасу давать обещания выпустить чат-бота на основе LaMDA. При этом сооснователи Character.ai якобы ещё в 2020 году пытались встроить LaMDA в Google Assistant и экспериментировали с ответами от БЯМ на пользовательские вопросы.
Именно Шазиру принадлежат знаменитые слова «Мы не можем дать ответ, почему эти архитектуры [трансформеры], кажется, эффективны; мы приписываем их успех, как и всё остальное, божественной благосклонности». Подобное он пишет в выводе статьи «GLU Variants Improve Transformer» [arXiv:2002.05202]
Сам Ноам конфликты упоминает крайне расплывчато. К примеру, в одном из интервью на 46-й минуте он лишь в нескольких словах говорит об экспериментах с LaMDA, за которыми последовали разногласия, выход из Google и основание Character.ai.
Дальнейшее развитие чат-ботов Google всё же привело к появлению Gemini. Этот продукт конкурирует с лучшими решениями на рынке: обходит их в синтетических бенчмарках и превосходит по некоторым параметрам. К примеру, ни одна другая БЯМ на рынке не может похвастать двумя миллионами токенов контекстного окна.
Тем не менее завоевать предпочтение пользователей не удалось. Например, обзор платного варианта Gemini Advanced от CNET критикует бота за низкое качество ответов на даже базовые вопросы и плохие способности к анализу информации. Обзор выносит вердикт: $20 в месяц лучше потратить на другой продукт.
Вчера, 2 августа 2024 года, стартап Character.ai объявил о начале партнёрства с Google. В рамках достигнутых соглашений Google получит неэксклюзивные права на технологии БЯМ Character.ai. Стартап получает от поисковой компании финансирование, чтобы, как утверждается, продолжать расти и развивать персонализированные продукты на искусственном интеллекте.
Также Character.ai сообщает, что Ноам Шазир, Даниэль Де Фрейтас и несколько других неназванных членов исследовательской группы стартапа перейдут на работу в Google. В комментарии для издания TechCrunch Шазир ограничился официозным заявлением о том, что рад вернуться в Google и присоединиться к команде подразделения DeepMind. Google не поясняет, в какой роли будут работать Ноам и Даниэль.
Блог Character.ai заверяет, что большинство сотрудников стартапа останутся и продолжат развивать продукт. С момента объявления роль руководителя Character.ai временно занял Доминик Перелла, у которого уже есть опыт руководства Snap Inc.
Как объясняет пост в блоге Character.ai, для первых версий продукта приходилось предобучать и дообучать собственные БЯМ. За последние два года состояние индустрии заметно изменилось, теперь есть много предобученных моделей. Character.ai заявляет, что собирается больше использовать сторонние БЯМ.
В будущем предобучение действительно не будет иметь смысла, а более мелкие игроки сфокусируются на дообучении, дистилляции и прочих техниках доработки моделей под собственные нужды. Такие мнения в ответ на эту новость высказали (1, 2) связанные с индустрией наблюдатели в микроблогах.
Источник: habr.com