Насколько умен «пугающе умный» чат-бот Илона Маска?

xAI представила новую языковую модель Grok 3, которую основатель компании Илон Маск (Elon Musk) назвал «самым умным ИИ на Земле». Создатели чат-бота заявили, что новая версия значительно превосходит прошлую: она работает с большим объёмом обучающих данных, и ей доступны новые механизмы по типу самоисправления. Демоверсия Grok 3 вышла утром, и сразу появились первые отзывы.

Что нового

Ключевое преимущество Grok 3 — доступ к увеличенным вычислительным ресурсам. Чат-бот обучается с помощью суперкомпьютера Colossus: на первых этапах процесса его создатели задействовали 100 000 видеокарт NVIDIA H100, а затем число графических адаптеров удвоили. В будущем вычислительную мощь планируют увеличить ещё в пять раз.

В Grok 3 добавлены встроенные механизмы самоисправления. ИИ анализирует собственные ответы, сравнивает их с эталонами, а затем вносит корректировки. Что любопытно: чат-бот получает «награды» за точные ответы и «штрафы» за так называемые «галлюцинации» — некорректную или выдуманную информацию.

Если верить заявлениям представителей xAI, то Grok 3 смышлёнее других моделей в математических задачах, естественных науках и программировании. Чтобы оценить качество ответов, использовались «слепые» тесты, когда пользователи не знали, какой именно чат-бот отвечает.

Статьи про нейросети

Как нейросеть Sora создаёт видео — конкретные примеры

Редакция VGTimes экспериментирует с возможностями ChatGPT-4o

Нейросеть Heygen переводит русские видеомемы на разные языки. Актеры дубляжа больше не нужны?

Что такое нейросети и кому они нужны? Как установить и настроить Stable Diffusion, как обучить её новым стилям и понятиям. Интервью с основателями сервиса NeuroFox

Редакция VGTimes рисует арты при помощи нейросети — смотрите, что у нас получилось

Runway Gen-3, новая нейросеть для создания видео. Показываем примеры работы и рассказываем, как ей пользоваться

Нейросети на любой случай жизни: для создания видео, редактуры фото, написания текста и записи звука

Аниме-версии Сони Блейд, Йеннифэр, Ады Вонг и других — создали галерею образов при помощи нейросети Loopsie

Как нейросети захватят мир и нужно ли из-за этого переживать

Что умеют и могут нейросети? Рассказываем, как ИИ рисует картины, пишет дипломные работы, сдает экзамены и читает по губам

На презентации Grok 3 также продемонстрировали Deep Search — поисковый агент «следующего поколения», способный быстро находить информацию в Интернете и анализировать её. Похожая функция давно есть и у конкурентов, но xAI заверяет, что Deep Search точнее.

Кроме того, в Grok 3 также скоро добавят голосовой интерфейс, чтобы с чат-ботом можно было общаться как с живым собеседником. Его голос якобы покажется пользователям естественнее и эмоциональнее, чем у аналогов.

Используете ли вы искусственный интеллект для работы или учёбы?

Да, регулярно Да, но только для особо сложных задач Не использую из принципа Хотел бы использовать, но в моей сфере ИИ пока никак не может помочь Проголосовать Результаты Как обстоят дела на практике

Пользователям соцсети X (признана экстремистской и запрещена в РФ) новый чат-бот доступен при условии оформления подписки X Premium+ за $50 в месяц. Ранних отзывов про Grok 3 пока не особо много, но есть несколько любопытных.

Так, пользователь под ником Penny2x рассказал, что сделал с помощью новой версии ИИ целую полноценную игру:

Grok 3 только что вышел. Вы не поверите, но я уже успел создать игру.

(Я получил ранний доступ СЕГОДНЯ УТРОМ).

Эта игра на 100% создана Grok’ом: я лишь сказал ему, что хочу получить, и разместил сгенерированный код в нужном месте.

Я продолжаю просить его вносить изменения, а он снова и снова выдаёт игру в одном файле, который я могу просто поместить на рабочий стол и запустить.

Мир игр меняется навсегда. В последнее время я пробовал работать с ИИ от всех крупных разработчиков, чтобы понять, что мне нравится больше всего, и Grok явно один из лидеров. У меня нет официальных бенчмарков и пока не настроен API, так что это не совсем мой привычный рабочий процесс, но по ощущениям Grok ни в чём не уступает Sonet, 4o или любым другим.

В ближайшие дни я попробую настроить его под свой рабочий процесс в NVIM и заняться реальными задачами.

Это невероятно. Мы живём в будущем, где каждый теперь может стать разработчиком

Но ещё интереснее, что про Grok 3 думает один из сооснователей OpenAI Андрей Карпатый (Andrej Karpathy). Он тоже успел протестировать новую языковую модель. По словам Карпатого, в некоторых вопросах чат-бот не уступает топовым конкурентам:

…Grok 3, судя по всему, использует передовой механизм «мыслительного» процесса (кнопка Think), и сразу «из коробки» отлично справился с заданием по Settlers of Catan:

«Создай веб-страницу настольной игры, на которой отображается гекс-сетка, аналогичная той, что в игре Settlers of Catan. Каждый гекс пронумерован от 1 до N, где N — это общее количество гексов. Сделай её универсальной, чтобы можно было менять число “колец” с помощью ползунка. Например, в Catan радиус равен 3 гексам. Одной HTML-страницы будет достаточно».

Лишь немногие модели стабильно правильно решают такую задачу. Продвинутые «мыслящие» модели от OpenAI (к примеру, o1-pro за $200 в месяц) с этим тоже справляются, а вот DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude нет

Андрей Карпатый также оценил целеустремлённость Grok 3:

Мне нравится, что модель пытается решить гипотезу Римана по запросу, как и DeepSeek-R1, в то время как многие другие модели (o1-pro, Claude, Gemini 2.0 Flash Thinking) просто сдаются сразу и заявляют, что это великая нерешённая проблема. В конце мне пришлось её остановить, потому что я начал испытывать к ней жалость, но она проявила смелость — кто знает, может, когда-нибудь…

Не обошлось, правда, и без недостатков. Вопросы вызвал поисковый агент Deep Search:

…модель, похоже, не любит ссылаться на X в качестве источника по умолчанию (хотя при явном указании она это делает). Пару раз я заметил, что она «галлюцинирует» и придумывает несуществующие URL. Иногда она выдаёт якобы факты, которые, на мой взгляд, неверны, и не указывает на них источников (очевидно, их попросту нет).

Подытоживая, Андрей Карпатый отметил, что по первым впечатлениям Grok 3 приблизился к уровню передовых моделей от OpenAI по типу o1-pro за 200 долларов в месяц и даже слегка превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это с учётом того, что команда начала разработку ИИ с нуля примерно год назад. Темпы впечатляют. Однако необходимо провести более комплексные тесты, прежде чем утверждать, оправдывает ли чат-бот титул «самого умного».

Опасения из-за предвзятости

Не секрет, что Илон Маск принимает активное участие в политической жизни США и открыто выражает свои взгляды. Некоторые пользователи Интернета опасаются, что Grok 3 также будет проталкивать определённые нарративы.

Эти переживания возникли не на пустом месте: Маск поделился скриншотом, на котором чат-бот критикует одно новостное медиа, но при этом хвалит X как самый надёжный источник информации. Это при том, что Grok 3 позиционируется как продукт с минимальной цензурой. Немало людей придерживается мнения, что необходимо избегать подобной предвзятости: ИИ должен быть нейтрален в суждениях.

***

Как бы там ни было, выход ещё одной многообещающей языковой модели — очередное важное событие в непрекращающейся гонке. Чем выше конкуренция, тем быстрее двигается прогресс.

А что про Grok 3 думаете вы? Расскажите в комментариях.

Как вы относитесь к стремительному развитию ИИ?

Позитивно — меня радует появление новых технологий С небольшим опасением: надеюсь, люди будут использовать ИИ только для благих целей Я смотрел «Терминатора», поэтому готовлюсь к худшему Проголосовать Результаты +1 Источник: vgtimes.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”