Модель научилась сама решать, когда ей нужен поиск в интернете, а когда запуск программного кода, и при этом обходится в пять раз дешевле западных аналогов —  пишет « Hi-Tech_Mail.ru ».  

Дарья Арцыбашева

Автор новостей

Qwen 3
Вышла Qwen3-Max-Thinking Источник: qwenlm

Alibaba обновила свою флагманскую модель ИИ — теперь Qwen3-Max-Thinking доступна всем пользователям в чат-боте Qwen Chat и через API. Система показывает результаты, сравнимые с GPT-5.2-Thinking, Claude Opus 4.5 и Gemini 3 Pro, а в некоторых тестах даже опережает их.

Главная фишка обновления — автоматический выбор инструментов. Раньше пользователю приходилось вручную указывать, нужен ли модели доступ к интернету или возможность запускать код. Теперь система сама определяет, какой инструмент поможет решить задачу. Например, если вопрос требует свежих данных, она подключит веб-поиск. Если нужны вычисления — запустит интерпретатор кода, а если важен контекст прошлых диалогов — обратится к памяти.

Qwen3-Max-Thinking
Qwen3-Max-Thinking Источник: Alibaba

Такой подход снижает количество ошибок и выдуманных фактов. В тесте HLE с использованием инструментов Qwen3-Max-Thinking набрала 49,8 балла — это лучше, чем у GPT-5.2 (45,5) и Gemini 3 Pro (45,8). Модель сама понимает, когда ей не хватает информации, и восполняет пробелы без лишних запросов к пользователю.

Также у модели появилась стратегия «накопления опыта» при решении сложных задач. Обычно ИИ-модели запускают несколько параллельных попыток найти ответ, но часто эти попытки дублируют друг друга. Qwen3-Max-Thinking работает иначе: она анализирует каждую попытку, извлекает ключевые выводы и использует их в следующем раунде. Это позволяет не тратить вычислительные ресурсы на повторы и сосредоточиться на нерешенных вопросах.

На тесте GPQA по естественным наукам точность выросла с 90,3 до 92,8%, на бенчмарке LiveCodeBench v6 по программированию — с 88,0 до 91,4%, на математическом IMO-AnswerBench — с 89,5 до 91,5%. Система стала эффективнее использовать контекст и лучше справляться с многошаговыми рассуждениями. В пользовательском рейтинге Arena-Hard v2 модель набрала 90,2 балла — на 10 пунктов выше GPT-5.2 и на 14 пунктов выше Claude Opus 4.5. Это говорит о том, что люди реально замечают разницу в качестве ответов.

Qwen3-Max-Thinking
Qwen3-Max-Thinking Источник: Alibaba

Одним из важных моментов является цена. API Qwen3-Max-Thinking стоит $1,20 (примерно 100 рублей) за миллион входных токенов и $6 (примерно 460 рублей) за миллион выходных. Для сравнения: Claude Opus 4.5 обходится в $5 (примерно 380 рублей) и $25 (примерно 1 900 рублей) соответственно. Разница почти в пять раз делает китайскую модель привлекательным вариантом для разработчиков.

Alibaba также добавила совместимость с протоколом Anthropic API, теперь Qwen3-Max-Thinking можно использовать в инструменте Claude Code для программистов. Достаточно подставить ключ от Alibaba Cloud, и система заработает. В чат-боте Qwen Chat режим рассуждений включается кнопкой «Мышление». Для сложных запросов он активируется автоматически — модель сама определяет, когда нужно потратить больше времени на обдумывание ответа.

Также недавно стало известно, что в мире поднялся спрос на Mac mini. Подробнее о причастности к этому ИИ и причинах рассказали в статье.

От qwert.uz