Alibaba анонсирует передовую экспериментальную модель визуального мышления QVQ-72B AI

Qwen, подразделение облачных вычислений китайской Alibaba Group Ltd., представило QVQ-72B-Preview — экспериментальную модель искусственного интеллекта с открытым исходным кодом, способную просматривать изображения и делать выводы.

Компания заявила, что предварительные тесты показали, что модель демонстрирует многообещающие возможности в области визуального мышления, решая проблемы путем пошагового их обдумывания, аналогично другим моделям рассуждений, таким как o1 от OpenAI и Gemini Flash от Google LLC .

Новая модель является частью семейства моделей Qwen, и компания заявила, что она была построена на Qwen2-VL-72B — модели ИИ, способной к расширенному анализу видео и рассуждениям, выпущенной ранее в этом году. Компания заявила, что взяла уже существующие возможности анализа и рассуждений VL и сделала «значительный скачок вперед в понимании и решении сложных проблем» для QVQ. «Представьте себе ИИ, который может взглянуть на сложную физическую проблему и методично рассуждать о своем пути к решению с уверенностью мастера-физика», — сказала команда Qwen о релизе. «Это видение вдохновило нас на создание QVQ — модели с открытым весом для мультимодальных рассуждений». Пользователи отправляют изображение и подсказку модели для анализа, и модель отвечает длинным пошаговым ответом. Сначала она прокомментирует изображение и определит субъектов, которые она может видеть, обращаясь к подсказке. Затем она начнет рассуждать о своем процессе, по сути, показывая свою работу в одном кадре.

Мы загрузили изображение из интернета, где изображено 4 пакета с молоком и стакан с молоком. И спросили “Сколько литров молока стоит на столе? и получили ответ

Итак, у меня возникла следующая проблема: «Сколько молока на столе?» И есть четыре пакета молока и стакан, наполненный молоком. У пакетов разный процент жирности — некоторые 3,2%, а один 3,5%. Но я думаю, что процент жирности может быть не связан напрямую с объемом или количеством молока. Может быть, это просто отвлекает меня.

Сначала мне нужно выяснить, сколько молока в каждом пакете. Обычно пакеты молока имеют стандартные размеры, например, 1 литр или 2 литра. Но поскольку в задаче не указан размер пакетов, это может быть сложно. Подождите, может быть, я могу посмотреть на этикетки или посмотреть, есть ли какие-либо указания на объем.

Глядя на изображение, все пакеты кажутся одинакового размера, за исключением одного немного отличающегося. Подождите, нет, на самом деле они все кажутся одинакового размера, но один может быть другого объема в зависимости от процента жирности. Хм.

Давайте я посмотрю поближе. На коробках написано «Молоко», что по-русски означает молоко, и они имеют процент жирности 3,2% и 3,5%. Тот, у которого 3,5% жирности, находится справа. Остальные — 3,2%.

Но не зная объема каждой коробки, сложно подсчитать общее количество молока. Может быть, мне нужно предположить, что в каждой коробке одинаковый объем молока, скажем, 1 литр, а затем сложить объемы.

Итак, если в каждой из четырех коробок по 1 литру молока, то вместе они вместят 4 литра. Но на столе также стоит стакан, наполненный молоком. Я думаю, стакан примерно наполовину полон, но точно сказать сложно.

Подождите, на самом деле стакан, кажется, наполнен примерно на 200 мл, но я не уверен. Может быть, мне следует оценить объем в стакане.

Или же, возможно, проблема в том, что вы задаете общее количество молока по объему, не учитывая процент жирности. Итак, если каждая коробка по 1 литру, и есть четыре коробки, плюс стакан, который может быть 0,2 литра, то общий объем составит 4,2 литра.

Но это кажется слишком простым, и, возможно, в этом есть что-то еще. Возможно, здесь есть какой-то трюк, который я упускаю.

Позвольте мне рассмотреть, влияет ли каким-то образом процент жира на объем. Но нет, процент жира относится к количеству жира в молоке, а не к объему. Поэтому, будь то 3,2% или 3,5%, объем молока остается прежним.

Возможно, проблема в проверке, могу ли я распознать, что процент жира не влияет на общий объем молока. Так что, если это так, то моя первоначальная мысль просто сложить объемы коробок и стакана может быть правильной.

Или же, возможно, нужно преобразовать процент жира во что-то еще, но в данном контексте это не имеет особого смысла.

Подождите-ка, может быть, коробки с более высоким процентом жира вмещают меньший объем, потому что в них больше жира. Но это не кажется логичным. Обычно объем молока стандартен, а жирность варьируется в зависимости от типа молока, а не от объема.

Я думаю, я слишком усложняю. Вопрос заключается в том, чтобы просто узнать общее количество молока на столе, вероятно, в литрах или миллилитрах. Поскольку все пакеты одинакового размера, в каждом, скорее всего, содержится одинаковый объем молока, скажем, 1 литр. Стакан частично заполнен, возможно, около 200 мл. Таким образом, общее количество молока составит 4 литра из пакетов плюс 0,2 литра из стакана, итого 4,2 литра.

Но чтобы быть точным, я должен оценить объем в стакане более точно. Глядя на стакан, он, кажется, заполнен примерно на одну пятую литра, то есть примерно 200 мл. Если каждый пакет составляет 1 литр, то четыре пакета составляют 4 литра, плюс 0,2 литра из стакана, что равно 4,2 литра.

Если нет ничего большего, я думаю, что это ответ. Может быть, проблема в оценке общего объема молока на столе, учитывая пакеты и стакан.

Итак, мой окончательный ответ: на столе 4,2 литра молока.

Нейросеть QvQ-72B-Preview была выпущен под лицензией Qwen с открытым исходным кодом на GitHub . Это позволит разработчикам и исследователям настраивать и дорабатывать модель для своих собственных целей.

Команда Qwen заявила, что эта экспериментальная модель является важным шагом на пути к разработке модели omni, достижением на пути к достижению AGI, или искусственного общего интеллекта , святого Грааля для ИИ, который будет соответствовать или превосходить человеческие возможности. Чтобы достичь этого, компаниям ИИ, таким как Alibaba, необходимо будет создать базовые модели, способные интегрировать основанное на зрении познание и рассуждение среди других продвинутых навыков в единую систему ИИ.