Мощная мультимодальная модель Qwen3-VL от Alibaba

16:02, 15.10.2025

Новая модель Qwen3-VL была недавно выпущена Alibaba. Она доступна в 2 версиях и работает с изображением, текстом, и поддерживает контент в 256 тысяч токенов, также длину можно расширить до 1 миллиона.

Основные особенности Qwen3-VL

Поддержка открытой лексики – это одна из основных особенностей новой модели. Qwen3-VL распознает множество деталей таких как архитектурные объекты, логотипы, бытовые товары, и многое другое. Потому возможно не только анализировать, но и интерпретироваться контекст.

В проекте доступны 2 основных режима функционирования: Thinking и Instruct. Thinking используется для более сложных вычислительных задач, где нужно задействовать поэтапное мышление. Instruct нужен для генерации интерактивных процессов, таких как код, текст, или простой анализ данных.

Система OCR обучена на информации с плохим качеством отсканированного. Модель может легко распознать данные с наклоненных или немного размытых сканов и поддерживает 32 языка.

Qwen3-VL доступна под лицензией Apache 2.0, таким образом данная модель становится самой доступной и мощной среди варианта с открытым исходным кодом. Код уже доступен на Hugging Face, а также в ближайшее время готовиться интеграция модели с сервисами ModelScope и AI Workspace.