فاتح ۲۱۵ معیار جهانی؛ علی‌بابا با هوش مصنوعی قدرتمند و آفلاین Qwen۳.۵-Omni بین‌المللی شد و &#۸۲۲۰;ویب کدینگ&#۸۲۲۱; ویدیویی را به انقلاب کشاند

زمان تقریبی مطالعه ۷ دقیقه

فاتح ۲۱۵ معیار جهانی؛ علی‌بابا با Qwen3.5-Omni بین‌المللی شد و “ویب کدینگ” ویدیویی را به انقلاب کشاند

در تازه‌ترین و مهم‌ترین تحول دنیای هوش مصنوعی، شرکت چینی علی‌بابا به طور رسمی از نسل جدید مدل‌های زبانی بزرگ خانواده «Qwen» با نام «Qwen3.5-Omni» رونمایی کرد. این مدل هوش مصنوعی که در تاریخ ۳۰ مارس ۲۰۲۶ (۱۰ فروردین ۱۴۰۵) معرفی شد، نه یک دستیار ساده بلکه یک انقلاب تمام‌عیار در نحوه تعامل ماشین‌ها با داده‌های انسانی محسوب می‌شود. کرید «همه‌حالته» (Omnimodal) به معنای واقعی برای اولین بار به ثمر نشسته است: مدلی که می‌تواند بدون نیاز به چندین سیستم جداگانه، همزمان متن، تصویر، صدا و ویدیو را ببیند، بشنود، درک کند و به آنها پاسخ دهد.

Qwen3.5-Omni در یک رقابت تنگاتنگ، موفق شده است در بیش از ۲۱۵ معیار ارزیابی بین‌المللی که عمدتاً بر روی درک و تعامل با ویدیو و صدا متمرکز هستند، عنوان «به‌روزترین فناوری» (State of the Art – SOTA) را از آن خود کند. این موفقیت درخشان، این مدل را در بسیاری از جنبه‌های کلیدی، به ویژه در درک صدا و مکالمه، بالاتر از مدعلی قدرتمند یعنی «Gemini 3.1 Pro» گوگل قرار می‌دهد. اما شگفت‌انگیزترین ویژگی این مدل، توانایی «ویب کدینگ ویدیویی» (Video Vibe Coding) آن است؛ قابلیتی که در آن کاربر صرفاً با باز کردن دوربین گوشی خود رو به یک طرح دست‌نویس (اسکچ) و بیان خواسته خود، می‌تواند یک وب‌سایت واقعی و کدنویسی شده را از هوش مصنوعی دریافت کند.

پایان دوران دستیارهای تک‌بعدی؛ ظهور همه‌حالته واقعی

Omni چیست و چرا انقلابی است؟

برای درک عظمت این رویداد، ابتدا باید با مفهوم «مدل همه‌حالته» آشنا شد. اکثر مدل‌های محبوب هوش مصنوعی امروزی، مانند GPT-4o یا مدل‌های قبلی گوگل، قادر به درک چندین نوع داده هستند، اما این کار را با «چندین مغز جداگانه» انجام می‌دهند. به عنوان مثال، برای درک یک فایل ویدیویی، ابتدا ویدیو به تصاویر تجزیه، صدا از آن جدا و به متن تبدیل می‌شود و سپس هرکدام توسط یک شبکه عصبی تخصصی (و مجزا) پردازش شده و در نهایت نتایج کنار هم گذاشته می‌شود. این روش قدیمی که «پس از آموزش ترکیب شده» (Late Fusion) نام دارد، همواره باعث افت کیفیت و از دست رفتن ظرافت‌های موجود در یک مکالمه طبیعی می‌شد.

اما رویکرد علی‌بابا در Qwen3.5-Omni کاملاً متفاوت و متحول کننده است. این مدل با استفاده از معماری موسوم به «ترکیب اولیه» (Early Fusion) و معماری جدید «شبکه‌های گیت‌دار دلتا» (Gated Delta Networks)، داده‌های بصری، صوتی و متنی را از همان گام‌های اولیه آموزش در یک فضای یکپارچه و مشترک بازنمایی می‌کند.

شکستن مرزها با Thinker-Talker

قلب تپنده این هوش مصنوعی معماری «متفکر-سخن‌گو» (Thinker-Talker) است. در این طراحی هوشمندانه، ماژول «متفکر» (Thinker) مسئول هدایت جریان پیچیده استدلال بر روی داده‌های طولانی و پیچیده است. این بخش می‌تواند تا پنجره متنی به طول ۲۵۶ هزار توکن (واحد پردازش) را مدیریت کند. برای درک بهتر این عدد، این قابلیت معادل پردازش بیش از ۱۰ ساعت محتوای صوتی یا بیش از ۴۰۰ ثانیه ویدیو با کیفیت ۷۲۰p (حدود ۷ دقیقه) در یک بار پردازش است.

در سوی دیگر، ماژول «سخن‌گو» (Talker) قرار دارد. این ماژول برخلاف نمونه‌های سنتی که نیاز به سیستم جداگانه‌ای برای تبدیل متن به گفتار (TTS) دارند، مستقیماً و به صورت بومی و طبیعی، پاسخ‌های صوتی تولید می‌کند. این ویژگی باعث می‌شود پاسخ‌ها بسیار روان، طبیعی و همراه با احساسات و لحن مناسب (با قابلیت درک و مدیریت لحن) تولید شوند؛ تجربه‌ای که تا پیش از این، دستیاب نبود.

قاتل قدرتمند Gemini: برتری در ۲۱۵ جبهه نبرد

نمایش قدرت در بنچمارک‌های سخت

علی‌بابا در مواد تبلیغاتی خود و نتایج منتشر شده مدعی شده است که مدل Qwen3.5-Omni-Plus (نسخه پرچمدار این خانواده) در ۲۱۵ آزمون مختلف در زمینه‌های درک صدا، ویدیو، گفتار، ترجمه و تعامل، موفق به کسب بهترین نتیجه (SOTA) شده است.

این ادعا با انتشار نتایج مقایسه با برترین مدل گوگل، یعنی «Gemini 3.1 Pro»، بسیار جدی‌تر می‌شود. در جدول زیر می‌توانید برخی از مهم‌ترین این پیروزی‌ها را مشاهده کنید:

سنجه / معیار (Benchmark)	Qwen3.5-Omni-Plus	Google Gemini 3.1 Pro	برتری
درک صدا (MMAU)	۸۲.۲	۸۱.۱	✅ Qwen
درک موسیقی (RUL-MuchoMusic)	۷۲.۴	۵۹.۶	✅ Qwen (شکست سنگین)
دیالوگ صوتی (VoiceBench)	۹۳.۱	۸۸.۹	✅ Qwen
خوانش پراسترس (seed-hard – خطای کلمه)	۶.۲۴ (خطای بسیار کم)	~	✅ Qwen
شبیه‌سازی صدا (خطای کلمه)	۱.۸۷ (نرخ خطای بسیار ناچیز)	~	✅ Qwen

جدول فوق به وضوح نشان می‌دهد که مدل علی‌بابا در تخصصی‌ترین حوزه‌های پردازش صدا و درک شنیداری، با اختلاف معناداری از پرچمدار فعلی گوگل پیشی گرفته است. با این حال، باید توجه داشت که در برخی معیارهای خاص ویدیویی مانند WorldSense و VideoMME، هرچند نزدیک، اما Gemini 3.1 Pro همچنان برتری‌های جزیی دارد.

انقلاب در زبان و لهجه

علی‌بابا با مدل جدید خود، مرزهای زبانی را نیز درنوردیده است. این مدل قادر به تشخیص گفتار در ۱۱۳ زبان و گویش مختلف (شامل لهجه‌هایی مانند مین نان، هاینانی و حتی مائوری) است. این تعداد در مقایسه با نسل قبل که تنها ۱۱ زبان را پوشش می‌داد، جهشی عظیم محسوب می‌شود. همچنین این مدل می‌تواند به صورت کاملاً طبیعی و با لحن و احساس مناسب، به ۳۶ زبان مختلف صحبت کند.

انقلاب «ویب کدینگ ویدیویی»؛ برنامه‌نویسی با زبان بدن و نقاشی خطی

جدای از همه رکوردها و آمارهای خیره‌کننده، چیزی که کارشناسان را بیش از همه هیجان‌زده کرده است، توانایی شگفت‌انگیز این مدل در «کدنویسی از طریق ویدیو» است. این قابلیت که «ویب کدینگ ویدیویی» (Audio-Visual Vibe Coding) نام گرفته، به طور طبیعی و بدون آموزش خاصی در مدل ظهور پیدا کرده است.

از نقاشی روی کاغذ تا کد واقعی در چند ثانیه

تصور کنید پشت میز خود نشسته‌اید، یک برگه کاغذ و یک خودکار در مقابل خود دارید. شما چند خط درهم و برهم و یک طرح اولیه (اسکچ) از یک وب‌سایت، یک داشبورد مدیریتی یا حتی رابط کاربری یک بازی ساده روی کاغذ می‌کشید. سپس، دوربین لپ‌تاپ یا گوشی خود را به سمت آن کاغذ می‌گیرید و با مدل Qwen3.5-Omni صحبت می‌کنید.

مدل Qwen3.5-Omni از طریق دوربین، حرکت دست و طرح شما را در زمان واقعی (Real-Time) می‌بیند، صحبت‌ها و خواسته‌های شفاهی شما را نیز همزمان می‌شنود. سپس در کمتر از یک دقیقه، بدون اینکه شما یک خط کد بنویسید، یک فایل HTML و CSS یا یک برنامه جاوااسکریپت کامل و قابل اجرا به شما تحویل می‌دهد که دقیقاً همان چیزی است که روی کاغذ کشیده بودید.

کاربرد برای چه کسانی است؟

این انقلاب، دنیای توسعه نرم‌افزار و ایده‌پردازی را متحول می‌کند:

مدیران محصول (Product Managers): دیگر نیازی به صرف ساعت‌ها زمان برای توضیح جزئیات یک طرح به تیم فنی نیست. کافی است طرح اولیه را روی تخته وایت‌بورد بکشند و ویدیو را برای هوش مصنوعی پخش کنند.
طراحان رابط کاربری (UI/UX Designers): فاصله بین طرح‌های گرافیکی (مثل فیگما – Figma) تا کد فرانت‌اند، به صفر نزدیک می‌شود.
توسعه‌دهندگان و استارتاپ‌ها: فرآیند ساخت ایده‌های اولیه (Prototyping) که قلب تپنده نوآوری است، از چند روز به چند دقیقه کاهش می‌یابد.

این قابلیت به حدی شگفت‌انگیز است که برخی رسانه‌ها آن را «سورس بسته محصولات گوگل برای یک دهه آینده» توصیف کرده‌اند. کارشناسان X (توییتر سابق) نیز در واکنش به این خبر نوشتند: «این یک جهش عظیم رو به جلو است که تعامل کاربر با هوش مصنوعی را برای همیشه تغییر می‌دهد.»

قدرت نرم‌افزاری و معماری: ویژگی‌های فنی کلیدی

مدل Qwen3.5-Omni در سه نسخه مختلف برای رفع نیازهای گوناگون توسعه‌دهندگان و کاربران عرضه شده است:

۱. نسخه Plus: قدرتمندترین نسخه با معماری MoE (متشکل از ۴.۲ میلیارد پارامتر فعال). مناسب برای کاربردهای حیاتی، پیچیده و حساس که نیاز به بالاترین کیفیت پاسخ‌گویی و تحلیل عمیق دارند. این نسخه از طریق API در دسترس است.

۲. نسخه Flash: نسخه‌ای سریع و بهینه برای پاسخ‌گویی در لحظه و کاربردهای همزمان (Real-time) که هزینه کمتری دارد.

۳. نسخه Light: نسخه‌ای بسیار سبک و بهینه که حتی روی لپ‌تاپ‌های معمولی نیز قابلیت اجرای محلی (Offline) را دارد.

مشخصات فنی کلیدی مدل به صورت خلاصه:

پنجره زمینه: ۲۵۶ هزار توکن (قابل ارتقا تا ۱ میلیون توکن)
قابلیت ورودی: متن، تصویر، صدا و ویدیو
قابلیت خروجی: متن و گفتار (با لحن و احساسات)
مدت زمان پردازش صدا: بیش از ۱۰ ساعت به صورت یکجا
مدت زمان پردازش ویدیوی 720p: بیش از ۴۰۰ ثانیه (حدود ۷ دقیقه)
پشتیبانی زبانی برای ورودی صدا: ۱۱۳ زبان و گویش
پشتیبانی زبانی برای خروجی صدا: ۳۶ زبان
نرخ خطای کلمه در آزمون استرس: ۶.۲۴ (بسیار پایین‌تر از میانگین رقبا)
قابلیت‌های ویژه: شبیه‌سازی صدا، تشخیص خودکار قطع و وصل صحبت، درک لحن و احساسات

تحلیل بازار و رقابت جهانی

ایجاد یک شوک بزرگ به گوگل و اوپن‌ایآی

رونمایی از مدل Qwen3.5-Omni را باید به مثابه یک سیلی محکم به صورت هوش مصنوعی غرب تلقی کرد. تا پیش از این، بسیاری از تحلیلگران و نشریات فناوری، شرکت‌های چینی را عمدتاً در مقام «دنباله‌رونده» (Follower) در قبال پیشگامانی مانند گوگل، متا و OpenAI ارزیابی می‌کردند. با این حال، مدل جدید علی‌بابا نشان داد که این معادله در حال تغییر است.

علی‌بابا با ارائه مدلی که در درک صدا و مکالمه از قوی‌ترین مدل گوگل بهتر عمل می‌کند و در عین حال کدنویسی ویدیویی را ممکن می‌سازد، عملاً در حوزه‌های «حساس و استراتژیکِ» آینده هوش مصنوعی به برتری رسیده است. مزیت بزرگ دیگر، مدل اقتصادی علی‌بابا است. قیمت هر یک میلیون توکن ورودی برای نسخه‌های API این مدل کمتر از ۰.۸ یوان (حدود ۰.۱۱ دلار) است. این رقم حدوداً یک دهم قیمت مدل Gemini 3.1 Pro گوگل است.

استقبال صنعت و بازار چین

این مدل از طریق پلتفرم «بایلیان» (Bailian) ابری علی‌بابا در دسترس عموم قرار گرفته است. بر اساس آمار منتشر شده، خانواده مدل‌های Qwen در حال حاضر پیشتاز بازار هوش مصنوعی چین هستند و بیش از ۱۰۰ هزار شرکت در صنایع مختلف از جمله اینترنت، مالی، خودروسازی، بازی‌سازی و… از این مدل‌ها استفاده می‌کنند.

رویای «دستیار همه‌حالته» به حقیقت پیوست

علی‌بابا با معرفی Qwen3.5-Omni ثابت کرد که مرزهای هوش مصنوعی هر روز در حال جابه‌جایی است. این مدل نه تنها یک کارشناس خبره در پردازش داده‌های پیچیده و چندبعدی است، بلکه با قابلیت انقلابی «ویب کدینگ ویدیویی» نشان داد که می‌تواند شریکی خلاق و همکار در فرآیند ساختن باشد.

اگر در گذشته فاصله بین «فکر کردن به یک ایده» تا «اجرای آن» توسط برنامه‌نویسان و هفته‌ها زمان پر می‌شد، اکنون این فاصله به «چند دقیقه صحبت با هوش مصنوعی در مقابل یک دوربین» کاهش یافته است. Qwen3.5-Omni حکم یک «جارو جادویی» برای خلاقیت انسان‌ها را دارد؛ جارویی که می‌تواند هر طرح ذهنی را به یک محصول فیزیکی (کد) تبدیل کند.

تنها نقطه ابهام باقی‌مانده، میزان دسترسی جهانی به این مدل است. هرچند علی‌بابا مدل را از طریق API و به صورت عمومی منتشر کرده، اما موانع سیاسی و تحریم‌های تکنولوژیک می‌تواند دسترسی کاربران در برخی کشورها، از جمله ایران، را با چالش مواجه کند. با این وجود، انتشار این مدل به عنوان یک نقطه عطف در مسیر دستیابی به هوش مصنوعی عمومی (AGI) ثبت خواهد شد.

برچسب ها