فاتح ۲۱۵ معیار جهانی؛ علیبابا با هوش مصنوعی قدرتمند و آفلاین Qwen۳.۵-Omni بینالمللی شد و ۸۲۲۰;ویب کدینگ۸۲۲۱; ویدیویی را به انقلاب کشاند

شرکت علیبابا رسماً از جدیدترین دستاورد هوش مصنوعی خود با نام Qwen3.5-Omni رونمایی کرد. این مدل فراتر از یک دستیار معمولی، اولین مدل «همهحالته» (Omnimodal) جهان است که میتواند متن، تصویر، صدا و ویدیو را همزمان و از ابتدا با هم پردازش کند. این مدل با کسب رکورد ۲۱۵ عنوان «بهروزترین فناوری» (SOTA) در آزمونهای بینالمللی، قاطعانه از رقیب سرسخت خود، مدل Gemini 3.1 Pro گوگل سبقت گرفته است. مهمترین ویژگی آن، توانایی «ویب کدینگ ویدیویی» است؛ کاربران میتوانند با باز کردن دوربین و صحبت کردن، از هوش مصنوعی بخواهند کد یک وبسایت را بر اساس طرح اولیه بنویسد.
فاتح ۲۱۵ معیار جهانی؛ علیبابا با Qwen3.5-Omni بینالمللی شد و “ویب کدینگ” ویدیویی را به انقلاب کشاند
در تازهترین و مهمترین تحول دنیای هوش مصنوعی، شرکت چینی علیبابا به طور رسمی از نسل جدید مدلهای زبانی بزرگ خانواده «Qwen» با نام «Qwen3.5-Omni» رونمایی کرد. این مدل هوش مصنوعی که در تاریخ ۳۰ مارس ۲۰۲۶ (۱۰ فروردین ۱۴۰۵) معرفی شد، نه یک دستیار ساده بلکه یک انقلاب تمامعیار در نحوه تعامل ماشینها با دادههای انسانی محسوب میشود. کرید «همهحالته» (Omnimodal) به معنای واقعی برای اولین بار به ثمر نشسته است: مدلی که میتواند بدون نیاز به چندین سیستم جداگانه، همزمان متن، تصویر، صدا و ویدیو را ببیند، بشنود، درک کند و به آنها پاسخ دهد.
Qwen3.5-Omni در یک رقابت تنگاتنگ، موفق شده است در بیش از ۲۱۵ معیار ارزیابی بینالمللی که عمدتاً بر روی درک و تعامل با ویدیو و صدا متمرکز هستند، عنوان «بهروزترین فناوری» (State of the Art – SOTA) را از آن خود کند. این موفقیت درخشان، این مدل را در بسیاری از جنبههای کلیدی، به ویژه در درک صدا و مکالمه، بالاتر از مدعلی قدرتمند یعنی «Gemini 3.1 Pro» گوگل قرار میدهد. اما شگفتانگیزترین ویژگی این مدل، توانایی «ویب کدینگ ویدیویی» (Video Vibe Coding) آن است؛ قابلیتی که در آن کاربر صرفاً با باز کردن دوربین گوشی خود رو به یک طرح دستنویس (اسکچ) و بیان خواسته خود، میتواند یک وبسایت واقعی و کدنویسی شده را از هوش مصنوعی دریافت کند.
پایان دوران دستیارهای تکبعدی؛ ظهور همهحالته واقعی
Omni چیست و چرا انقلابی است؟
برای درک عظمت این رویداد، ابتدا باید با مفهوم «مدل همهحالته» آشنا شد. اکثر مدلهای محبوب هوش مصنوعی امروزی، مانند GPT-4o یا مدلهای قبلی گوگل، قادر به درک چندین نوع داده هستند، اما این کار را با «چندین مغز جداگانه» انجام میدهند. به عنوان مثال، برای درک یک فایل ویدیویی، ابتدا ویدیو به تصاویر تجزیه، صدا از آن جدا و به متن تبدیل میشود و سپس هرکدام توسط یک شبکه عصبی تخصصی (و مجزا) پردازش شده و در نهایت نتایج کنار هم گذاشته میشود. این روش قدیمی که «پس از آموزش ترکیب شده» (Late Fusion) نام دارد، همواره باعث افت کیفیت و از دست رفتن ظرافتهای موجود در یک مکالمه طبیعی میشد.
اما رویکرد علیبابا در Qwen3.5-Omni کاملاً متفاوت و متحول کننده است. این مدل با استفاده از معماری موسوم به «ترکیب اولیه» (Early Fusion) و معماری جدید «شبکههای گیتدار دلتا» (Gated Delta Networks)، دادههای بصری، صوتی و متنی را از همان گامهای اولیه آموزش در یک فضای یکپارچه و مشترک بازنمایی میکند.
شکستن مرزها با Thinker-Talker
قلب تپنده این هوش مصنوعی معماری «متفکر-سخنگو» (Thinker-Talker) است. در این طراحی هوشمندانه، ماژول «متفکر» (Thinker) مسئول هدایت جریان پیچیده استدلال بر روی دادههای طولانی و پیچیده است. این بخش میتواند تا پنجره متنی به طول ۲۵۶ هزار توکن (واحد پردازش) را مدیریت کند. برای درک بهتر این عدد، این قابلیت معادل پردازش بیش از ۱۰ ساعت محتوای صوتی یا بیش از ۴۰۰ ثانیه ویدیو با کیفیت ۷۲۰p (حدود ۷ دقیقه) در یک بار پردازش است.
در سوی دیگر، ماژول «سخنگو» (Talker) قرار دارد. این ماژول برخلاف نمونههای سنتی که نیاز به سیستم جداگانهای برای تبدیل متن به گفتار (TTS) دارند، مستقیماً و به صورت بومی و طبیعی، پاسخهای صوتی تولید میکند. این ویژگی باعث میشود پاسخها بسیار روان، طبیعی و همراه با احساسات و لحن مناسب (با قابلیت درک و مدیریت لحن) تولید شوند؛ تجربهای که تا پیش از این، دستیاب نبود.
قاتل قدرتمند Gemini: برتری در ۲۱۵ جبهه نبرد
نمایش قدرت در بنچمارکهای سخت
علیبابا در مواد تبلیغاتی خود و نتایج منتشر شده مدعی شده است که مدل Qwen3.5-Omni-Plus (نسخه پرچمدار این خانواده) در ۲۱۵ آزمون مختلف در زمینههای درک صدا، ویدیو، گفتار، ترجمه و تعامل، موفق به کسب بهترین نتیجه (SOTA) شده است.
این ادعا با انتشار نتایج مقایسه با برترین مدل گوگل، یعنی «Gemini 3.1 Pro»، بسیار جدیتر میشود. در جدول زیر میتوانید برخی از مهمترین این پیروزیها را مشاهده کنید:
| سنجه / معیار (Benchmark) | Qwen3.5-Omni-Plus | Google Gemini 3.1 Pro | برتری |
|---|---|---|---|
| درک صدا (MMAU) | ۸۲.۲ | ۸۱.۱ | ✅ Qwen |
| درک موسیقی (RUL-MuchoMusic) | ۷۲.۴ | ۵۹.۶ | ✅ Qwen (شکست سنگین) |
| دیالوگ صوتی (VoiceBench) | ۹۳.۱ | ۸۸.۹ | ✅ Qwen |
| خوانش پراسترس (seed-hard – خطای کلمه) | ۶.۲۴ (خطای بسیار کم) | ~ | ✅ Qwen |
| شبیهسازی صدا (خطای کلمه) | ۱.۸۷ (نرخ خطای بسیار ناچیز) | ~ | ✅ Qwen |
جدول فوق به وضوح نشان میدهد که مدل علیبابا در تخصصیترین حوزههای پردازش صدا و درک شنیداری، با اختلاف معناداری از پرچمدار فعلی گوگل پیشی گرفته است. با این حال، باید توجه داشت که در برخی معیارهای خاص ویدیویی مانند WorldSense و VideoMME، هرچند نزدیک، اما Gemini 3.1 Pro همچنان برتریهای جزیی دارد.
انقلاب در زبان و لهجه
علیبابا با مدل جدید خود، مرزهای زبانی را نیز درنوردیده است. این مدل قادر به تشخیص گفتار در ۱۱۳ زبان و گویش مختلف (شامل لهجههایی مانند مین نان، هاینانی و حتی مائوری) است. این تعداد در مقایسه با نسل قبل که تنها ۱۱ زبان را پوشش میداد، جهشی عظیم محسوب میشود. همچنین این مدل میتواند به صورت کاملاً طبیعی و با لحن و احساس مناسب، به ۳۶ زبان مختلف صحبت کند.
انقلاب «ویب کدینگ ویدیویی»؛ برنامهنویسی با زبان بدن و نقاشی خطی
جدای از همه رکوردها و آمارهای خیرهکننده، چیزی که کارشناسان را بیش از همه هیجانزده کرده است، توانایی شگفتانگیز این مدل در «کدنویسی از طریق ویدیو» است. این قابلیت که «ویب کدینگ ویدیویی» (Audio-Visual Vibe Coding) نام گرفته، به طور طبیعی و بدون آموزش خاصی در مدل ظهور پیدا کرده است.
از نقاشی روی کاغذ تا کد واقعی در چند ثانیه
تصور کنید پشت میز خود نشستهاید، یک برگه کاغذ و یک خودکار در مقابل خود دارید. شما چند خط درهم و برهم و یک طرح اولیه (اسکچ) از یک وبسایت، یک داشبورد مدیریتی یا حتی رابط کاربری یک بازی ساده روی کاغذ میکشید. سپس، دوربین لپتاپ یا گوشی خود را به سمت آن کاغذ میگیرید و با مدل Qwen3.5-Omni صحبت میکنید.
مدل Qwen3.5-Omni از طریق دوربین، حرکت دست و طرح شما را در زمان واقعی (Real-Time) میبیند، صحبتها و خواستههای شفاهی شما را نیز همزمان میشنود. سپس در کمتر از یک دقیقه، بدون اینکه شما یک خط کد بنویسید، یک فایل HTML و CSS یا یک برنامه جاوااسکریپت کامل و قابل اجرا به شما تحویل میدهد که دقیقاً همان چیزی است که روی کاغذ کشیده بودید.
کاربرد برای چه کسانی است؟
این انقلاب، دنیای توسعه نرمافزار و ایدهپردازی را متحول میکند:
-
مدیران محصول (Product Managers): دیگر نیازی به صرف ساعتها زمان برای توضیح جزئیات یک طرح به تیم فنی نیست. کافی است طرح اولیه را روی تخته وایتبورد بکشند و ویدیو را برای هوش مصنوعی پخش کنند.
-
طراحان رابط کاربری (UI/UX Designers): فاصله بین طرحهای گرافیکی (مثل فیگما – Figma) تا کد فرانتاند، به صفر نزدیک میشود.
-
توسعهدهندگان و استارتاپها: فرآیند ساخت ایدههای اولیه (Prototyping) که قلب تپنده نوآوری است، از چند روز به چند دقیقه کاهش مییابد.
این قابلیت به حدی شگفتانگیز است که برخی رسانهها آن را «سورس بسته محصولات گوگل برای یک دهه آینده» توصیف کردهاند. کارشناسان X (توییتر سابق) نیز در واکنش به این خبر نوشتند: «این یک جهش عظیم رو به جلو است که تعامل کاربر با هوش مصنوعی را برای همیشه تغییر میدهد.»
قدرت نرمافزاری و معماری: ویژگیهای فنی کلیدی
مدل Qwen3.5-Omni در سه نسخه مختلف برای رفع نیازهای گوناگون توسعهدهندگان و کاربران عرضه شده است:
۱. نسخه Plus: قدرتمندترین نسخه با معماری MoE (متشکل از ۴.۲ میلیارد پارامتر فعال). مناسب برای کاربردهای حیاتی، پیچیده و حساس که نیاز به بالاترین کیفیت پاسخگویی و تحلیل عمیق دارند. این نسخه از طریق API در دسترس است.
۲. نسخه Flash: نسخهای سریع و بهینه برای پاسخگویی در لحظه و کاربردهای همزمان (Real-time) که هزینه کمتری دارد.
۳. نسخه Light: نسخهای بسیار سبک و بهینه که حتی روی لپتاپهای معمولی نیز قابلیت اجرای محلی (Offline) را دارد.
مشخصات فنی کلیدی مدل به صورت خلاصه:
-
پنجره زمینه: ۲۵۶ هزار توکن (قابل ارتقا تا ۱ میلیون توکن)
-
قابلیت ورودی: متن، تصویر، صدا و ویدیو
-
قابلیت خروجی: متن و گفتار (با لحن و احساسات)
-
مدت زمان پردازش صدا: بیش از ۱۰ ساعت به صورت یکجا
-
مدت زمان پردازش ویدیوی 720p: بیش از ۴۰۰ ثانیه (حدود ۷ دقیقه)
-
پشتیبانی زبانی برای ورودی صدا: ۱۱۳ زبان و گویش
-
پشتیبانی زبانی برای خروجی صدا: ۳۶ زبان
-
نرخ خطای کلمه در آزمون استرس: ۶.۲۴ (بسیار پایینتر از میانگین رقبا)
-
قابلیتهای ویژه: شبیهسازی صدا، تشخیص خودکار قطع و وصل صحبت، درک لحن و احساسات
تحلیل بازار و رقابت جهانی
ایجاد یک شوک بزرگ به گوگل و اوپنایآی
رونمایی از مدل Qwen3.5-Omni را باید به مثابه یک سیلی محکم به صورت هوش مصنوعی غرب تلقی کرد. تا پیش از این، بسیاری از تحلیلگران و نشریات فناوری، شرکتهای چینی را عمدتاً در مقام «دنبالهرونده» (Follower) در قبال پیشگامانی مانند گوگل، متا و OpenAI ارزیابی میکردند. با این حال، مدل جدید علیبابا نشان داد که این معادله در حال تغییر است.
علیبابا با ارائه مدلی که در درک صدا و مکالمه از قویترین مدل گوگل بهتر عمل میکند و در عین حال کدنویسی ویدیویی را ممکن میسازد، عملاً در حوزههای «حساس و استراتژیکِ» آینده هوش مصنوعی به برتری رسیده است. مزیت بزرگ دیگر، مدل اقتصادی علیبابا است. قیمت هر یک میلیون توکن ورودی برای نسخههای API این مدل کمتر از ۰.۸ یوان (حدود ۰.۱۱ دلار) است. این رقم حدوداً یک دهم قیمت مدل Gemini 3.1 Pro گوگل است.
استقبال صنعت و بازار چین
این مدل از طریق پلتفرم «بایلیان» (Bailian) ابری علیبابا در دسترس عموم قرار گرفته است. بر اساس آمار منتشر شده، خانواده مدلهای Qwen در حال حاضر پیشتاز بازار هوش مصنوعی چین هستند و بیش از ۱۰۰ هزار شرکت در صنایع مختلف از جمله اینترنت، مالی، خودروسازی، بازیسازی و… از این مدلها استفاده میکنند.
رویای «دستیار همهحالته» به حقیقت پیوست
علیبابا با معرفی Qwen3.5-Omni ثابت کرد که مرزهای هوش مصنوعی هر روز در حال جابهجایی است. این مدل نه تنها یک کارشناس خبره در پردازش دادههای پیچیده و چندبعدی است، بلکه با قابلیت انقلابی «ویب کدینگ ویدیویی» نشان داد که میتواند شریکی خلاق و همکار در فرآیند ساختن باشد.
اگر در گذشته فاصله بین «فکر کردن به یک ایده» تا «اجرای آن» توسط برنامهنویسان و هفتهها زمان پر میشد، اکنون این فاصله به «چند دقیقه صحبت با هوش مصنوعی در مقابل یک دوربین» کاهش یافته است. Qwen3.5-Omni حکم یک «جارو جادویی» برای خلاقیت انسانها را دارد؛ جارویی که میتواند هر طرح ذهنی را به یک محصول فیزیکی (کد) تبدیل کند.
تنها نقطه ابهام باقیمانده، میزان دسترسی جهانی به این مدل است. هرچند علیبابا مدل را از طریق API و به صورت عمومی منتشر کرده، اما موانع سیاسی و تحریمهای تکنولوژیک میتواند دسترسی کاربران در برخی کشورها، از جمله ایران، را با چالش مواجه کند. با این وجود، انتشار این مدل به عنوان یک نقطه عطف در مسیر دستیابی به هوش مصنوعی عمومی (AGI) ثبت خواهد شد.




