هوش مصنوعی Wan2.1: تبدیل متن و عکس به ویدیو!

25 اردیبهشت 1404

امیر حسین نوروزی مقالات 0 آخرین بروزرسانی : 14 مهر 1404 زمان مطالعه : 7 دقیقه 1053 0

می‌توانید خلاصه‌ای کوتاه از محتوای مقاله را با استفاده از هوش مصنوعی دریافت نمایید.

چه می‌شد اگر می‌توانستید با نوشتن یک جمله ساده مانند “سگ گلدن رتریوری که در ساحل بازی می‌کند” یک ویدیوی کامل ایجاد کنید؟ شاید اگر چند سال پیش از کسی این سوال را می‌پرسیدید آن را به عنوان یک فانتزی دور از دسترس در نظر می‌گرفت. اما بعد از ورود ChatGPT و انقلاب هوش مصنوعی دیگر چنین مواردی دور از دسترس نیستند. در این مقاله می‌خواهیم راجع به هوش مصنوعی قدرتمند Wan2.1 صحبت کنیم که شرکت بزرگی مانند علی بابا در پشت صحنه تولید آن قرار دارد.

هوش مصنوعی Wan2.1 چیست؟

Wan2.1 یک هوش مصنوعی پیشرفته و منبع باز است که توسط Tongyi Lab شرکت علی بابا تولید و ریشه در کشور چین دارد. هدف اصلی این هوش مصنوعی ساخت ویدیوهای با کیفیت از دستورات متنی و تصاویر کاربران است. Wan2.1 همچنین قابلیت‌های دیگری مانند ادیت ویدیو و ساخت تصاویر از دستورات متنی را در اختیار کاربران قرار می‌دهد که آن را به یک هوش مصنوعی کامل با قابلیت‌های فوق العاده تبدیل کرده است. این مدل برای دستورات متنی خود از زبان انگلیسی و چینی پشتیبانی می‌کند و عملکرد فوق العاده‌ای در بنچمارک‌هایی مانند VBench نشان می‌دهد که Wan2.1 در رقابت با هوش مصنوعی‌های همرده و منبع باز دیگر، سرتر است.

عملکرد Wan2.1

هوش مصنوعی منبع باز علی بابا، متن‌ها و تصاویر را به ویدیوهای فوق العاده و واقع گرایانه تبدیل می‌‎کند. این هوش مصنوعی با نمره 84.6% در VBench خود را به یکی از رقبای اصلی Sora، محصول OpenAI تبدیل کرده است. Wan2.1 می‌تواند ویدیوهای پنج ثانیه‌ای را در نزدیک 4 دقیقه بر روی کارت گرافیک RTX 4090 تولید کند. همچنین این هوش مصنوعی به صورت دو زبانه از انگلیسی و چینی برای دستورات متنی پشتیبانی می‌کند و بیش از صد سبک برای ساخت ویدیو و تصاویر را ارائه می‌دهد.

خرید سرور مجازی فرانسه

تولید ویدیو با Wan2.1: سفر متن‌ها به دنیای بصری

قابلیت پرچمدار هوش مصنوعی علی بابا، تولید ویدیوها بر اساس دستورات متنی شما است. Wan2.1 در مدت زمان حداکثر پنج دقیقه می‌تواند ویدیوهایی با کیفیت 480 تا 1080 تولید کند. هسته اصلی Wan2.1 در تولید ویدیو، بر مبنای تلفیق فرآیندهای پردازش زبان طبیعی و بصری استوار است. در گام نخست، متن ورودی توسط زیرسیستم NPL مورد تجزیه و تحلیل عمیق قرار می‌گیرد و ساختار معنایی، موجودیت‌های کلیدی و روابط بین آن‌ها استخراج می‌گردد. این درک معنا، مبنایی برای مرحله بعد، یعنی تفسیر بصری فراهم می‌آورد.

در این مرحله Wan2.1 با بهره گیری از دیتابیس‌های غنی چند رسانه‌ای و الگوریتم‌های هوشمند، تلاش می‌کند تا متناسب‌ترین موارد دیداری را برای مصور سازی متن انتخاب نماید. سپس با اعمال اصول طراحی صحنه و ترکیب بندی، این عناصر در قالب فریم‌های ویدیویی سازماندهی می‌شوند و با استفاده از تکنیک‌های انیمیشن جان می‌گیرند. در ادامه ویدیوی تولید شده توسط Wan2.1 را مشاهده می‌کنید:

تولید تصویر با Wan2.1

در فرآیند تولید تصاویر ثابت با Wan2.1، اگرچه از بسیاری جهات با منطق تولید ویدیو همپوشانی دارد، اما بر روی خلق یک واحد بصری منسجم و ایستا تمرکز می‌گردد. همچنین این هوش مصنوعی سبک‌های متنوع بسیاری را برای تولید تصاویر زیبا پیشنهاد می‌دهد که آن را به یکی از هوش مصنوعی‌های قدرتمند حوزه تولید تصاویر نیز تبدیل کرده است. نکته قابل توجه، بهره گیری Wan2.1 از مدل‌های پیشرفته هوش مصنوعی، به ویژه شبکه‌های مولد، در این بخش است که امکان تولید تصاویری با کیفیت بالا و نزدیک به واقعیت را فراهم می‌آورد.

تصاویر خود را به دنیای واقعی بیاورید!

یکی دیگر از قابلیت‌های منحصر به فرد Wan2.1 تولید ویدیوهای با کیفیت از تصاویر شما است. یکی از جنبه‌های کلیدی این قابلیت، امکان افزودن جلوه‌های بصری و حرکتی به تصاویر ایستا است. Wan2.1 می‌تواند با استفاده از تکنیک‌های Zoom ،Pan و Rotation پویایی و جذابیت بصری به تصاویر ببخشد. همچنین این قابلیت، امکان تنظیم مدت زمان نمایش هر تصویر و اعمال افکت‌های متنوع بین آن‌ها، ریتم و جریان مناسبی را برای ویدیوها فراهم می‌کند. علاوه بر جلوه‌های بصری، این هوش مصنوعی امکان غنی سازی ویدیوهای تولید شده را از طریق افزودن لایه‌های صوتی می‌آورد. کاربران می‌توانند موسیقی پس زمینه دلخواه خود را انتخاب کرده یا حتی صداگذاری یا توضیحات شفاهی را ویدیو اضافه کنند.

اثر Wan2.1 در تولید محتوا

هوش مصنوعی قدرتمند شرکت علی بابا، می‌تواند به مثابه یک قلموی دیجیتال در دستان هنرمندان معاصر عمل کند. این فناوری با قابلیت تبدیل ایده‌ها و مفاهیم انتزاعی به تصاویر و ویدیوهای ملموس، امکان تجسم رویاها را فراهم می‌آورد. هنرمندان می‌توانند با الهامات متنی و بصری خود و هدایت فرآبند تولید، به سبک‌های بصری نوینی دست یابند که پیش از این تصور آن‌ها غیر ممکن بود. تعامل خلاقانه بین هنرمند و این هوش مصنوعی می‌تواند منجر به خلق آثاری شود که مرزهای بین واقعیت و خیال را در هم می‌آمیزد و تجربه‌های بصری منحصر به فردی برای مخاطب رقم می‌زند.

بیشتر راجع به هوش مصنوعی مولد بخوانید!

هوش مصنوعی Deep Dream Generator

در نهایت

هوش مصنوعی Wan2.1 از کشور چین یکی از رقبای اصلی Sora محصول معروف OpenAI در زمینه تولید ویدیو است. این هوش مصنوعی با گرفتن امتیازهای بالا در بنچمارک‌های مختلف و متن باز بودن خود را به یکی از بهترین‌های این حوزه تبدیل کرده است. علاوه بر تولید ویدیو، Wan2.1 با ارائه قابلیت‌هایی مانند تبدیل عکس به ویدیو و صدا گذاری، به یک پکیج کامل از هرآنچه که در تولید محتوا می‌خواهید تبدیل شده و جذابیت رقابتی حوزه هوش مصنوعی را بیش از پیش به اوج رسانده است.

سوالات متداول

آیا استفاده از Wan2.1 رایگان است؟

بله، این هوش مصنوعی منبع باز (Open Source) است و استفاده از آن هزینه‌ای ندارد. با این حال مدل‌های وابسته به آن قیمت گذاری‌های مختلفی دارند.

چگونه متن‌هایی را می‌توانم به ویدیو تبدیل کنم؟

از متن‌های کوتاه گرفته تا اسناد بلندتر شما می‌توانید بر اساس متنی که به این هوش مصنوعی می‌دهید ویدیوی خود را دریافت کنید. کیفیت ویدیوی تولیدی تا حد زیادی به کیفیت متن شما بستگی دارد.