هوش مصنوعی Wan2.1: تبدیل متن و عکس به ویدیو!
چه میشد اگر میتوانستید با نوشتن یک جمله ساده مانند “سگ گلدن رتریوری که در ساحل بازی میکند” یک ویدیوی کامل ایجاد کنید؟ شاید اگر چند سال پیش از کسی این سوال را میپرسیدید آن را به عنوان یک فانتزی دور از دسترس در نظر میگرفت. اما بعد از ورود ChatGPT و انقلاب هوش مصنوعی دیگر چنین مواردی دور از دسترس نیستند. در این مقاله میخواهیم راجع به هوش مصنوعی قدرتمند Wan2.1 صحبت کنیم که شرکت بزرگی مانند علی بابا در پشت صحنه تولید آن قرار دارد.
هوش مصنوعی Wan2.1 چیست؟
Wan2.1 یک هوش مصنوعی پیشرفته و منبع باز است که توسط Tongyi Lab شرکت علی بابا تولید و ریشه در کشور چین دارد. هدف اصلی این هوش مصنوعی ساخت ویدیوهای با کیفیت از دستورات متنی و تصاویر کاربران است. Wan2.1 همچنین قابلیتهای دیگری مانند ادیت ویدیو و ساخت تصاویر از دستورات متنی را در اختیار کاربران قرار میدهد که آن را به یک هوش مصنوعی کامل با قابلیتهای فوق العاده تبدیل کرده است. این مدل برای دستورات متنی خود از زبان انگلیسی و چینی پشتیبانی میکند و عملکرد فوق العادهای در بنچمارکهایی مانند VBench نشان میدهد که Wan2.1 در رقابت با هوش مصنوعیهای همرده و منبع باز دیگر، سرتر است.

عملکرد Wan2.1
هوش مصنوعی منبع باز علی بابا، متنها و تصاویر را به ویدیوهای فوق العاده و واقع گرایانه تبدیل میکند. این هوش مصنوعی با نمره 84.6% در VBench خود را به یکی از رقبای اصلی Sora، محصول OpenAI تبدیل کرده است. Wan2.1 میتواند ویدیوهای پنج ثانیهای را در نزدیک 4 دقیقه بر روی کارت گرافیک RTX 4090 تولید کند. همچنین این هوش مصنوعی به صورت دو زبانه از انگلیسی و چینی برای دستورات متنی پشتیبانی میکند و بیش از صد سبک برای ساخت ویدیو و تصاویر را ارائه میدهد.
تولید ویدیو با Wan2.1: سفر متنها به دنیای بصری
قابلیت پرچمدار هوش مصنوعی علی بابا، تولید ویدیوها بر اساس دستورات متنی شما است. Wan2.1 در مدت زمان حداکثر پنج دقیقه میتواند ویدیوهایی با کیفیت 480 تا 1080 تولید کند. هسته اصلی Wan2.1 در تولید ویدیو، بر مبنای تلفیق فرآیندهای پردازش زبان طبیعی و بصری استوار است. در گام نخست، متن ورودی توسط زیرسیستم NPL مورد تجزیه و تحلیل عمیق قرار میگیرد و ساختار معنایی، موجودیتهای کلیدی و روابط بین آنها استخراج میگردد. این درک معنا، مبنایی برای مرحله بعد، یعنی تفسیر بصری فراهم میآورد.
در این مرحله Wan2.1 با بهره گیری از دیتابیسهای غنی چند رسانهای و الگوریتمهای هوشمند، تلاش میکند تا متناسبترین موارد دیداری را برای مصور سازی متن انتخاب نماید. سپس با اعمال اصول طراحی صحنه و ترکیب بندی، این عناصر در قالب فریمهای ویدیویی سازماندهی میشوند و با استفاده از تکنیکهای انیمیشن جان میگیرند. در ادامه ویدیوی تولید شده توسط Wan2.1 را مشاهده میکنید:
تولید تصویر با Wan2.1
در فرآیند تولید تصاویر ثابت با Wan2.1، اگرچه از بسیاری جهات با منطق تولید ویدیو همپوشانی دارد، اما بر روی خلق یک واحد بصری منسجم و ایستا تمرکز میگردد. همچنین این هوش مصنوعی سبکهای متنوع بسیاری را برای تولید تصاویر زیبا پیشنهاد میدهد که آن را به یکی از هوش مصنوعیهای قدرتمند حوزه تولید تصاویر نیز تبدیل کرده است. نکته قابل توجه، بهره گیری Wan2.1 از مدلهای پیشرفته هوش مصنوعی، به ویژه شبکههای مولد، در این بخش است که امکان تولید تصاویری با کیفیت بالا و نزدیک به واقعیت را فراهم میآورد.

تصاویر خود را به دنیای واقعی بیاورید!
یکی دیگر از قابلیتهای منحصر به فرد Wan2.1 تولید ویدیوهای با کیفیت از تصاویر شما است. یکی از جنبههای کلیدی این قابلیت، امکان افزودن جلوههای بصری و حرکتی به تصاویر ایستا است. Wan2.1 میتواند با استفاده از تکنیکهای Zoom ،Pan و Rotation پویایی و جذابیت بصری به تصاویر ببخشد. همچنین این قابلیت، امکان تنظیم مدت زمان نمایش هر تصویر و اعمال افکتهای متنوع بین آنها، ریتم و جریان مناسبی را برای ویدیوها فراهم میکند. علاوه بر جلوههای بصری، این هوش مصنوعی امکان غنی سازی ویدیوهای تولید شده را از طریق افزودن لایههای صوتی میآورد. کاربران میتوانند موسیقی پس زمینه دلخواه خود را انتخاب کرده یا حتی صداگذاری یا توضیحات شفاهی را ویدیو اضافه کنند.
اثر Wan2.1 در تولید محتوا
هوش مصنوعی قدرتمند شرکت علی بابا، میتواند به مثابه یک قلموی دیجیتال در دستان هنرمندان معاصر عمل کند. این فناوری با قابلیت تبدیل ایدهها و مفاهیم انتزاعی به تصاویر و ویدیوهای ملموس، امکان تجسم رویاها را فراهم میآورد. هنرمندان میتوانند با الهامات متنی و بصری خود و هدایت فرآبند تولید، به سبکهای بصری نوینی دست یابند که پیش از این تصور آنها غیر ممکن بود. تعامل خلاقانه بین هنرمند و این هوش مصنوعی میتواند منجر به خلق آثاری شود که مرزهای بین واقعیت و خیال را در هم میآمیزد و تجربههای بصری منحصر به فردی برای مخاطب رقم میزند.
بیشتر راجع به هوش مصنوعی مولد بخوانید!
در نهایت
هوش مصنوعی Wan2.1 از کشور چین یکی از رقبای اصلی Sora محصول معروف OpenAI در زمینه تولید ویدیو است. این هوش مصنوعی با گرفتن امتیازهای بالا در بنچمارکهای مختلف و متن باز بودن خود را به یکی از بهترینهای این حوزه تبدیل کرده است. علاوه بر تولید ویدیو، Wan2.1 با ارائه قابلیتهایی مانند تبدیل عکس به ویدیو و صدا گذاری، به یک پکیج کامل از هرآنچه که در تولید محتوا میخواهید تبدیل شده و جذابیت رقابتی حوزه هوش مصنوعی را بیش از پیش به اوج رسانده است.
سوالات متداول
آیا استفاده از Wan2.1 رایگان است؟
بله، این هوش مصنوعی منبع باز (Open Source) است و استفاده از آن هزینهای ندارد. با این حال مدلهای وابسته به آن قیمت گذاریهای مختلفی دارند.
چگونه متنهایی را میتوانم به ویدیو تبدیل کنم؟
از متنهای کوتاه گرفته تا اسناد بلندتر شما میتوانید بر اساس متنی که به این هوش مصنوعی میدهید ویدیوی خود را دریافت کنید. کیفیت ویدیوی تولیدی تا حد زیادی به کیفیت متن شما بستگی دارد.
آیا میتوانم تصاویر خود را در ویدیوهای Wan2.1 استفاده کنم؟
بله شما میتوانید با این هوش مصنوعی تصاویر خود را به دنیای واقعی بیاورید و بر اساس چیزی که میخواهید به آنها افکت و حرکت دهید.
منابع
- https://www.wan-ai.org/
به این مقاله امتیاز دهید!
میانگین امتیاز 0 / 5. تعداد رأی ها : 0
هنوز هیچ رأیی داده نشده. اولین نفر باشید!
اولین دیدگاه را اضافه کنید.