Whisper چیست؟

Whisper چیست؟ آشنایی با قدرتمندترین مدل تبدیل گفتار به متن

فهرست مطالب

با گسترش کاربرد هوش مصنوعی در پردازش گفتار، ابزارهای تبدیل صوت به متن به بخش مهمی از پردازش زبان طبیعی تبدیل شده‌اند. یکی از پیشرفته‌ترین این ابزارها Whisper است؛ مدلی که توسط شرکت OpenAI در سال 2021 توسعه یافته و به دلیل دقت بالا، پشتیبانی زبانی گسترده و توانایی درک لهجه‌ها و گفتارهای متفاوت، توجه بسیاری از کاربران و توسعه دهندگان را به خود جلب کرده است.
در ادامه، به معرفی این مدل، نحوه کار، مزایا و چالش‌های آن پرداخته و در نهایت آن را با دو سرویس مطرح دیگر، یعنی Google Speech-to-Text و Amazon Transcribe مقایسه خواهیم کرد.

Whisper چیست؟

Whisper یک مدل برای تشخیص صوت و تبدیل صدا به متن است. این مدل قادر به تشخیص زبان‌های مختلف و توانایی تبدیل آنها به متن با هر زبانی است. به طور مثال شما فارسی صحبت می‌کنید، Whisper متوجه صحبت‌های شما می‌شود و می‌تواند آن را به زبان انگلیسی بنویسد. این مدل حتی توانایی درک گویش‌ها و لهجه‌های متفاوت را دارد و همین موضوع درصد خطا را برای آن پایین می‌آورد. OpenAI Whisper به دلیل دقت بالا و توانایی درک خوب کاربردهای زیادی در حوزه‌های مختلف دارد.

Whisper

Whisper چه داده‌هایی دارد؟

Whisper یکی از جامع‌ترین سیستم‌های ASR در جهان است و از مجموعه داده‌ای شامل 680 ساعت داده آموزش دیده است. این داده‌ها از فضای اینترنت و مباحث دانشگاهی برداشته شده‌اند. این مجموعه آموزش، 117 هزار ساعت به زبان‌های مختلف تخصص دارد و Whisper Ai تقریبا 99 زبان زنده دنیا را پشتیبانی می‌کند.

روش کار Whisper

Whisper یک سیستم پیچیده است و از چندین مدل زبانی بزرگ استفاده می‌کند.

  • در قدم اول، Whisper صوت را تشخیص می‌دهد و آن را به بخش‌های کوچک تبدیل می‌کند. سپس آنها را به Spectrogram تبدیل می‌کند.
  • در قدم بعدی این مدل ویژگی‌ها و نکات مهم زبانی را از Spectrogram جدا می‌کند.
  • اگر صوت به زبانی نامشخص و پشتیبانی نشده باشد، این هوش مصنوعی متوجه آن می‌شود.
  • بعد از این مراحل، Whisper متنی که تشخیص داده را ترجمه می‌کند. 
  • در آخرین قدم متن قبل از خروجی بازنگری می‌شود تا اصلاح شده و روان‌تر شود.

مزایای Whisper 

  • دقت بالا: Whisper دقت بسیار بالایی در تبدیل صوت به متن دارد و ترجمه‌های این مدل بسیار درست و دقیق است. از طرفی این مدل توانایی تشخیص صدا را در محیط‌های شلوغ و نویز کنسلینگ دارد، که این موضوع باعث افزایش دقت آن نیز می‌شود.
  • پشتیبانی زبانی: این مدل می‌تواند از زبان‌های مختلف پشتیبانی کند. با Whisper حدود 57 زبان در تبدیل صوت به متن و از 99 زبان برای ترجمه پشتیبانی می‌کند.
  • متن باز: Whisper کاملا متن باز است و کد آن در دسترس عموم قرار دارد.
  • درک لهجه: این مدل می‌تواند لهجه‌ها و گفتارها را تشخیص دهد و اصطلاحات تخصصی را بفهمد.

چالش‌های Whisper

  • محدودیت ورودی: در نسخه متن باز Whisper، اندازه فایلی که به آن داده می‌شود باید زیر 25 مگابایت بوده و حداکثر تا 30 ثانیه است.
  • هدایت توسط GPT-3: فاز decoding این مدل توسط نسخه قدیمی GPT-3 هدایت می‌شود که در برخی مواقع دارای توهم و خطا نیز هست.
  • کارهای هم زمان: Whisper نمی‌تواند به صورت هم زمان چند کار مانند رونوشت، تفکیک گویندگان، خلاصه سازی و.. را انجام دهد.
  • URL یا Callback: این مدل نمی‌تواند URL یا Callback را از ورودی بپذیرد.

چرا Whisper خاص است؟

این مدل می‌تواند در محیط‌های پر سر و صدا نیز عملکرد خوبی داشته باشد و طبق جدول رتبه بندی Open ASR، دقت Whisper حدود 92% است. این عملکرد و دقت کم نظیر است. از طرفی Whisper مدل‌های مختلفی دارد که کاربران می‌توانند بین هزینه، دقت و سرعت تعادل ایجاد کنند و مدل مناسب خود را انتخاب کنند.

مدت زمان مورد نیاز Whisper Ai برای انجام رونوشت بسته به زیر ساخت سیستم، یعنی GPU یا CPU، متفاوت است. در صورت استفاده از GPU، این زمان معمولا بین ۸ تا ۳۰ دقیقه است، و در حالت CPU ممکن است تا یک ساعت طول بکشد. البته این زمان همچنین به زبان فایل و حجم محتوای ارسالی بستگی دارد.

Whisper برای چه پروژه‌هایی مناسب است؟

Whisper بیشتر برای پروژه‌های کوچک با ورودی کم مناسب است و در مقیاس‌های بزرگ و پروژه‌های سازمانی پاسخ گو نیست. مشکلات دیگری نیز که باید در رابطه با این هوش مصنوعی برای پروژه خود بدانید شامل:

  • دقت محور بودن Whisper و کاهش سرعت به دلیل دقت بالای آن.
  • قبول نکردن URL و محدودیت در حجم و اندازه ورودی.
  • عملکرد پایین برای زبان‌هایی جز انگلیسی.

مقایسه Google Speech ،Whisper و Amazon Transcribe

در اینجا به مقایسه جامع سه مورد از بهترین ابزارهای تبدیل صوت به متن در دنیا می‌پردازیم.

معیارWhisper (OpenAI)Google Speech-to-TextAmazon Transcribe
نوع سیستممدل متن بازسرویس ابریسرویس ابری
داده آموزشحدود 680k ساعتبیش از 12 میلیون ساعتداده اختصاصی AWS
پشتیبانی زبانیحدود 99 زبانبیش از 100 زبانحدود 30 زبان
دقتبسیار بالا، مخصوصا در نویزبسیار بالا در زبان‌های رایجخوب، اما در برخی زبان‌ها ضعیف‌تر
اجرای آفلاینداردنداردندارد
حالت real timeبه صورت استاندارد نه (اما مدل‌های اصلاح شده دارند)دارددارد
تشخیص گویندهندارددارددارد
واژگان سفارشیندارددارددارد
ترجمه صوت به انگلیسیداردنداردندارد
هزینهرایگان (در صورت اجرای محلی)پرداخت بر اساس زمان پردازشپرداخت بر اساس زمان پردازش
عملکرد در نویزبسیار قویخوبمتوسط
کاربرد ایده آلپژوهش، پروژه آفلاین، چند زبانهاپلیکیشن‌های تجاری و real timeمراکز تماس و سیستم‌های AWS

کلام آخر

Whisper با وجود متن باز بودن، دقت بسیار بالا و توانایی پردازش چند زبانه، یکی از قدرتمندترین مدل‌های تشخیص گفتار حال حاضر است. هر چند محدودیت‌هایی مانند سرعت پایین‌تر نسبت به سرویس‌های ابری، عدم پشتیبانی از ورودی‌های حجیم و نبود قابلیت‌های جانبی مانند تفکیک گوینده دارد، اما برای پروژه‌های کوچک، پژوهشی، آفلاین و چند زبانه گزینه‌ای ایده‌ آل محسوب می‌شود.
از سوی دیگر Google Speech-to-Text و Amazon Transcribe با تکیه بر زیر ساخت ابری و امکانات گسترده، انتخاب‌های مناسب‌تری برای سیستم‌های سازمانی، پروژه‌های بزرگ و تحلیل مکالمات در مقیاس بالا هستند. در نهایت، انتخاب میان این سه ابزار به نوع پروژه، نیاز به مقیاس‌ پذیری، بودجه، زبان ورودی و سطح دقت مورد انتظار بستگی دارد.

سوالات متداول

Whisper در شرایط استاندارد و حتی محیط‌های شلوغ دقت بسیار بالایی دارد و در رتبه بندی Open ASR حدود ۹۲٪ دقت ثبت کرده است.

در نسخه متن باز، اندازه فایل ورودی باید زیر ۲۵ مگابایت باشد و معمولا فایل‌ها تا حدود ۳۰ ثانیه پردازش می‌شوند؛ البته نسخه‌های اصلاح شده می‌توانند بیشتر نیز پشتیبانی کنند.

منابع

  • https://www.gladia.io/blog/what-is-openai-whisper
  • https://www.geeksforgeeks.org/artificial-intelligence/openai-whisper/

به این مقاله امتیاز دهید!

میانگین امتیاز 0 / 5. تعداد رأی ها : 0

هنوز هیچ رأیی داده نشده. اولین نفر باشید!

اشتراک گذاری در تلگرام اشتراک گذاری در لینکدین اشتراک گذاری در ایکس کپی کردن لینک پست

و در ادامه بخوانید

اولین دیدگاه را اضافه کنید.

    برچسب ها

    هوش مصنوعی