Whisper چیست؟ آشنایی با قدرتمندترین مدل تبدیل گفتار به متن
با گسترش کاربرد هوش مصنوعی در پردازش گفتار، ابزارهای تبدیل صوت به متن به بخش مهمی از پردازش زبان طبیعی تبدیل شدهاند. یکی از پیشرفتهترین این ابزارها Whisper است؛ مدلی که توسط شرکت OpenAI در سال 2021 توسعه یافته و به دلیل دقت بالا، پشتیبانی زبانی گسترده و توانایی درک لهجهها و گفتارهای متفاوت، توجه بسیاری از کاربران و توسعه دهندگان را به خود جلب کرده است.
در ادامه، به معرفی این مدل، نحوه کار، مزایا و چالشهای آن پرداخته و در نهایت آن را با دو سرویس مطرح دیگر، یعنی Google Speech-to-Text و Amazon Transcribe مقایسه خواهیم کرد.
Whisper چیست؟
Whisper یک مدل برای تشخیص صوت و تبدیل صدا به متن است. این مدل قادر به تشخیص زبانهای مختلف و توانایی تبدیل آنها به متن با هر زبانی است. به طور مثال شما فارسی صحبت میکنید، Whisper متوجه صحبتهای شما میشود و میتواند آن را به زبان انگلیسی بنویسد. این مدل حتی توانایی درک گویشها و لهجههای متفاوت را دارد و همین موضوع درصد خطا را برای آن پایین میآورد. OpenAI Whisper به دلیل دقت بالا و توانایی درک خوب کاربردهای زیادی در حوزههای مختلف دارد.

Whisper چه دادههایی دارد؟
Whisper یکی از جامعترین سیستمهای ASR در جهان است و از مجموعه دادهای شامل 680 ساعت داده آموزش دیده است. این دادهها از فضای اینترنت و مباحث دانشگاهی برداشته شدهاند. این مجموعه آموزش، 117 هزار ساعت به زبانهای مختلف تخصص دارد و Whisper Ai تقریبا 99 زبان زنده دنیا را پشتیبانی میکند.
روش کار Whisper
Whisper یک سیستم پیچیده است و از چندین مدل زبانی بزرگ استفاده میکند.
- در قدم اول، Whisper صوت را تشخیص میدهد و آن را به بخشهای کوچک تبدیل میکند. سپس آنها را به Spectrogram تبدیل میکند.
- در قدم بعدی این مدل ویژگیها و نکات مهم زبانی را از Spectrogram جدا میکند.
- اگر صوت به زبانی نامشخص و پشتیبانی نشده باشد، این هوش مصنوعی متوجه آن میشود.
- بعد از این مراحل، Whisper متنی که تشخیص داده را ترجمه میکند.
- در آخرین قدم متن قبل از خروجی بازنگری میشود تا اصلاح شده و روانتر شود.
مزایای Whisper
- دقت بالا: Whisper دقت بسیار بالایی در تبدیل صوت به متن دارد و ترجمههای این مدل بسیار درست و دقیق است. از طرفی این مدل توانایی تشخیص صدا را در محیطهای شلوغ و نویز کنسلینگ دارد، که این موضوع باعث افزایش دقت آن نیز میشود.
- پشتیبانی زبانی: این مدل میتواند از زبانهای مختلف پشتیبانی کند. با Whisper حدود 57 زبان در تبدیل صوت به متن و از 99 زبان برای ترجمه پشتیبانی میکند.
- متن باز: Whisper کاملا متن باز است و کد آن در دسترس عموم قرار دارد.
- درک لهجه: این مدل میتواند لهجهها و گفتارها را تشخیص دهد و اصطلاحات تخصصی را بفهمد.
چالشهای Whisper
- محدودیت ورودی: در نسخه متن باز Whisper، اندازه فایلی که به آن داده میشود باید زیر 25 مگابایت بوده و حداکثر تا 30 ثانیه است.
- هدایت توسط GPT-3: فاز decoding این مدل توسط نسخه قدیمی GPT-3 هدایت میشود که در برخی مواقع دارای توهم و خطا نیز هست.
- کارهای هم زمان: Whisper نمیتواند به صورت هم زمان چند کار مانند رونوشت، تفکیک گویندگان، خلاصه سازی و.. را انجام دهد.
- URL یا Callback: این مدل نمیتواند URL یا Callback را از ورودی بپذیرد.
چرا Whisper خاص است؟
این مدل میتواند در محیطهای پر سر و صدا نیز عملکرد خوبی داشته باشد و طبق جدول رتبه بندی Open ASR، دقت Whisper حدود 92% است. این عملکرد و دقت کم نظیر است. از طرفی Whisper مدلهای مختلفی دارد که کاربران میتوانند بین هزینه، دقت و سرعت تعادل ایجاد کنند و مدل مناسب خود را انتخاب کنند.
مدت زمان مورد نیاز Whisper Ai برای انجام رونوشت بسته به زیر ساخت سیستم، یعنی GPU یا CPU، متفاوت است. در صورت استفاده از GPU، این زمان معمولا بین ۸ تا ۳۰ دقیقه است، و در حالت CPU ممکن است تا یک ساعت طول بکشد. البته این زمان همچنین به زبان فایل و حجم محتوای ارسالی بستگی دارد.
Whisper برای چه پروژههایی مناسب است؟
Whisper بیشتر برای پروژههای کوچک با ورودی کم مناسب است و در مقیاسهای بزرگ و پروژههای سازمانی پاسخ گو نیست. مشکلات دیگری نیز که باید در رابطه با این هوش مصنوعی برای پروژه خود بدانید شامل:
- دقت محور بودن Whisper و کاهش سرعت به دلیل دقت بالای آن.
- قبول نکردن URL و محدودیت در حجم و اندازه ورودی.
- عملکرد پایین برای زبانهایی جز انگلیسی.
مقایسه Google Speech ،Whisper و Amazon Transcribe
در اینجا به مقایسه جامع سه مورد از بهترین ابزارهای تبدیل صوت به متن در دنیا میپردازیم.
| معیار | Whisper (OpenAI) | Google Speech-to-Text | Amazon Transcribe |
|---|---|---|---|
| نوع سیستم | مدل متن باز | سرویس ابری | سرویس ابری |
| داده آموزش | حدود 680k ساعت | بیش از 12 میلیون ساعت | داده اختصاصی AWS |
| پشتیبانی زبانی | حدود 99 زبان | بیش از 100 زبان | حدود 30 زبان |
| دقت | بسیار بالا، مخصوصا در نویز | بسیار بالا در زبانهای رایج | خوب، اما در برخی زبانها ضعیفتر |
| اجرای آفلاین | دارد | ندارد | ندارد |
| حالت real time | به صورت استاندارد نه (اما مدلهای اصلاح شده دارند) | دارد | دارد |
| تشخیص گوینده | ندارد | دارد | دارد |
| واژگان سفارشی | ندارد | دارد | دارد |
| ترجمه صوت به انگلیسی | دارد | ندارد | ندارد |
| هزینه | رایگان (در صورت اجرای محلی) | پرداخت بر اساس زمان پردازش | پرداخت بر اساس زمان پردازش |
| عملکرد در نویز | بسیار قوی | خوب | متوسط |
| کاربرد ایده آل | پژوهش، پروژه آفلاین، چند زبانه | اپلیکیشنهای تجاری و real time | مراکز تماس و سیستمهای AWS |
کلام آخر
Whisper با وجود متن باز بودن، دقت بسیار بالا و توانایی پردازش چند زبانه، یکی از قدرتمندترین مدلهای تشخیص گفتار حال حاضر است. هر چند محدودیتهایی مانند سرعت پایینتر نسبت به سرویسهای ابری، عدم پشتیبانی از ورودیهای حجیم و نبود قابلیتهای جانبی مانند تفکیک گوینده دارد، اما برای پروژههای کوچک، پژوهشی، آفلاین و چند زبانه گزینهای ایده آل محسوب میشود.
از سوی دیگر Google Speech-to-Text و Amazon Transcribe با تکیه بر زیر ساخت ابری و امکانات گسترده، انتخابهای مناسبتری برای سیستمهای سازمانی، پروژههای بزرگ و تحلیل مکالمات در مقیاس بالا هستند. در نهایت، انتخاب میان این سه ابزار به نوع پروژه، نیاز به مقیاس پذیری، بودجه، زبان ورودی و سطح دقت مورد انتظار بستگی دارد.
سوالات متداول
Whisper در شرایط استاندارد و حتی محیطهای شلوغ دقت بسیار بالایی دارد و در رتبه بندی Open ASR حدود ۹۲٪ دقت ثبت کرده است.
در نسخه متن باز، اندازه فایل ورودی باید زیر ۲۵ مگابایت باشد و معمولا فایلها تا حدود ۳۰ ثانیه پردازش میشوند؛ البته نسخههای اصلاح شده میتوانند بیشتر نیز پشتیبانی کنند.
منابع
- https://www.gladia.io/blog/what-is-openai-whisper
- https://www.geeksforgeeks.org/artificial-intelligence/openai-whisper/
به این مقاله امتیاز دهید!
میانگین امتیاز 0 / 5. تعداد رأی ها : 0
هنوز هیچ رأیی داده نشده. اولین نفر باشید!

اولین دیدگاه را اضافه کنید.