Gemma چیست؟ آشنایی با هوش مصنوعی متن باز گوگل

Q: آیا Gemma امن است؟

گوگل اعلام کرده که Gemma از نظر حفظ دادهها ریسک پایینی دارد، اما همچنان چالشهایی مانند سوگیری و توهم ممکن است وجود داشته باشد.

Q: Gemma برای چه کاربردهایی مناسب است؟

CodeGemma: تولید کد و پشتیبانی از زبانهای برنامه نویسی مختلف. PaliGemma: پردازش تصویر و متن، تولید کپشن و تشخیص اشیا. DataGemma: پاسخ دهی با استناد به دادههای Google Data Commons.

۲۴ بهمن ۱۴۰۴

فاطمه آقا محمدی مقالات 0 آخرین بروزرسانی : ۵ بهمن ۱۴۰۴ زمان مطالعه : 6 دقیقه 51 0

می‌توانید خلاصه‌ای کوتاه از محتوای مقاله را با استفاده از هوش مصنوعی دریافت نمایید.

با پیشرفت روزافزون هوش مصنوعی، مدل‌های زبانی روز به روز کاربردی‌تر و قابل دسترس‌تر شده‌اند. گوگل با ارائه Gemma، مدلی متن باز و سبک از خانواده Gemini، تلاش کرده تا قدرت پردازش زبان طبیعی را به دستگاه‌های مختلف از لپ تاپ تا گوشی‌های هوشمند بیاورد و تجربه‌ای ساده و در عین حال کارآمد از هوش مصنوعی ارائه دهد.

Gemma چیست؟

Gemma یک مدل زبانی رایگان و متن باز است که توسط گوگل ارائه شده است. این مدل با فناوری به کار رفته در مدل‌های پولی گوگل یعنی Gemini ساخته شده، اما مدلی سبک‌تر و کوچک‌تر محسوب می‌شود. همان طور که گفته شد، Gemma بسیار سبک است و به راحتی روی لپ تاپ‌ها و گوشی‌های هوشمند اجرا می‌شود. همچنین، طبق همکاری گوگل با NVIDIA، این مدل زبانی روی GPUهای NVIDIA نیز قابل اجرا است.

این مدل زبانی در فوریه 2024 برای اولین بار معرفی شد و نام آن به معنای سنگ قیمتی، از واژه‌ای لاتینی گرفته شده است.

بیشتر بخوانید: آشنایی با هوش مصنوعی Google Gemini

بررسی مدل‌های مختلف Gemma

هسته اصلی مدل زبانی Gemma، شامل Gemma و Gemma 2 است. اما مدل‌های دیگر بر اساس معماری‌های متفاوت برای هدف‌های مشخص توسعه داده شده‌اند.

Gemma: اولین نسل از مدل زبانی Gemma، همین مدل است که دارای دو نسخه اولیه با 2 میلیارد پارامتر و 7 میلیارد پارامتر است. آموزش مدل Gemma عمدتا با محتواهای انگلیسی زبان بوده است.
Gemma 2: این مدل نسل دوم از خانواده Gemma بوده که چند ماه بعد از اولین نسخه، منتشر شده است. طبق گفته گوگل، Gemma 2 عملکرد بهتری داشته و در ارائه پاسخ کارآمدتر بوده است. مدل جما 2 نیز دارای 2 و 7 و 27 میلیارد پارامتر است.
CodeGemma: این مدل به طور اختصاصی برای اهدافی مانند برنامه نویسی توسعه داده شده و یک مدل متن به کد محسوب می‌شود. CodeGemma از طیف گسترده‌ای از زبان‌های برنامه نویسی مانند JavaScript، Kotlin، Python و سایر زبان‌ها پشتیبانی می‌کند.
PaliGemma: مدل PaliGemma خروجی متنی دارد، اما ورودی تصویری هم قبول می‌کند. به طور کلی PaliGemma را می‌توان برای کارهایی مانند تشخیص اشیا در تصاویر، تولید کپشن، خواندن متن از تصویر و از این قبیل کارها مناسب دانست.
DataGemma: مدل DataGemma از Gemma پاسخ‌های خود را با استناد به Google Data Commons ارائه می‌دهد.
Gemma 3: در سال 2025 جدیدترین مدل جما، یعنی Gemma 3 معرفی شد. این نسخه دارای 1، 4، 12 و 27 میلیارد پارامتر است و پنجره زمینه به 128 هزار توکن رسیده است. این مدل نسبت به مدل قبل، یعنی Gemma 2 تا 50 درصد بهتر شده و پشتیبانی از زبان‌های مختلف بهتر شده است.

بررسی عملکرد Gemma

طبق ارزیابی‌ها و آزمون‌های بنچمارک‌، Gemma 7B عملکرد خوبی داشته و در مقایسه با برخی از مدل‌های هم مقیاسش توانسته امتیازات خوبی کسب کند. در نسخه‌های دیگر مانند 9B و 27B این عملکرد بهتر نیز بوده است. اما مدل‌های دیگری مانند Ministral 3B و Phi-3-mini عملکرد بهتری از جما داشته‌اند.

استفاده از Gemma ریسک‌‌ها و چالش‌هایی نیز به همراه دارد. چالش‌‌هایی مانند سوگیری، توهم، و نقص حریم خصوصی که بسیار اهمیت دارند. اما از نظر امنیت و حفظ داده‌ها، گوگل اعلام کرده این مدل زبانی از ریسک پایینی برخوردار است.

چگونه می‌توان به Gemma دسترسی داشت؟

برای دسترسی به نسخه‌های مدل زبانی Gemma، می‌توانید از پلتفرم‌های زیر استفاده کنید.

Google AI Studio
Kaggle
Vertex AI Model Garden
Hugging Face

اگر قصد دارید Gemma را با حداکثر سرعت و بدون محدودیت سخت افزاری اجرا کنید، سرور اختصاصی پرسرعت پویان آی تی بهترین انتخاب خواهد بود.

روش کار Gemma

گوگل در سال 2017 معماری شبکه عصبی‌ای، با نام ترنسفورمر را معرفی کرد. مدل Gemma نیز بر پایه همین معماری توسعه داده شده است. ترنسفورمر می‌داند که چگونه باید کلمات را به هم ربط دهد و پاسخی مربوط ارائه دهد.

در قدم اول متن را به اعداد تبدیل می‌کند که به آن امبدینگ می‌گویند.
در این مرحله مدل زبانی کلمات مهم را شناسایی می‌کند که خود توجهی نام دارد.
بعد از تشخیص جمله و کلمات مهم، بر اساس اطلاعاتی که دارد شروع به ساخت و ارسال پاسخ می‌کند.

مقایسه Ministral 3B، Phi-3-mini و Gemma

در این قسمت به مقایسه سه هوش مصنوعی هم رده، می‌پردازیم تا آنها را از نظر عملکرد بررسی کنیم.

ویژگی کلیدی	Ministral 3B	Phi-3-mini	Gemma 3
سازنده	Mistral + Microsoft	Microsoft	Google
اندازه مدل	3B	3.8B	1B–27B
کانتکست	128k	4k–8k	128k
متن باز
نقطه قوت اصلی	Agentها و function calling	Reasoning و Code	مدل عمومی
سرعت / Latency	عالی	خوب	متوسط
هزینه اجرا	خیلی کم	کم	کم–متوسط
Edge / On-device	مناسب	عالی	مناسب
عملکرد نسبی	بهترین در بین هم رده‌ها	بسیار قوی	خوب

کلام آخر

Gemma به عنوان یک مدل زبانی سبک، متن باز و قابل اجرا روی دستگاه‌های مختلف، نشان دهنده تلاش گوگل برای ارائه هوش مصنوعی عمومی و در دسترس است؛ هر چند در مقایسه با هم رده‌های خود مانند Ministral 3B و Phi-3-mini، عملکرد متوسط تا خوب دارد، اما تنوع نسخه‌ها و قابلیت‌های اختصاصی آن، آن را به گزینه‌ای جذاب برای توسعه دهندگان و کاربران تبدیل کرده است.