محافظت از LLM توسط Azure AI

Q: چطور میتوان با استفاده از ابزارهای AI Azure، خروجیهای ناپایدار مدلهای هوش مصنوعی را تشخیص داد و پیشگیری از آنها را انجام داد؟

با استفاده از ابزارهای AI Azure، مانند مدلهای زبان و ابزارهای تشخیص استواری دادها، میتوان خروجیهای ناپایدار مدلهای هوش مصنوعی را تشخیص داد.

نوشته شده توسط خانم ارجمندی مقالات 0 دیدگاه آخرین بروزرسانی : ۱۷ خرداد ۱۴۰۳

انجام یک سری کارها برای محافظت از LLM در راستای فیلتر کردن Promptهای مخرب مورد استفاده قرار می‌گیرد تا به وسیله آن ایمنی در استفاده از Generative AI افزایش یابد. در این مقاله قصد داریم تا به توضیح درباره محافظت از LLM توسط Azure AI بپردازیم. پس تا انتها همراه ما باشید.

Generative AI : این نوع از هوش مصنوعی می‌تواند داده‌های جدیدی مثل متون، تصاویر، یا حتی موسیقی بسازد. به این مدل‌ها می‌توان به عنوان هنرمندان مصنوعی نیز اشاره کرد، زیرا آن‌ها قادرند آثار خلاقانه‌ای تولید کنند. 

Genarative AI، مدل‌های ناقصی که می‌خواهیم دربرابرشان از کاربران و کد خود محافظت کنیم، مجزا ساخته‌است. این امر می‌تواند هم به شدت امیدوار کننده و یا بسیار پرخطر باشد. همه در اخبار این را مشاهده کردیم که این امکان وجود دارد که ربات‌های مخصوص گفتگو یا چت‌بات‌ها ترغیب شوند تا رفتار توهین آمیز یا نژادپرستانه داشته باشند، یا LLMها (Large Language Model) برای اهداف نامناسب به کار برده‌شوند که خروجی‌هایشان در بهترین حالت ایده‌آل و در بدترین حالت خطرناک هستند.

Large Language Model : این سیستم‌های هوش مصنوعی با داده‌های بسیار زیادی از زبان‌های مختلف آموزش داده شده‌اند. آنها می‌توانند به سوالات پاسخ دهند، متون را تولید کنند و حتی به مکالمه با انسان‌ها شبیه شوند. 

هیچ‌کدام از این‌ها منحصراً تعجب آور نیست. ممکن است (Prompts) پیچیده‌ای را طراحی کنیم که منجر به خروجی‌های نامطلوبی می‌شوند و پنجره ورودی ازدستورالعمل ها و ابزار های محافظت سیستم‌هایمان عبور می‌کند. هم زمان، این اتفاقات رخ می‌دهند:

ما خروجی‌هایی را می‌بینیم فراتر از داده‌های موجود در مدل پایه قرار می‌گیرند.
متنی ارائه می‌شود که دیگر حقیقی نیست.
عباراتی تولید شوند که از نظز معنایی درست اما ار نظر هوش مصنوعی نامربوط باشند.

اگرچه می‌توانیم از روش‌هایی مانند Retrieval-Augmented Generation (RAG) و ابزارهای Semantic Kernel و LangChain استفاده کنیم تا برنامه‌هایمان را مبتنی بر داده‌های خود نگه داریم. هنوز Prompt Attack هایی وجود دارند که می‌توانند خروجی‌های بی‌ربط به جود می‌آورند و اعتبار داده را در خطر قرار دهند. نیازمندیم که از قبل، یک راهی برای آزمایش برنامه‌های هوش مصنوعی وجود داشته باشد اگر چه ایمنی آنها را تضمین نمی‌کند، حداقل ریسک این حملات را کاهش دهد. همچنین مطمئن می‌شویم که Promptهای خودمان Force Bias نمی‌شوند یا به درخواست‌های نامناسب پاسخ داده نمی‌شود.

معرفی هوش مصنوعی ایمنی محتوای Azure

شرکت مایکروسافت به مدت طولانی از خطرات ذکر شده آگاه بوده‌است. با درس عبرت گرفتن از گذشته، دیگر با فاجعه ی PR مانند چت‌بات Tay مواجه نمی‌شوید. (چت‌بات مایکروسافت که به کاربران توییت‌های نامناسب ارائه داده بود و بلافاصله توسط مایکروسافت بسته شد.) در نتیجه، این شرکت سرمایه هنگفتی در قسمت مسئول سازمان محور هوش مصنوعی‌اش کرده است. بخشی از این گروه، AI Azure که مسئول بخش هوش مصنوعی است، در محافظت از برنامه‌های تولیدی با استفاده از AI Azure Studio، تمرکز دارد و یک مجموعه ابزاری همراه با آن به عنوان Azure AI Content Safety، توسعه داده است.

Prompt Attacks

برخورد با تزریق حملات Prompt اهمیت زیادی دارد؛ زیرا یک Prompt مخرب نه تنها منتهی به محتوای نامطلوب می‌شود، بلکه می‌تواند بدین منظور کار کند که داده‌های بهم متصل و باهم هماهنگ به مدل را استخراح کند. در حالی که این واضح است که اطمینان حاصل شود که داده‌های RAG شامل اطلاعات شناسایی شده شخصی یا داده‌های تجاری حساس نیست، از اتصالات API خصوصی گرفته تا سیستم‌های کسب و کار رده‌بندی شده، همه این زمینه را دارند که بتوان به راحتی به آن‌ها نفوذ کرد.

در ادامه ی حملات Prompt ما نیاز به مجموعه‌ای از ابزارها داریم که به ما اجازه دهد برنامه‌های هوش مصنوعی را قبل از ارسال به کاربران آزمایش کنیم و به ما اجازه دهد فیلترهای پیشرفته‌ای را بر روی ورودی‌ها اعمال کنیم تا خطر حملات تزریق Prompt را کاهش دهیم و حملاتی نوعشان شناخته شده‌است پیش از اینکه در مدل هایمان به کار بگیریم را مسدود کنیم.

پلتفرم‌های هوش مصنوعی بسیار کمی هستند از شرکت مایکروسافت و محیط پیشرفته‌ی AI Azure Studio آن بزرگ‌تر هستند. با استفاده از خدمات Copilot (خدمات Copilot مایکروسافت از جمله ابزارهای هوش مصنوعی و تکنولوژی ابری مایکروسافت هستند که برای کمک به توسعه دهندگان نرم‌افزار در فرایند نوشتن کد استفاده می‌شوند. این خدمات از تکنولوژی‌های پیشرفته مانند یادگیری ماشینی و پردازش زبان طبیعی بهره می‌برند تا به صورت خودکار پیشنهادات و راهنمایی‌های کدی برای توسعه‌دهندگان فراهم کنند.)

مایکروسافت که بر‌روی سازمان OpenAI سرمایه گذاری کرده‌است قادر به ردیابی Promptها و خروجی‌ها در سراسر محدوده‌ی وسیعی در برنامه های مختلف در چندین سطوح از استوار سازی با منابع متفاوت از داده‌هاست. این امکان را به تیم امنیتی هوش مصنوعی مایکروسافت می‌دهد تا به سرعت بفهمد که چه نوعی از Promptها مشکلات ساز‌اند و در با توحه به آن سوریس امنیتی خود را بهبود ببخشد.

استفاده از Prompt Shields برای کنترل ورودی‌ها هوش مصنوعی

Prompt Shields یا سپرهای Prompt مجموعه‌ای از فیلترها برای ورودی هستند. وقتی که Promptها را به طور عادی تولید می‌کنید Prompt Shields آنها را تجزیه و تحلیل می‌کند و Promptهای مخرب را قبل از ارسال به LLM شما مسدود می‌کند.

هم اکنون دو نوع Prompt Shield وجود دارد. Prompt Shield برای Promptهای کاربر طراحی شده است تا برنامه شما را از Promptهای کاربری که مدل از حالت استوار به خروجی های نامطلوب سوق می‌دهد، محافظت می‌کند. روشن است که این موارد بسیار اعتبار را به خطر می‌اندازند. با مسدود کردن Promptهایی که این خروجی‌ها را به وجود می‌آورند، برنامه LLM شما باید روی حالت‌های خاص مورد استفاده‌ی شما متمرکز بماند. در حالی که سطح حملات برای برنامه LLM شما ممکن است کوچک باشد، سطح Copilot بسیار وسیع است. با فعال‌سازی Prompy Shield، شما می‌توانید از وسعت مهندسی امنیتی مایکروسافت بهره ببرید.

برنامه‌ی Prompt Shield for Documents

Prompt Shield for Documents به کاهش خطرات از طریق حملات غیرمستقیم کمک می‌کند. این‌ها از منابع داده‌ی جایگزین استفاده می‌کنند. Prompt Shield for Documents محتوای این فایل‌ها را بررسی می‌کند و آن‌هایی را که با الگوهای مرتبط با حملات تطبیق دارند، مسدود می‌کند. با افزایش سو‌ء استفاده از تکنیک‌هایی مانند این، ریسک قابل توجهی همراه آن وجود دارد. زیرا این‌ها با استفاده از ابزارهای امنیتی معمولی، به سختی تشخیص داده می‌شوند. استفاده از محافظ‌هایی مانند Prompt Shield که هوش مصنوعی دارند، حائز اهمیت است.

استفاده از Prompt Shield شامل فراخوانی با API (به فراخوانی یا فراخوانی واسط برنامه‌نویسی اشاره دارد. در این فرایند، یک برنامه یا سرویس از طریق واسط برنامه‌نویسی یک درخواست ارسال می‌کند تا به یک عملیات خاص دسترسی پیدا کند یا اطلاعاتی را دریافت کند.) با Prompt کاربر و هرگونه اسناد پشتیبانی کننده‌است. این‌ها برای قسمت‌های آسیب‌پذیر تحلیل می‌شوند، با یک پاسخ ساده نشان می‌دهد که یک حمله شناسایی شده‌است. سپس می‌توانید کد را به بخش هماهنگ کننده‌ی LLM خود اضافه کنید تا این پاسخ را دریافت کنید، بعد دسترسی این کاربر را مسدود کنید که چه Promptهایی استفاده کرده‌اند و فیلترهای اضافی را برای جلوگیری از بکار گیری از آن حملات در آینده ایجاد کنید.

بررسی خروجی‌های ناپایدار

این ویژگی تنها برای برنامه‌هایی کار می‌کند که از منابع داده‌ای پایداری استفاده می‌کنند. ابزار تشخیص استواری دادها، خود یک مدل زبان است، هدف آن ایجاد یک حلقه‌ی بازخورد (Feedback Loop) برای خروجی LLM می‌یاشد. حال خروجی LLM را با داده‌هایی که برای استوار شدن به آن کاربرد دارد، مقایسه می‌کند. سپس بررسی می‌کند تا ببیند آیا آن بر اساس داده‌های منبع است و اگر نه، ارور می‌دهد. این فرآیند، Natural Language Inference (استنتاج زبان به صورت طبیعی)، هنوز در مراحل ابتدایی خود است و مدل سطح پایین آن قرار است به روز شود و تیم‌های مسئول بخش هوش مصنوعی مایکروسافت در حال توسعه دادن راه‌هایی هستند که مدل های هوش مصنوعی محتوای خود را از دست ندهند.

با تهیه سرور مجازی پویان آی تی می‌توانید از اتصالی پایدار بهره‌مند شده و از هوش مصنوعی به راحتی استفاده نمایید. جهت خریداری سرور مجازی پویان آی تی همین حالا اقدام نمایید.

حفظ ایمنی کاربران با هشدارها

یک جنبه مهم از خدمات ایمنی محتوای AI Azure اطلاع رسانی به کاربران هنگام انجام کار غیر ایمن با LLM است. شاید آن‌ها به طور اجتماعی مهندسی شده‌اند تا یک Prompt را تحویل دهند که داده‌ها را جا به جا می‌کند. با این حال ارائه راهنمایی برای نوشتن Promptهای ایمن برای LLM، همانند بخشی از سرویس دهی امنیتی‌ Prompt Shield است.

مایکروسافت سیستم قالب‌های گفت و گویی را به AI Azure Studio اضافه می‌کند که می‌تواند به همراه Prompt Shield و دیگر ابزارهای امنیتی هوش مصنوعی به کار برده شود. این موارد به طور خودکار در فضای توسعه AI Azure نشان داده شده‌اند، تا اجازه دهد سیستم گفت و گو چه زمانی نمایان شوند و به شما کمک می‌کند تا پیام‌های خود را بر اساس طراحی و استراتژی محتوای برنامه شما، ایجاد کنید.

آزمایش و نظارت بر مدل‌های خود

AI Azure Studio همچنان بهترین فضا برای ساخت برنامه‌هایی است که با LLMهایی تحت میزبانی Azure کار می‌کنند. این استودیو شامل ارزیابی‌های خودکار برای برنامه‌های شما است و شامل روش‌های سنجیدن ایمنی برنامه‌ است که به استفاده از حملات پیش‌ساخته برای آزمایش واکنش مدل شما به Jailbreaks (برداشتن محدودیت‌های نرم افزاری) و حملات غیر مستقیم و اینکه آیا ممکن است محتوای خطرناک به خروجی دهد می‌پردازند. شما می‌توانید از Promptهای خود یا قالب‌های Prompt اختصاصی مایکروسافت به عنوان پایه آزمایش خود استفاده کنید.

 هنگامی که یک برنامه هوش مصنوعی راه‌اندازی کرده‌اید، نیاز است که آن را نظارت کنید تا اطمینان حاصل شود که Promptهای اختصاصی جدید حمله‌ای موفقیت‌آمیز را به آن وارد نکنند. شما می‌توانید انواع حملات استفاده شده در ورودی‌ها، خروجی‌ها و هم حجم حملات را ببینید. در کنار آن امکان فهمیدن اینکه کدام کاربران از برنامه شما به طور خلاف‌کارانه استفاده می‌کنند نیز وجود دارد و به شما اجازه می‌دهد که الگوهای پشت حملات را شناسایی و لیست‌های مسدودی را به درستی تنظیم کنید.

 اطمینان از اینکه کاربران خلافکار قادر به جلوگیری از LLM نیستند، تنها یک بخش از ارائه برنامه‌های هوش مصنوعی مورد اعتماد و مسئولانه است. فراموش نکنید که خروجی به اندازه ورودی اهمیت دارد. با بررسی داده‌های خروجی مقابل اسناد منبع، می‌توانیم حلقه بازخوردی را اضافه کنیم که به ما اجازه می‌دهد Promptها را بهبود بخشیم تا پایداری آن‌ها را از دست ندهیم. به یاد داشته باشید که این ابزارها به همراه با سرویس‌های هوش مصنوعی باید تکامل یابند.

و در آخر

شرکت مایکروسافت با توجه به تجربیات گذشته و رویکردهای جدید در حوزه هوش مصنوعی، ابزارهای قدرتمندی برای ایمنی محتوای AI Azure ارائه داده است. این ابزارها شامل مجموعه‌ای از فیلترها، ابزارهای تشخیص پایداری دادها، و سیستم‌های هشداردهنده برای جلوگیری از خروجی‌های ناپایدار و اطلاع‌رسانی به کاربران در مورد رفتارهای غیرمجاز هستند. استفاده از این ابزارها، همراه با نظارت مداوم بر مدل‌های هوش مصنوعی، می‌تواند امنیت برنامه‌های هوش مصنوعی را بهبود بخشد. همچنین از حوادثی مانند حملات حریفان جلوگیری کند.

سؤالات متداول

چگونه ابزارهای ایمنی محتوا در Azure AI می‌توانند از حملات تزریقی مانند حملات Prompt جلوگیری کنند؟

ابزارهای ایمنی محتوای Azure AI از حملات تزریقی مانند حملات Prompt با استفاده از مجموعه‌ای از فیلترها و تکنیک‌های امنیتی جلوگیری می‌کنند. این ابزار از Prompt Shields، فیلترهای پیشرفته و Natural Language Inference برای شناسایی و مسدود کردن Promptهای مخرب و حملات مشابه استفاده می‌کنند.