اصول FAIR در مدیریت داده ها برای هوش مصنوعی
FAIR یکی از اصول مهم در مدیریت دادهها به حساب میآید و یک جورهایی سنگ بنایی مهم در ایجاد پلتفرمهای ماشین لرنینگ است. شاید این سوال برایتان پیش بیاید که از کجا بدانیم این اصول در هر جامعه و با هر جمعیتی مفید است یا نه؟ نگران نباشید. FAIR آزمون خود را در این زمینه پس داده است. به این صورت که در ابتدا در دانشگاهها و زمینههای تحقیقاتی مورداستفاده قرار گرفته و بررسی شده که آیا قادر است با حجم زیادی از دادهها همچنان مثمرثمر باشد یا نه و از این آزمون موفق بیرون آمده است.
بیایید تا در این مقاله با اصول FAIR بیشتر آشنا شویم.
چهار مفهوم اصلی FAIR چیست؟
FAIR بر چهار اصل قابل یافتن، قابل دسترسی، قابلیت همکاری داشتن و قابل استفاده مجدد بودن استوار است. بیایید تا با چهار پایه مهم مفهوم FAIR بیشتر آشنا شویم:
1. قابل یافتن (Findable)
به این معناست که دادههای شما باید به صورتی باشند که بتوان آنها را به راحتی جستجو و پیدا کرد. ولی این دادهها باید چه ویژگی داشته باشد؟
- نام گذاری آنها باید واضح و مشخص باشد.
- دادهها باید به صورتی سازماندهی شوند که جستجوی آزاد متن را فراهم کنند.
- هر مجموعهای از دادهها باید دارای متادادهای باشند که آن را توضیح و توصیف کند.
- در نهایت برای مدیریت متادادهها به سیستم پشتیبانی نیاز داریم.
2. قابل دسترسی (Accessible)
یعنی چه؟ خیلی واضح است. دادههای شما باید به راحتی در دسترس افراد قرار گیرند. نه فقط خود دادهها بلکه منابع آنها و متادادههای آنها نیز باید به راحتی در دسترس باشند. برای اینکه این موضوع شکل بگیرد میتوان از راهکارهای زیر استفاده کرد:
- بهره گیری از پروتکلهای رایگان و منبع باز که دسترسی به دادهها و اطلاعات را آسانتر میسازد.
- زمانی که دادهها به اشتراک گذاشته شدند بایستی کنترلهای دسترسی مناسب وجود داشته باشند تا بتوانند به به اشتراک گذاری دادهها و استفاده مجدد از آنها کمک کنند.
3. قابلیت همکاری (Interoperable)
همان به اشتراک گذاری دادهها میان سیستمهای مختلف است که به وسیله موارد زیر امکان پذیر میشود:
- استفاده از استانداردها و فرمتهای باز برای دادهها
- بهره گیری از فرمتهای فایل و پروتکلهای انتقال آن هم به صورتی که دسترسی به دادهها را آسانتر سازد. (ممکن است برایتان جالب باشد: آشنایی با لایه انتقال و ویژگیهای آن)
4. قابل استفاده مجدد (Reusable)
دادههای تولیدی باید به صورتی باشند که بتوان از آنها در سیستمهای دیگر نیز استفاده کرد. به همین منظور باید:
- متادادهها مرتبط با مجوزها و استانداردهای جامعه در نظر گرفته شوند.
- این متادادهها بتوانند به دیگر موسسات و گروهها هم کمک کنند.
- دادهها باید از اصولی مثل فهرست بندی، یکپارچه بودن و این دست از موارد پیروی کنند تا کار را برای دیگر کاربران آسان کنند.
رعایت این موارد میتوان مدیریت دادهها را آسانتر کرده و در مسیر به اشتراک گذاری و استفاده مجدد از آنها کمک رسان باشد.
اصلا متادیتا چیست؟
به اطلاعاتی که به توصیف دادهها میپردازند و به ما کمک میکنند تا بفهمیم هر مجموعه دادهای چه ویژگیهایی دارد متادیتا (Metadata) گفته میشود. اگر بخواهیم این توصیف را در چارچوب FAIR بیان کنیم باید گفت که نقش مهمی در چهار اصل مهم قابل یافتن بودن (Findable)، قابل دسترسی بودن (Accessible)، قابل همکاری بودن (Interoperable) و قابل استفاده مجدد بودن (Reusable) دارد. یک متادیتای قوی میتواند به پژوهشگران کمک کند تا دادههای مرتبط را پیدا و به شکل موثری از آنها استفاده کنند.
چالشهای پیش رو با اصول FAIR
در بخش بالا چهار پایه مهم در FAIR را برایتان توضیح دادیم. با وجود اینکه این اصول باعث میشوند همه چیز گل و بلبل شود؛ ولی خب یک سری چالشهایی را نیز ایجاد میکنند. مثلا:
-
پیچیدگی مدیریت
در سیستمهای ماشین لرنینگ اینکه بتوانید دادهها را مدیریت کنید کار هر کسی نیست. به قولی گاو نر میخواهد و مرد کهن! برای اجرای این سیستمها نیاز است از منابع مختلفی استفاده شود. همین تعدد منابع و ایجاد یک ساختار شفاف و متمرکز که بتواند همه آنها را مثل شبکه به هم متصل کند کاری است بسیار پیچیده.
-
به روز بودن دادهها
مبنا بر این بود که دادهها به گونهای باشند که بتوان آنها را در دسترس قرار داد و افراد بتوانند به راحتی با هم همکاری کنند. اما آیا این دادهها همیشه به روزند؟ ببینید در مسائلی مثل ثبت دادههای تاریخی، امکان بررسی و یا اشکال زدایی همچنان وجود دارد. این مسئله زمانی سختتر میشود که این سیستمها پیوسته به روز شوند و دادههای جدید اضافه!
-
محدودیت در استفاده مجدد
برخی از مدلهای ماشین لرنینگ این مشکل را دارند که فقط برای یک سری دادههای خاص کار میکنند. این باعث میشود دادهها حالتی یک بار مصرف به خود گرفته و روند درک دادهها را برای انسانها سخت شود.
همه این موارد بیانگر این است که اگر به دنبال رسیدن به اصول FAIR در سیستمهای ML هستید، باید از راه حلهای جدید و کارآمدتری استفاده کنید.
FAIR هم معنا با منبع باز بودن نیست!
از آنجایی که FAIR به ترویج به اشتراک گذاری دادهها میپردازد گاهی این تفکر شکل میگیرد که آیا FAIR منبع باز است؟
ببینید اگر بخواهیم بر اساس کتاب راهنمای Open Data دادههای باز را معنی کنیم باید گفت: «دادههایی که میتوانند آزادانه توسط هر کسی مورداستفاده، استفاده مجدد و توزیع مجدد قرار گیرند». در اکثر مواقع FAIR باز است؛ ولی دسترسی بدون محدودیت را به صورت الزام ندارد. به این معنا که برای دسترسی به دادههای مهم و حساس یک سری محدودیتها در دسترسیها وجود دارد که مسئلهای طبیعی است. در شرایطی مثل دادههای حساس (که اطلاعات شخصی یا محرمانه است.)، مالکیتهای معنوی (آن دسته از دادههایی که به صورت کامل نمیتوانند در دسترس عموم باشند.) و این دست از موارد است که دسترسی محدود توصیه میگردد.
در کل اکثر افرادی که از FAIR پیروی میکنند به اصل “as open as possible, and as closed as necessary” که به معنای “تا حد امکان باز و تا حد لازم بسته” پایبندند؛ به این معنا که دادهها باید تاجایی در دسترس باشند؛ ولی در برخی موارد لازم است محدودیتهایی نیز اعمال شود.
دسترسی به هوش مصنوعی به راحتی آب خوردن!
یکی از چالشهایی که افراد در استفاده از هوش مصنوعی با آن مواجه میشوند دسترسی به آن است. حال راهکار چیست؟ استفاده از سرورمجازی!
شما با تهیه سرور مجازی پویان آی تی از موقعیتهای مختلف دیگر این مشکلات را نخواهید داشت و با خیالی آسوده میتوانید در دریای هوش مصنوعی شناور شوید!
و در آخر
ترکیبی از Findable، Accessible، Interoperable و Reusable اصول FAIR را در سال 2016 ایجاد کرد. این اصل به عنوان پیش نیاز و بستری برای مدیریت درست دادهها برای استفاده مجدد از آنها در دادههای علمی مورد استفاده قرار میگیرد. اصول راهنمای FAIR با گذشت زمان تغییر و گسترش یافت تا مواردی مثل نرم افزارها و الگوریتمها را نیز شامل شود. اگر بخواهیم اصول راهنمای FAIR را به صورت خلاصه برایتان بیان کنیم میتوان گفت:
اصول | توضیحات |
---|---|
قابل یافتن (Findable) | 1. دادهها بایستی دارای شناسهای یونیک و پایدار باشند. 2. دادهها با متادیتاهای مناسب توصیف شوند. 3. متادیتاها بایستی واضح باشند و دادههایی که توصیف میکنند را شامل شوند. 4. دادهها قابل سرچ باشند. |
قابل دسترسی (Accessible) | 1. با استفاده از پروتکلهای استاندارد و از طریق شناسه بتوان آنها را بازیابی کرد. 2. امکان احراز هویت و مجوز دهی را در شرایط خاص و لازم فراهم کند. 3. متادیتاها در هر شرایطی حتی زمانهایی که دادههای دیگر در دسترس نیستند در دسترس باشند. |
قابل همکاری (Interoperable) | 1. دادهها بایستی از زبانهای رسمی، در دسترس و مشترک برای نمایش اطلاعات استفاده کنند. 2. اصولی که دادهها استفاده میکنند منطبق بر اصول FAIR باشد. 3. دیتاها دارای رفرنسهای معتبر به دیگر دادهها و متادیتاها باشند. |
قابل استفاده مجدد (Reusable) | 1. متادیتا با ویژگیهای دقیق و معتبر توصیف شود. 2. دادهها دارای مجوزهای استفاده به شکلی روشن و واضح باشند. 3. داده اصل و منشا دقیق داشته باشند. 4. دیتاها با استاندارهای مرتبط با حوزه خود منطبق باشند. |
سوالات متداول
قابلیت همکاری در FAIR به چه معناست؟
یعنی دادهها بتوانند بین سیستمهای مختلف به اشتراک گذاشته شوند. انجام این رویداد با استفاده از راهکاهایی مثل پروتکلهای انتقال و این دست از موارد امکان پذیر است.
هدف نهایی اصول FAIR چیست؟
این اصل به دنبال ایجاد بستری برای مدیریت دادهها به شکلی مناسب، بهتر کردن دسترسیها، فراهم کردن امکان استفاده مجدد از داده و این دست موارد مورد استفاده قرار میگیرد.
منابع
- https://www.hopsworks.ai/post/fair-principles-in-data-for-ai
- https://training.galaxyproject.org/training-material/topics/fair/tutorials/fair-origin/tutorial.html#solution-1
به این مقاله امتیاز دهید!
میانگین امتیاز 0 / 5. تعداد رأی ها : 0
هنوز هیچ رأیی داده نشده. اولین نفر باشید!
اولین دیدگاه را اضافه کنید.