اصول FAIR

اصول FAIR در مدیریت داده ها برای هوش مصنوعی

فهرست مطالب

FAIR یکی از اصول مهم در مدیریت داده‌ها به حساب می‌آید و یک جورهایی سنگ بنایی مهم در ایجاد پلتفرم‌های ماشین لرنینگ است. شاید این سوال برایتان پیش بیاید که از کجا بدانیم این اصول در هر جامعه و با هر جمعیتی مفید است یا نه؟ نگران نباشید. FAIR آزمون خود را در این زمینه پس داده است. به این صورت که در ابتدا در دانشگاه‌ها و زمینه‌های تحقیقاتی مورداستفاده قرار گرفته و بررسی شده که آیا قادر است با حجم زیادی از داده‌ها همچنان مثمرثمر باشد یا نه و از این آزمون موفق بیرون آمده است.

بیایید تا در این مقاله با اصول FAIR بیشتر آشنا شویم.

چهار مفهوم اصلی FAIR چیست؟

FAIR بر چهار اصل قابل یافتن، قابل دسترسی، قابلیت همکاری داشتن و قابل استفاده مجدد بودن استوار است. بیایید تا با چهار پایه مهم مفهوم FAIR بیشتر آشنا شویم:

1. قابل یافتن (Findable)

به این معناست که داده‌های شما باید به صورتی باشند که بتوان آن‌ها را به راحتی جستجو و پیدا کرد. ولی این داده‌ها باید چه ویژگی داشته باشد؟

  1. نام گذاری آن‌ها باید واضح و مشخص باشد.
  2. داده‌ها باید به صورتی سازماندهی شوند که جستجوی آزاد متن را فراهم کنند.
  3. هر مجموعه‌ای از داده‌ها باید دارای متاداده‌ای باشند که آن را توضیح و توصیف کند.
  4. در نهایت برای مدیریت متاداده‌ها به سیستم پشتیبانی نیاز داریم.

2. قابل دسترسی (Accessible)

یعنی چه؟ خیلی واضح است. داده‌های شما باید به راحتی در دسترس افراد قرار گیرند. نه فقط خود داده‌ها بلکه منابع آن‌ها و متاداده‌های آن‌ها نیز باید به راحتی در دسترس باشند. برای اینکه این موضوع شکل بگیرد می‌توان از راهکارهای زیر استفاده کرد:

  1. بهره گیری از پروتکل‌های رایگان و منبع باز که دسترسی به داده‌ها و اطلاعات را آسان‌تر می‌سازد.
  2. زمانی که داده‌ها به اشتراک گذاشته شدند بایستی کنترل‌های دسترسی مناسب وجود داشته باشند تا بتوانند به به اشتراک گذاری داده‌ها و استفاده مجدد از آن‌ها کمک کنند.

3. قابلیت همکاری (Interoperable)

همان به اشتراک گذاری داده‌ها میان سیستم‌های مختلف است که به وسیله موارد زیر امکان پذیر می‌شود:

  1. استفاده از استانداردها و فرمت‌های باز برای داده‌ها
  2. بهره گیری از فرمت‌های فایل و پروتکل‌های انتقال آن هم به صورتی که دسترسی به داده‌ها را آسان‌تر سازد. (ممکن است برایتان جالب باشد: آشنایی با لایه انتقال و ویژگی‌های آن)

4. قابل استفاده مجدد (Reusable)

داده‌های تولیدی باید به صورتی باشند که بتوان از آن‌ها در سیستم‌های دیگر نیز استفاده کرد. به همین منظور باید:

  1. متاداده‌ها مرتبط با مجوزها و استانداردهای جامعه در نظر گرفته شوند.
  2. این متاداده‌ها بتوانند به دیگر موسسات و گروه‌ها هم کمک کنند.
  3. داده‌ها باید از اصولی مثل فهرست بندی، یکپارچه بودن و این دست از موارد پیروی کنند تا کار را برای دیگر کاربران آسان کنند.

رعایت این موارد می‌توان مدیریت داده‌ها را آسان‌تر کرده و در مسیر به اشتراک گذاری و استفاده مجدد از آن‌ها کمک رسان باشد.

  • اصلا متادیتا چیست؟

به اطلاعاتی که به توصیف داده‌ها می‌پردازند و به ما کمک می‌کنند تا بفهمیم هر مجموعه داده‌ای چه ویژگی‌هایی دارد متادیتا (Metadata) گفته می‌شود. اگر بخواهیم این توصیف را در چارچوب FAIR بیان کنیم باید گفت که نقش مهمی در چهار اصل مهم قابل یافتن بودن (Findable)، قابل دسترسی بودن (Accessible)، قابل همکاری بودن (Interoperable) و قابل استفاده مجدد بودن (Reusable) دارد. یک متادیتای قوی می‌تواند به پژوهشگران کمک کند تا داده‌های مرتبط را پیدا و به شکل موثری از آن‌ها استفاده کنند.

چالش‌های پیش رو با اصول FAIR

در بخش بالا چهار پایه مهم در FAIR را برایتان توضیح دادیم. با وجود اینکه این اصول باعث می‌شوند همه چیز گل و بلبل شود؛ ولی خب یک سری چالش‌هایی را نیز ایجاد می‌کنند. مثلا:

  • پیچیدگی مدیریت

در سیستم‌های ماشین لرنینگ اینکه بتوانید داده‌ها را مدیریت کنید کار هر کسی نیست. به قولی گاو نر می‌خواهد و مرد کهن! برای اجرای این سیستم‌ها نیاز است از منابع مختلفی استفاده شود. همین تعدد منابع و ایجاد یک ساختار شفاف و متمرکز که بتواند همه آن‌ها را مثل شبکه به هم متصل کند کاری است بسیار پیچیده.

  • به روز بودن داده‌ها

مبنا بر این بود که داده‌ها به گونه‌ای باشند که بتوان آن‌ها را در دسترس قرار داد و افراد بتوانند به راحتی با هم همکاری کنند. اما آیا این داده‌ها همیشه به روزند؟ ببینید در مسائلی مثل ثبت داده‌های تاریخی، امکان بررسی و یا اشکال زدایی همچنان وجود دارد. این مسئله زمانی سخت‌تر می‌شود که این سیستم‌ها پیوسته به روز شوند و داده‌های جدید اضافه!

  • محدودیت در استفاده مجدد

برخی از مدل‌های ماشین لرنینگ این مشکل را دارند که فقط برای یک سری داده‌های خاص کار می‌کنند. این باعث می‌شود داده‌ها حالتی یک بار مصرف به خود گرفته و روند درک داده‌ها را برای انسان‌ها سخت شود.

همه این موارد بیانگر این است که اگر به دنبال رسیدن به اصول FAIR در سیستم‌های ML هستید، باید از راه حل‌های جدید و کارآمدتری استفاده کنید.

FAIR هم معنا با منبع باز بودن نیست!

از آنجایی که FAIR به ترویج به اشتراک گذاری داده‌ها می‌پردازد گاهی این تفکر شکل می‌گیرد که آیا FAIR منبع باز است؟

ببینید اگر بخواهیم بر اساس کتاب راهنمای Open Data داده‌های باز را معنی کنیم باید گفت: «داده‌هایی که می‌توانند آزادانه توسط هر کسی مورداستفاده، استفاده مجدد و توزیع مجدد قرار گیرند». در اکثر مواقع FAIR باز است؛ ولی دسترسی بدون محدودیت را به صورت الزام ندارد. به این معنا که برای دسترسی به داده‌های مهم و حساس یک سری محدودیت‌ها در دسترسی‌ها وجود دارد که مسئله‌ای طبیعی است. در شرایطی مثل داده‌های حساس (که اطلاعات شخصی یا محرمانه است.)، مالکیت‌های معنوی (آن دسته از داده‌هایی که به صورت کامل نمی‌توانند در دسترس عموم باشند.) و این دست از موارد است که دسترسی محدود توصیه می‌گردد.

در کل اکثر افرادی که از FAIR پیروی می‌کنند به اصل “as open as possible, and as closed as necessary” که به معنای “تا حد امکان باز و تا حد لازم بسته” پایبندند؛ به این معنا که داده‌ها باید تاجایی در دسترس باشند؛ ولی در برخی موارد لازم است محدودیت‌هایی نیز اعمال شود.

دسترسی به هوش مصنوعی به راحتی آب خوردن!

یکی از چالش‌هایی که افراد در استفاده از هوش مصنوعی با آن مواجه می‌شوند دسترسی به آن است. حال راهکار چیست؟ استفاده از سرورمجازی!

شما با تهیه سرور مجازی پویان آی تی از موقعیت‌های مختلف دیگر این مشکلات را نخواهید داشت و با خیالی آسوده می‌توانید در دریای هوش مصنوعی شناور شوید!

و در آخر

ترکیبی از Findable، Accessible، Interoperable و Reusable اصول FAIR را در سال 2016 ایجاد کرد. این اصل به عنوان پیش نیاز و بستری برای مدیریت درست داده‌ها برای استفاده مجدد از آن‌ها در داده‌های علمی مورد استفاده قرار می‌گیرد. اصول راهنمای FAIR با گذشت زمان تغییر و گسترش یافت تا مواردی مثل نرم افزارها و الگوریتم‌ها را نیز شامل شود. اگر بخواهیم اصول راهنمای FAIR را به صورت خلاصه برایتان بیان کنیم می‌توان گفت:

اصول توضیحات
قابل یافتن (Findable) 1. داده‌ها بایستی دارای شناسه‌ای یونیک و پایدار باشند. 2. داده‌ها با متادیتاهای مناسب توصیف شوند. 3. متادیتاها بایستی واضح باشند و داده‌هایی که توصیف می‌کنند را شامل شوند. 4. داده‌ها قابل سرچ باشند.
قابل دسترسی (Accessible) 1. با استفاده از پروتکل‌های استاندارد و از طریق شناسه بتوان آن‌ها را بازیابی کرد. 2. امکان احراز هویت و مجوز دهی را در شرایط خاص و لازم فراهم کند. 3. متادیتاها در هر شرایطی حتی زمان‌هایی که داده‌های دیگر در دسترس نیستند در دسترس باشند.
قابل همکاری (Interoperable) 1. داده‌ها بایستی از زبان‌های رسمی، در دسترس و مشترک برای نمایش اطلاعات استفاده کنند. 2. اصولی که داده‌ها استفاده می‌کنند منطبق بر اصول FAIR باشد. 3. دیتاها دارای رفرنس‌های معتبر به دیگر داده‌ها و متادیتاها باشند.
قابل استفاده مجدد (Reusable) 1. متادیتا با ویژگی‌های دقیق و معتبر توصیف شود. 2. داده‌ها دارای مجوزهای استفاده به شکلی روشن و واضح باشند. 3. داده اصل و منشا دقیق داشته باشند. 4. دیتاها با استاندارهای مرتبط با حوزه خود منطبق باشند.

سوالات متداول

  • قابلیت همکاری در FAIR به چه معناست؟

یعنی داده‌ها بتوانند بین سیستم‌های مختلف به اشتراک گذاشته شوند. انجام این رویداد با استفاده از راهکاهایی مثل پروتکل‌های انتقال و این دست از موارد امکان پذیر است.

  • هدف نهایی اصول FAIR چیست؟

این اصل به دنبال ایجاد بستری برای مدیریت داده‌ها به شکلی مناسب، بهتر کردن دسترسی‌ها، فراهم کردن امکان استفاده مجدد از داده و این دست موارد مورد استفاده قرار می‌گیرد.

منابع

  • https://www.hopsworks.ai/post/fair-principles-in-data-for-ai
  • https://training.galaxyproject.org/training-material/topics/fair/tutorials/fair-origin/tutorial.html#solution-1

به این مقاله امتیاز دهید!

میانگین امتیاز 0 / 5. تعداد رأی ها : 0

هنوز هیچ رأیی داده نشده. اولین نفر باشید!

اشتراک گذاری اشتراک گذاری در تلگرام اشتراک گذاری در لینکدین اشتراک گذاری در ایکس کپی کردن لینک پست

و در ادامه بخوانید

اولین دیدگاه را اضافه کنید.

برچسب ها

هوش مصنوعی