داده کاوی چیست؟ + بررسی صفر تا صد داده کاوی به زبانی ساده

25 آبان 1401

فاطمه ولی نژاد مقالات 0 آخرین بروزرسانی : 28 دی 1403 زمان مطالعه : 36 دقیقه 1957 0

می‌توانید خلاصه‌ای کوتاه از محتوای مقاله را با استفاده از هوش مصنوعی دریافت نمایید.

داده کاوی از الگوریتم های پیچیده ریاضی برای استخراج دیتاها استفاده می‌کند و احتمال وقوع رویدادها در آینده را پیش بینی می‌کند. به داده کاوی، کشف دانش از داده (KDD) نیز می‌گویند. در واقع داده کاوی فرایندی است که از آن برای استخراج داده های خاص از پایگاه های بزرگ اطلاعاتی برای به کارگیری در راستای اهداف مشخص استفاده می‌شود. در این فرایند در ابتدا داده های خام به اطلاعات مفید تبدیل می‌شوند.

داده کاوی شبیه علم اطلاعات می‌باشد که توسط شخصی در یک موقعیت خاص بر روی یک مجموعه داده خاص برای دستیابی به هدفی خاص انجام می‌شود. این فرآیند شامل انواع مختلفی از خدمات مانند متن کاوی، وب کاوی، استخراج صدا و تصویر، داده کاوی تصویری و داده کاوی رسانه های اجتماعی است. این فرایند توسط یک نرم افزار ساده و بسیار خاص انجام می‌شود.

با برون سپاری داده کاوی می‌توان کارها را سریع تر و با هزینه های کمتر انجام داد. شرکت‌های تخصصی همچنین می‌توانند از فناوری‌های جدید برای جمع‌آوری داده‌هایی استفاده کنند که یافتن آنها به صورت دستی غیرممکن است. هزاران تن اطلاعات در پلتفرم های مختلف موجود است، اما دانش بسیار کمی در دسترس است. بزرگ ترین چالش در این فرایند آنالیز داده ها برای استخراج اطلاعاتی مهم جهت حل یک مشکل یا توسعه یک شرکت می‌باشد. ابزارها و تکنیک های قدرتمند زیادی برای اسخراج داده و پیدا کردن بینش بهتر فراهم می‌باشد.

انواع داده کاوی

داده کاوی را می‌توان بر روی انواع دیتاهای زیر انجام داد:

پایگاه داده رابطه ای

پایگاه داده رابطه ای مجموعه ای از داده‌های متعدد است که به طور رسمی توسط جداول، رکوردها و ستون ها سازماندهی شده‌اند که به آنها می‌توان به روش های مختلف بدون نیاز به شناسایی جداول پایگاه داده دسترسی داشت. با انتقال و به اشتراک گذاری جداول اطلاعات جست و جوی داده‌ها و سازمان دهی آن ها آسان می‌شود.

انبارهای داده

انبار داده فناوری است که دیتاها را از منابع مختلف درون سازمان جمع آوری می‌کند تا بینش تجاری معنی دار ارائه دهد؛ حجم عظیمی از دیتاها از مکان های مختلفی مانند بازاریابی و امور مالی می‌باشند. اطلاعات استخراج شده برای اهداف تحلیلی استفاده می‌شود و به تصمیم گیری برای یک سازمان تجاری کمک می‌کند؛ انبار داده برای تجزیه و تحلیل اطلاعات به جای پردازش تراکنش طراحی شده است.

مخازن داده ها

مخزن داده به طور کلی به مقصدی برای ذخیره سازی داده ها اشاره دارد. با این حال، بسیاری از متخصصان فناوری اطلاعات از این واژه برای اشاره به نوع خاصی از تنظیمات در ساختار فناوری اطلاعات استفاده می‌کنند. به عنوان مثال، گروهی از پایگاه های داده، که در آن یک سازمان انواع مختلفی از اطلاعات را نگهداری می‌کند.

پایگاه داده شی – رابطه ای

ترکیبی از مدل پایگاه داده شی گرا و مدل پایگاه داده رابطه ای، مدل شی رابطه ای نامیده می‌شود که از کلاس ها، اشیاء، وراثت و غیره پشتیبانی می‌کند. یکی از اهداف اصلی مدل داده‌های رابطه‌ای شیء، بستن شکاف بین پایگاه داده رابطه‌ای و شی‌گرا است که اغلب در بسیاری از زبان‌های برنامه‌نویسی، به عنوان مثال، C++، جاوا، C# و غیره استفاده می‌شوند.

پایگاه داده معاملات

پایگاه داده معاملاتی به یک سیستم مدیریت پایگاه داده (DBMS) اشاره دارد که در صورت عدم اجرای مناسب، امکان خنثی سازی تراکنش پایگاه داده را دارد. اگرچه این یک قابلیت منحصربه‌فرد بود، اما امروزه بیشتر سیستم‌های پایگاه داده رابطه‌ای از فعالیت‌های پایگاه داده معاملاتی پشتیبانی می‌کنند.

مزایای داده کاوی

تکنیک داده کاوی سازمان ها را قادر می‌سازد تا دیتاهای مبتنی بر دانش را به دست آورند.
داده کاوی سازمان‌ها را قادر می‌سازد تا تغییرات سودآوری را در عملیات و تولید انجام دهند.
در مقایسه با سایر برنامه‌های کاربردی داده های آماری، داده کاوی مقرون به صرفه است.
داده کاوی به فرآیند تصمیم گیری یک سازمان کمک می‌کند.
کشف خودکار الگوهای پنهان و همچنین پیش بینی روندها و رفتارها را تسهیل می‌کند.
می‌توان آن را در سیستم جدید و همچنین پلتفرم های موجود القا کرد.
این یک فرآیند سریع است که تجزیه و تحلیل حجم عظیمی از اطلاعات را در زمان کوتاه برای کاربران جدید آسان می‌کند.

معایب داده کاوی

این احتمال وجود دارد که سازمان ها اطلاعات مفید مشتریان را در ازای پول به سازمان های دیگر بفروشند.
بسیاری از نرم افزارهای تجزیه و تحلیل داده کاوی تخصصی هستند و برای کار بر روی آنها به آموزش قبلی نیاز است.
ابزارهای داده کاوی مختلف به دلیل الگوریتم های متفاوتی که در طراحی آنها استفاده می‌شود، به روش‌های متفاوتی عمل می‌کنند. بنابراین، انتخاب ابزارهای داده کاوی مناسب یک کار بسیار چالش برانگیز است.
تکنیک های داده کاوی دقیق نیستند.

تکنیک های داده کاوی

داده کاوی فرآیندی است که توسط آن، سازمان ها الگوهای موجود در داده ها را برای بینش های مرتبط با نیازهای تجاری خود تشخیص می‌دهند که هم برای هوش تجاری و هم برای علم داده ضروری است. بسیاری از تکنیک های داده کاوی وجود دارد که سازمان ها می‌توانند از آنها برای تبدیل داده های خام به بینش های عملی استفاده کنند. اینها همه چیز را از هوش مصنوعی پیشرفته گرفته تا اصول اولیه آماده سازی داده را شامل می‌شود که هر دو کلیدی برای به حداکثر رساندن ارزش سرمایه گذاری داده ها هستند.

پاکسازی و آماده سازی داده ها

پاکسازی و آماده سازی دیتاها بخش مهمی از فرآیند داده کاوی است. اطلاعات خام باید پاکسازی و قالب بندی شوند تا در روش های مختلف تحلیلی مفید باشند. پاکسازی و آماده سازی داده ها شامل عناصر مختلفی از مدل سازی داده ها، تبدیل، انتقال داده ها، ETL، ELT، یکپارچه سازی داده ها و تجمیع است. این یک گام ضروری و مهم برای درک ویژگی های اساسی داده ها جهت تعیین بهترین کاربرد آن هاست.

ارزش تجاری پاکسازی و آماده سازی داده ها بدیهی است. بدون اولین گام، داده ها یا برای یک سازمان بی معنی یا به دلیل کیفیت پایین آنها غیرقابل اعتماد هستند. شرکت ها باید بتوانند به اطلاعات خود، نتایج تجزیه و تحلیل آن ها و اقدامات ایجاد شده از آن نتایج اعتماد کنند. این مراحل همچنین برای کیفیت داده ها و مدیریت صحیح دیتاها ضروری هستند.

الگوهای ردیابی

الگوهای ردیابی یک تکنیک داده کاوی اساسی هستند. این الگو ها شامل شناسایی و نظارت بر روندها یا الگوهای داده ها برای استنتاج هوشمندانه در مورد نتایج کسب و کار می‌باشند. به عنوان مثال، هنگامی که یک سازمان روندی را در داده های فروش شناسایی می‌کند، مبنایی جهت اقدام برای سرمایه گذاری بر روی آن بینش وجود دارد. اگر مشخص شود که یک محصول خاص بیشتر از سایرین برای یک جمعیت خاص به فروش می‌رسد، یک شرکت می‌تواند از این آگاهی برای ایجاد محصولات یا خدمات مشابه استفاده کند یا به سادگی محصول اصلی را برای این جمعیت شناسی بهتر ذخیره کند.

طبقه بندی

تکنیک های طبقه بندی داده کاوی شامل تجزیه و تحلیل ویژگی های مختلف مرتبط با انواع داده ها است. هنگامی که سازمان ها ویژگی های اصلی این نوع داده ها را شناسایی می‌کنند، سازمان ها می‌توانند داده های مرتبط را دسته بندی یا طبقه بندی کنند.

انجمن

انجمن یک تکنیک داده کاوی مرتبط با آمار است که نشان می‌دهد که دیتاهای خاصی (یا رویدادهایی که در داده‌ها یافت می‌شوند) به سایر دیتاها یا رویدادهای داده محور مرتبط هستند. این شبیه به مفهوم همزمانی در یادگیری ماشینی است که در آن احتمال یک رویداد مبتنی بر داده با حضور رویداد دیگری نشان داده می‌شود.

مفهوم آماری همبستگی نیز مشابه مفهوم تداعی است. این بدان معنی است که تجزیه و تحلیل داده ها نشان می‌دهد که بین دو رویداد داده رابطه وجود دارد.

تشخیص نقاط پرت

تشخیص نقاط پرت هر گونه ناهنجاری را در مجموعه دیتاها تعیین می‌کند. هنگامی که سازمان‌ها انحرافاتی را در دیتاهای خود پیدا کنند، درک اینکه چرا این ناهنجاری‌ها رخ می‌دهند و آماده شدن برای هر گونه رویداد آینده برای رسیدن به بهترین اهداف تجاری آسان‌تر می‌شود. برای مثال، اگر در زمان خاصی از روز استفاده از سیستم‌های تراکنش برای کارت‌های اعتباری افزایش پیدا کند، سازمان‌ها می‌توانند با پی بردن به اینکه چرا فروششان را در بقیه روز بهینه می‌کنند، روی این اطلاعات سرمایه‌گذاری کنند.

خوشه بندی

خوشه بندی یک تکنیک تحلیلی است که بر رویکردهای بصری برای درک دیتاها متکی است. مکانیسم های خوشه بندی از گرافیک استفاده می‌کنند تا نشان دهند که توزیع دیتاها در رابطه با انواع مختلف معیارها کجاست. تکنیک های خوشه بندی نیز از رنگ های مختلف برای نشان دادن توزیع دیتا ها استفاده می‌کنند.

رویکردهای نموداری برای استفاده از تجزیه و تحلیل خوشه ای ایده آل هستند. به طور خاص با نمودارها و خوشه‌بندی، کاربران می‌توانند به صورت بصری نحوه توزیع دیتا ها را برای شناسایی روندهای مرتبط با اهداف تجاری خود ببینند.

پیش بینی

پیش بینی یک جنبه بسیار قدرتمند از داده کاوی است که یکی از چهار شاخه تجزیه و تحلیل را نشان می‌دهد. تجزیه و تحلیل پیشگویانه از الگوهای موجود در دیتا های فعلی یا تاریخی استفاده می‌کند تا آنها را در آینده گسترش دهد. بنابراین، به سازمان‌ها بینشی در مورد روندهای بعدی در داده‌هایشان می‌دهد. چندین رویکرد مختلف برای استفاده از تجزیه و تحلیل پیش بینی وجود دارد. برخی از پیشرفته‌ترها شامل جنبه‌های یادگیری ماشینی و هوش مصنوعی است. با این حال، تجزیه و تحلیل پیش‌بینی‌کننده لزوماً به این تکنیک‌ها بستگی ندارد . همچنین می‌توان آن را با الگوریتم‌های ساده‌تر تسهیل کرد.

الگوهای متوالی

این تکنیک داده کاوی بر کشف مجموعه ای از رویدادهایی که به ترتیب اتفاق می‌افتند تمرکز دارد. این به ویژه برای داده کاوی داده های تراکنش مفید است. به عنوان مثال، این تکنیک می‌تواند نشان دهد که مشتریان پس از خرید اولیه مثلاً یک جفت کفش، چه اقلامی از لباس را بیشتر خریداری می‌کنند. درک الگوهای متوالی می‌تواند به سازمان ها کمک کند تا اقلام اضافی را برای تحریک فروش به مشتریان توصیه کنند.

درختان تصمیم

درخت‌های تصمیم نوع خاصی از مدل‌های پیش‌بینی هستند که به سازمان‌ها اجازه می‌دهند به طور موثر دیتاها را استخراج کنند. از نظر فنی، درخت تصمیم بخشی از یادگیری ماشینی است، اما به دلیل ماهیت بسیار ساده اش، بیشتر به عنوان تکنیک یادگیری ماشین جعبه سفید شناخته می‌شود.

درخت تصمیم کاربران را قادر می سازد تا به وضوح بفهمند که ورودی داده ها چگونه بر خروجی ها تأثیر می‌گذارد. هنگامی که مدل‌های درخت تصمیم‌گیری مختلف با هم ترکیب می‌شوند، مدل‌های تحلیلی پیش‌بینی‌کننده به نام جنگل تصادفی را ایجاد می‌کنند. مدل‌های جنگل تصادفی پیچیده، تکنیک‌های یادگیری ماشین جعبه سیاه در نظر گرفته می‌شوند، زیرا درک خروجی‌های آن‌ها بر اساس ورودی‌هایشان همیشه آسان نیست. با این حال، در بیشتر موارد، این شکل اولیه از مدل‌سازی مجموعه دقیق‌تر از استفاده از درخت‌های تصمیم به تنهایی است.

تکنیک های آماری

تکنیک های آماری در هسته اکثر تجزیه و تحلیل های درگیر در فرآیند داده کاوی قرار دارند. مدل‌های تحلیلی مختلف مبتنی بر مفاهیم آماری هستند که مقادیر عددی را به دست می‌دهند که برای اهداف تجاری خاص قابل استفاده است. به عنوان مثال، شبکه‌های عصبی از آمار پیچیده بر اساس وزن‌ها و معیارهای مختلف برای تعیین سگ یا گربه بودن تصویر در سیستم‌های تشخیص تصویر استفاده می‌کنند.

مدل های آماری یکی از دو بخش اصلی هوش مصنوعی را در برمی‌گیرند. مدل‌های برخی از تکنیک‌های آماری ثابت هستند، در حالی که برخی دیگر که شامل یادگیری ماشینی هستند، با گذشت زمان بهتر می‌شوند.

تجسم

تجسم داده ها را هم می‌توان یکی از عناصر مهم داده کاوی دانست که به کاربران بینشی در مورد داده ها را بر اساس ادراکات حسی که مردم می‌توانند ببینند، می‌دهند. تجسم دیتا های امروزی پویا هستند، برای پخش دیتاها در زمان واقعی مفید هستند و با رنگ های مختلف مشخص می‌شوند که روندها و الگوهای متفاوتی را در دیتا ها نشان می‌دهند.

داشبوردها روشی قدرتمند برای استفاده از تجسم داده ها برای کشف بینش های داده کاوی هستند. سازمان‌ها می‌توانند داشبوردها را بر اساس معیارهای مختلف قرار دهند و به جای استفاده از خروجی‌های عددی مدل‌های آماری، از تجسم‌سازی‌ها برای برجسته کردن بصری الگوها در داده‌ها استفاده کنند.

شبکه های عصبی

شبکه عصبی نوع خاصی از مدل یادگیری ماشینی است که اغلب با هوش مصنوعی و یادگیری عمیق استفاده می‌شود. شبکه‌های عصبی که به دلیل داشتن لایه‌های مختلف شبیه به نحوه عملکرد نورون‌ها در مغز انسان هستند، یکی از دقیق‌ترین مدل‌های یادگیری ماشینی هستند که امروزه مورد استفاده قرار می‌گیرند.

اگرچه یک شبکه عصبی می‌تواند ابزار قدرتمندی در داده‌کاوی باشد اما سازمان‌ها باید هنگام استفاده از آن احتیاط کنند. زیرا برخی از این مدل‌های شبکه عصبی بسیار پیچیده هستند که درک چگونگی تعیین خروجی توسط شبکه عصبی را دشوار می‌کند.

انبار داده ها

ذخیره سازی دیتا بخش مهمی از فرآیند داده کاوی است. به طور سنتی، انبار داده شامل ذخیره سازی دیتا های ساخت یافته در سیستم های مدیریت پایگاه داده، رابطه ای می‌شود تا بتوان آن ها را برای هوش تجاری، گزارش دهی و قابلیت های داشبورد اولیه تجزیه و تحلیل کرد. امروزه انبارهای داده ابری و انبارهای داده در فروشگاه های داده نیمه ساختار یافته و بدون ساختار مانند Hadoop وجود دارد. در حالی که انبارهای داده به طور سنتی برای داده های تاریخی استفاده می‌شدند، بسیاری از رویکردهای مدرن می‌توانند تجزیه و تحلیل عمیق و در زمان واقعی داده ها را ارائه دهند.

پردازش حافظه بلند مدت

پردازش حافظه بلند مدت به توانایی تجزیه و تحلیل دیتا ها در بازه های زمانی طولانی اشاره دارد. داده های تاریخی ذخیره شده در انبارهای داده برای این منظور مفید هستند. هنگامی که یک سازمان می‌تواند تجزیه و تحلیل را در مدت زمان طولانی انجام دهد، می‌تواند الگوهایی را شناسایی کند که در غیر این صورت ممکن است تشخیص آنها بسیار ظریف باشد. به عنوان مثال، با تجزیه و تحلیل فرسایش در یک دوره چند ساله، یک سازمان ممکن است سرنخ های ظریفی پیدا کند که می‌تواند منجر به کاهش ریزش مالی شود.

یادگیری ماشینی و هوش مصنوعی

یادگیری ماشینی و هوش مصنوعی (AI) یکی از بزرگ ترین پیشرفت ها در داده کاوی را نشان می‌دهد. اشکال پیشرفته یادگیری ماشینی مانند یادگیری عمیق، پیش‌بینی‌های بسیار دقیقی را هنگام کار با داده‌ها در مقیاس ارائه می‌دهند. در نتیجه، آنها برای پردازش داده ها در استقرار هوش مصنوعی مانند بینایی رایانه، تشخیص گفتار، یا تجزیه و تحلیل متن پیچیده با استفاده از پردازش زبان طبیعی مفید هستند. این تکنیک های داده کاوی برای تعیین ارزش داده های نیمه ساختاریافته و بدون ساختار مناسب هستند.

برای علاقه مندان! چگونه یک Data Miner شویم؟

کاربردهای تجاری داده کاوی

1-کشف تقلب مالی

الگوریتم های داده کاوی را می‌توان مانند شبکه های عصبی جهت تشخیص فعالیت های عادی کاربر از فعالیت های پرت و مشکوک آموزش داد. برای مثال، هنگامی که شما در سفر هستید و برای شما پیامی مبنی بر اینکه کارت اعتباری شما تا زمان مراجعه به بانک مسدود می‌باشد ارسال می‌شود نشانه ی این است که رفتار شما توسط یک الگوریتم مشکوک شناسایی شده است.

2- حفظ مصرف کننده

الگوریتم های زیادی در امر بازاریابی جهت اطمینان حاصل کردن از رضایت مشتری استفاده می‌شود. یادگیری ماشینی راه های جدیدی را برای محاسبه ریزش مشتری،ارزش طول عمر و تقسیم بندی بازار ارائه می‌دهد.این الگوریتم ها می‌توانند زمانی را که مشتری در معرض توقف تعامل با یک کسب و کار است را تشخیص و اطلاع دهند و برای جلوگیری از این اتفاق مشوق ها و راهکار هایی را برای بازگرداندن مشتری ارائه دهند.

3- فروش و فروش متقابل در تجارت الکترونیک

در حال حاضر، همه با موتورهای توصیه‌ای مانند ویژگی «مکرر خرید با هم» آمازون یا رسانه‌های پیشنهادی نتفلیکس و اسپاتیفای آشنا هستند. اینها از الگوریتم های داده کاوی برای تجزیه و تحلیل رفتار مصرف کننده گذشته و ارائه پیشنهادات بر اساس یافته های خود استفاده می‌کنند. این الگوریتم‌ها به راحتی می‌توانند کاربردهای دیگری مانند توصیه‌های سهام، مشاور مالی، پیشنهادات درمانی پزشک یا پیشنهادات استراحتگاه برای افراد با مشخصات خاص داشته باشند.

4- تایید اعتبار

از کاربردهای داده کاوی در بانک ها محاسبه احتمال عدم پرداخت اقساط وام توسط مشتری می‌باشد. بر اساس این محاسبه بانک می‌تواند درخواست وام متقاضی را رد یا قبول کند و همچنین نرخ سود بازپرداخت را تعیین کند.

5-فروشگاه های مواد غذایی

مزیت داشتن کارت وفاداری برای مشتریان فروشگاه های مواد غذایی شناسایی علایق و عادات خرید مشتریان و بهینه سازی و ارائه ی طرح های متناسب با آن می‌باشد. برای مثال فروشگاه معروف تارگت از طریق الگوی خرید مشتریان احتمال حاملگی و بچه دار شدن مشتریان را تشخیص و کوپن های پوشک و لوازم کودک را گاهی قبل از اطلاع خود مشتریان ارسال می‌کرد.

6-پیش بینی تعداد بیماران در بیمارستان ها

یکی از سخت ترین کارها در بیمارستان ها پیش بینی تعداد بیماران اورژانسی می‌باشد، که به عوامل متعددی مثل شرایط آب و هوایی و تعطیلات وابسته می‌باشد. الگوریتم های داده کاوی را می‌توان برای دستیابی به دقیق ترین پیش بینی با توجه به داده های موجود از گذشته تنظیم کرد. البته محدودیت هایی مثل رویداد های کم سابقه مانند بلایای طبیعی یا شیوع بیماری ویروسی در این الگوریتم وجود دارد.گرچه که این رویداد ها به ندرت رخ می‌دهند.

7-رباط های مکالمه (Chatbots) و دستیاران مجازی

داده کاوی برای متن، که به عنوان پردازش زبان طبیعی (NLP) نیز شناخته می‌شود، در چند سال گذشته با جهش و حد و مرز پیشرفت کرده است، در حال حاضر به الگوریتم ها اجازه می‌دهد تا ویژگی های قدرتمندی مانند احساسات را از متن استخراج کنند. همچنین امکان تولید متن اصلی را فراهم می‌کند. پیشرفت‌های NLP ، چت‌بات‌ها و دستیارهای مجازی را هوشمندتر از همیشه کرده است و تصور آینده‌ای که دستیاران مجازی در همه جا حضور دارند، سخت نیست.

انواع داده در داده کاوی

داده کاوی فرآیند اسکن خودکار انبارهای دیتا گسترده برای یافتن الگوها و پیشرفت هایی است که فراتر از تحقیقات اساسی است؛ و از الگوریتم های آماری پیشرفته برای برش داده ها و محاسبه احتمال رویدادهای آینده استفاده می‌کند و اغلب به عنوان کشف دانش در پایگاه های داده (KDD) نامیده می‌شود. در علوم کامپیوتر، داده کاوی که به عنوان کشف اطلاعات از پایگاه های داده نیز شناخته می‌شود، روشی برای یافتن الگوها و روابط جالب و مفید در مجموعه داده های بزرگ است. برای تجزیه و تحلیل داده های انبوه که به مجموعه داده ها معروف هستند، این حوزه ابزارهای هوش محاسباتی و مصنوعی (مانند شبکه های عصبی و یادگیری ماشین) را با مدیریت پایگاه داده ترکیب می‌کند. در تجارت (بیمه، بانک، خرده فروشی)، تحقیقات علمی (نجوم، پزشکی) و امنیت دولتی، معمولا از داده کاوی (تشخیص مجرمان و تروریست ها) استفاده می‌شود.

انواع داده ها

داده کاوی را می‌توان در قالب های داده زیر انجام داد:

1- پایگاه های اطلاعاتی رابطه ای

پایگاه داده رابطه ‌ای مجموعه‌ای از رکوردها است که بین استفاده از مجموعه ‌ای از محدودیت‌های از پیش تعریف ‌شده مرتبط هستند. این رکوردها در ستون ها و ردیف ها در قالب جدول هایی مرتب شده اند. جدول ها برای ذخیره داده های مربوط به مواردی که قرار است در پایگاه داده توضیح داده شوند استفاده می‌شود.

یک پایگاه داده رابطه‌ای به عنوان مجموعه‌ای از داده‌های مرتب شده در ردیف‌ها و ستون‌ها در جداول پایگاه داده مشخص می‌شود. در پایگاه های داده رابطه ای، ساختار پایگاه داده را می‌توان با استفاده از طرحواره های فیزیکی و منطقی تعریف کرد. طرح واره فیزیکی طرحی است که ساختار پایگاه داده و رابطه بین جداول را توصیف می کند در حالی که طرحواره منطقی طرحی است که نحوه پیوند جداول با یکدیگر را توصیف می‌کند. API استاندارد پایگاه داده رابطه ای SQL است. کاربردهای آن پردازش داده، مدل ROLAP و غیره است.

2-انبارهای داده

ساخت یک مخزن داده به وسیله ی مجموعه ای از قوانین، انبار داده نام دارد. به وسیله ی ترکیب داده‌ها از چندین منبع ناهمگن کاربر را قادر به گزارش‌های تحلیلی، درخواست‌های استاندارد و تصمیم‌گیری می‌کند. ذخیره سازی دیتا ها نیازمند پاکسازی دیتا ها، یکپارچه سازی و ذخیره سازی اطلاعات است. برای کمک به تحقیقات تاریخی، یک انبار داده معمولاً چندین ماه یا چندین سال داده را ذخیره سازی می‌کند.

داده های یک انبار داده معمولاً از چندین منبع داده توسط فرآیند استخراج، تبدیل و بارگذاری بارگیری می‌شوند. انبارهای داده مدرن به سمت معماری استخراج، بارگذاری، تبدیل می روند که در آن تمام یا بیشتر تبدیل داده ها بر روی پایگاه داده ای انجام می‌شود که میزبان انبار داده است. مهم است که به یاد داشته باشید که بخش بسیار مهمی از ابتکار طراحی انبار داده، توصیف روش ETL (استخراج، تبدیل، و بارگذاری) است. فعالیت های ETL ستون فقرات انبار داده است.

3-پایگاه های داده تراکنش ها

برای توضیح مفهوم پایگاه های داده تراکنش ها، ابتدا توضیح می‌دهیم که تراکنش شامل چه چیزی است. معامله به عبارت فنی، مجموعه ای از توالی کار هایی است که در عین حال مستقل و وابسته هستند. یک معامله تنها در صورتی منعقد می‌شود که تمام فعالیت هایی که بخشی از معامله هستند با موفقیت انجام شوند. تراکنش حتی اگر شکست بخورد به عنوان یک خطا در نظر گرفته می‌شود و همه اقدامات باید به عقب برگردند یا مجددا انجام شوند.

یک نقطه شروع مشخص برای هر تراکنش پایگاه داده وجود دارد که به دنبال آن مراحل تغییر داده های داخل پایگاه داده انجام می‌شود. در پایان، قبل از اینکه تراکنش دوباره امتحان شود، پایگاه داده یا تغییرات را انجام می‌دهد تا آنها را دائمی کند یا تغییرات را به نقطه شروع برمی‌گرداند.

برای مثال، در مورد معامله بانکی، تراکنش بانکی تنها زمانی انجام می‌پذیرند که مبلغی که از یک حساب بستانکاری شده با موفقیت به حساب دیگری بدهکار شود. اما اگر مبلغ برداشت شده توسط مقصد دریافت نشد، لازم است که کل تراکنش را به نقطه اصلی برگردانید.

4-سیستم مدیریت پایگاه داده

DBMS یک برنامه کاربردی برای توسعه و مدیریت پایگاه داده است. روشی ساختاریافته برای کاربران برای ایجاد، بازیابی، به روز رسانی و مدیریت داده ها ارائه می‌دهد. شخصی که از DBMS برای برقراری ارتباط با پایگاه داده استفاده می‌کند، نیازی به نگرانی در مورد نحوه و مکان پردازش داده ها ندارد. DBMS وظیفه مراقبت از آن را بر عهده دارد.

DBMS مجموعه ای از داده ها به صورت ساختار یافته است و سیستمی برای مدیریت پایگاه داده است که اطلاعاتی را ثبت می‌کند که دارای اهمیت خاصی هستند. به عنوان مثال، اگر بخواهیم یک پایگاه داده دانش آموزی ایجاد کنیم، باید ویژگی های خاصی مانند شماره شناسه دانش آموز، نام دانش آموز، آدرس دانش آموز، شماره موبایل دانش آموز، ایمیل دانش آموز و غیره را اضافه کنیم و همه ویژگی ها دارای نوع رکورد مشابهی هستند. DBMS یک شرکت قابل اعتماد در اختیار کاربر نهایی قرار می‌دهد.

5-سیستم پایگاه داده پیشرفته

طیف جدیدی از پایگاه های داده مانند NoSQL/new SQL توسط سیستم های تخصصی مدیریت پایگاه داده هدف قرار گرفتند. پیشرفت‌های جدید در ذخیره ‌سازی داده‌ها با درخواست‌های کاربردی مانند پشتیبانی از تحقیقات تحلیل پیش‌بینی‌کننده و پردازش داده‌ها نیز توسط سیستم‌های مدیریت پایگاه داده پیشرفته پشتیبانی می‌شوند، افزایش یافته است. مرکز یک پایگاه داده موثر و سیستم های اطلاعاتی همواره مدیریت پیشرفته داده ها بوده است. این انبوهی از مدل‌های مختلف داده را بررسی می‌کند و پایه‌های ساختاربندی، مرتب‌سازی، ذخیره‌سازی و جستجوی داده‌ها را بر اساس این مدل‌ها بررسی می‌کند.

مسائل داده کاوی

امروزه داده ‌کاوی تقاضای زیادی دارد؛ زیرا به شرکت‌ها کمک می‌کند تا بینش‌هایی ارائه دهند و بررسی کنند که چگونه فروش محصولاتشان می‌تواند افزایش یابد. داده کاوی نقاط قوت زیادی دارد و یک صنعت رقابتی و در حال گسترش سریع است. به عنوان مثال، یک فروشگاه مد که هر یک از مشتریان خود را که محصولی را از فروشگاه آنها خریداری می‌کنند، ثبت نام می‌کند. بر اساس داده های مشتری مانند سن، جنسیت، گروه درآمد، شغل و غیره،فروشگاه می‌تواند بفهمد که چه نوع مصرف کنندگانی محصولات مختلف را خریداری می‌کنند. در این مثال، نام مشتری هیچ ارزشی ندارد، بنابراین ما نمی‌توانیم الگوی خرید را با نام پیش‌بینی کنیم که آیا مصرف‌کننده محصول خاصی را خریداری می‌کند یا خیر. بنابراین، از گروه سنی، قومیت، گروه درآمد، شغل و غیره برای مکان یابی جزئیات ارزشمند استفاده می‌شود. “داده کاوی” به دنبال حقایق یا روندهای جذاب در داده ها است.

برنامه های کاربردی داده کاوی در دنیای امروز با مشکلاتی روبرو هستند. بسیاری از این مشکلات در تحقیق و توسعه های اخیر داده کاوی تا حدی حل شده و اکنون معیاری برای داده کاوی در نظر گرفته می‌شود. اما برخی هنوز در سطح تحقیق هستند.

برخی از رایج ترین چالش ها در زیر توضیح داده شده است:

1-روانشناسی استخراج

با وجود برنامه های کاربردی متنوع، فعالیت های استخراج جدید همچنان در حال تکامل هستند. این فعالیت ها ممکن است از یک پایگاه داده به روش های متعددی استفاده کنند و نیاز به تکنیک های جدیدی برای داده کاوی ایجاد کنند. هنگام جستجوی اطلاعات در مجموعه داده های بزرگ، باید فضای چند بعدی را طی کنیم. انواع مختلفی از اندازه‌ گیری‌ها باید برای شناسایی الگوهای جذاب اجرا شوند. داده های نامشخص، آشفته و ناقص نیز ممکن است منجر به استنتاج نادرست شود.

2- مشکل تعامل کاربر

روش پردازش دیتاها می‌تواند بسیار فراگیر باشد. تعامل با کاربر برای تسهیل فرآیند استخراج بسیار مهم است. در دوره داده کاوی، تمام اطلاعات دامنه، دانش زمینه، محدودیت ها و غیره باید با هم ترکیب شوند. دانش کشف شده توسط داده کاوی باید برای انسان قابل دسترسی باشد. یک نمایش گویا از اطلاعات، تکنیک های شبیه سازی کاربر پسند و غیره باید توسط چارچوب پیاده سازی شود.

3- عملکرد و مقیاس پذیری

به منظور بازیابی موثر داده های جالب از حجم زیادی از داده ها در انبارهای داده، الگوریتم های داده کاوی باید قوی و مقیاس پذیر باشند.توسعه الگوریتم های فشرده داده های موازی و توزیع شده از توزیع زیاد داده ها و پیچیدگی محاسباتی الهام گرفته شده است.

الگوریتم داده کاوی باید کارآمد و مقیاس پذیر باشد تا بتواند به طور موثر اطلاعات را از حجم عظیمی از داده ها در پایگاه های داده استخراج کند. اندازه عظیم بسیاری از پایگاه های داده، توزیع گسترده داده ها و پیچیدگی برخی از روش های داده کاوی عواملی هستند که انگیزه توسعه الگوریتم هایی برای داده کاوی موازی و توزیع شده را ایجاد می‌کنند. این الگوریتم ها داده ها را به پارتیشن هایی تقسیم می‌کنند که به طور همزمان تجزیه و تحلیل می‌شوند.

4- تنوع نوع داده ها

کار با انواع داده های رابطه ای و پویا: در کتابخانه ها و انبارهای داده، انواع مختلفی از دیتا ها ذخیره می‌شود. هر دو نوع دیتا را نمی‌توان توسط یک ماشین استخراج کرد. در کنار انواع مختلف داده ها، راه حل های داده کاوی نیز باید ساخته شوند.
استخراج اطلاعات از مجموعه داده‌های ناهمگن و سیستم‌های اطلاعات جهانی: از آنجایی که داده‌ها از منابع داده شبکه محلی (LAN) و شبکه گسترده (WAN) جمع‌آوری می‌شوند، کشف اطلاعات از منابع سازمان‌یافته مختلف یک چالش بزرگ برای داده‌کاوی است.

5- داده کاوی و جامعه

زمینه های مورد علاقه ای که باید مورد بحث قرار گیرد افشای استفاده از اطلاعات و نقض احتمالی حریم خصوصی انسان و حمایت از حقوق آن ها است. کاربرد داده کاوی منجر به پیدا کردن راه حل های منحصر به فرد داده کاوی، ابزارهای محیطی، پاسخگویی هوشمندانه به سوالات، نظارت بر فرآیندها و تصمیم گیری می‌شود.

انگیزه یا اهمیت داده کاوی

داده کاوی حوزه ای است که در آن مقادیر زیادی دانش به دست می‌آید و برای بازیابی هر گونه اطلاعات ارزشمند، یعنی اطلاعات ساختاریافته، تجزیه و تحلیل می‌شود. با گذشت زمان، خواسته هایش بیشتر شد. همه به دانش مختصر و دقیقی نیاز دارند که از طریق آن امکان پذیر است، زیرا کار آسانی نیست، اما از طریق مجموعه ای از فرآیندها و فناوری، امکان پذیر می‌شود.

منابع اصلی داده های فراوان

تجارت : وب، تجارت الکترونیک، معاملات، سهام
علوم : سنجش از دور، بیوانفورماتیک، شبیه سازی علمی
جامعه و همه : اخبار، دوربین های دیجیتال، یوتیوب
در صنایع : برای اطلاع از رتبه بندی افراد

پاکسازی داده

پاکسازی داده ها روشی برای حذف تمام نویزهای احتمالی از داده ها و پاکسازی آن است. دیتاهای مناسب و پاک شده برای تجزیه و تحلیل داده ها و یافتن بینش های کلیدی، الگوها و غیره استفاده می‌شوند. پاکسازی داده ها، سازگاری آن ها را افزایش می‌دهد و مستلزم عادی سازی داده ها است. اطلاعات به دست آمده از منابع موجود ممکن است نادرست، غیرقابل اعتماد، پیچیده و گاهی ناقص باشند. بنابراین، قبل از داده کاوی، برخی از داده های سطح پایین باید پاکسازی شوند. پاکسازی اطلاعات تنها به پاک کردن داده‌ها برای ایجاد فضا برای اطلاعات جدید نیست، بلکه یافتن راهی برای بهبود دقت مجموعه داده‌ها بدون حذف واقعی اطلاعات است.

چرا پاک سازی داده ها؟

پاکسازی داده ها هم برای افراد و هم برای سازمان ها مهم است. با گسترش شرکت، داده های زیادی را جمع آوری می‌کند. دیتاهای تمیز و ساختار یافته به مدیران سازمان ها اجازه می‌دهد تا تصمیماتی اتخاذ کنند که کارایی سازمان را بهبود بخشند.

یک استراتژی سازمانی مؤثر به حفظ سازمان برای مدت طولانی کمک می‌کند و بهترین انتخاب ها را انجام می‌دهد و در نتیجه، کارایی را بهبود می‌بخشد و برای دستیابی به پاکسازی بیشتر و کارآمدتر داده ها مهم است.

فرآیند پاکسازی داده ها

فرآیند پاکسازی داده ها پاکسازی داده ها را مدیریت می‌کند. اما قبل از رسیدگی به داده های متناقض، ابتدا باید آنها را شناسایی کرد. مراحل زیر در فرآیند پاکسازی داده ها استفاده می‌شود.

1- شناسایی جزئیات متناقض

با توجه به عوامل مختلف، مانند نوع داده، اختلاف در داده ها را می‌توان با بسیاری از فیلدهای اختیاری ایجاد کرد که به داوطلبان امکان می‌دهد جزئیات از دست رفته را پر کنند. در هنگام ورود به نتایج، نامزدها ممکن است اشتباه کنند؛ هر یک از جزئیات ممکن است قدیمی باشد، مانند به روز رسانی آدرس، شماره تلفن و غیره. ممکن است این دلیل جزئیات متناقض باشد.

2- شناسایی مقادیر گمشده

اگر رکوردی وجود داشته باشد که فاقد چندین ویژگی و مقادیر آن باشد، می‌توان آن را نادیده گرفت.

3- داده های پرت و مقادیر از دست رفته را حذف کنید

داده های پرت شامل اطلاعات بدون معنی هستند. برای بیان سوابق فاسد از اصطلاح اطلاعات نویز نیز استفاده می‌شود. داده های پرت نمی‌توانند با اطلاعات ارزشمند در فرآیند داده کاوی مطابقت داشته باشند. برای شروع داده کاوی، داده های پرت که حجم داده ها را در انبار داده افزایش می‌دهد را می‌توان به طور موثر حذف کرد.

به طور کلی روش های زیر برای حذف داده های پرت استفاده می‌شود:

پاکسازی: ممکن است دیتاهای پرت را را با تعیین مقادیر مرزی برای اجازه جایگزینی بر اساس نحوه ایجاد آنها حذف کنیم.

رگرسیون: رگرسیون برای دیتاهای پرت استفاده می‌شود. رگرسیون ویژگی های داده را به عنوان یک ویژگی که رابطه بین دو متغیر را مشخص می‌کند مطابقت می‌دهد، مانند رگرسیون خطی، به طوری که یک ویژگی به شناسایی مقدار ویژگی دیگر کمک می‌کند.

خوشه بندی: دیتاهای قابل مقایسه در یک خوشه با این روش خوشه بندی می‌شوند. نقاط پرت ممکن است شناسایی نشده باشند یا خارج از خوشه ها ممکن است فرو بریزند.

مزایای پاکسازی داده ها:

1-حذف داده های پرت از منابع مختلف داده

2-تشخیص خطا، کارایی کار را بهبود می‌بخشد و به کاربران جهت شناسایی اشتباهات ناشی از منابع مختلف را می‌دهد.

3-با استفاده از فرآیند پاکسازی داده ها، می‌توانیم یک فرآیند تجاری موثر و تصمیم گیری بهتر داشته باشیم.

کاوش داده در داده کاوی

1-تعریف اکتشاف داده

کاوش داده فرآیند جمع آوری داده های مرتبط با اطلاعات مربوط به یک شی یا فیلد هدف است. این کاراکتر ها شامل اندازه یا کمیت اطلاعات، کامل بودن اطلاعات، صحت اطلاعات، روابط قابل انجام بین مؤلفه های دانش یا فایل ها یا جدول های موجود در دانش است.

اغلب کاوش داده ها ترکیبی از فعالیت های خودکار و دستی می‌باشند. فعالیت‌های خودکار شامل نمایه‌سازی داده‌ها یا تجسم داده‌ها یا گزارش‌های جدولی می‌شود تا تحلیلگر اطلاعات اولیه را بخواند و ویژگی‌های کلیدی را درک کند. معمولاً اطلاعات را به صورت دستی فیلتر می‌کنند تا ناهنجاری ها یا الگوهای شناخته شده از طریق اقدامات خودکار شناسایی شوند.

کاوش داده حتی می‌تواند به اسکریپت‌نویسی دستی و جستجو در اطلاعات (مانند زبان‌های بهره‌ برداری مانند SQL یا R) یا صفحات گسترده بهره‌برداری یا ابزارهای مشابه برای مشاهده داده‌ها نیاز داشته باشد. تمام این فعالیت‌ها در جهت ایجاد یک مدل ذهنی و درک اطلاعات در ذهن تحلیل‌گر و شکل‌دهی به اطلاعات پایه (آمار، ساختار، روابط) برای مجموعه اطلاعاتی است که ممکن است در تحلیل‌های آتی استفاده شود. هنگامی که این درک اولیه از اطلاعات انجام شد، اطلاعات با حذف عناصر غیرقابل استفاده از اطلاعات (پاکسازی داده ها)، اصلاح مؤلفه های با قالب بندی ضعیف و شکل دادن به روابط مرتبط در بین مجموعه داده ها، هرس یا اصلاح می‌شود. این روش علاوه بر این به عنوان کیفیت دانش حیاتی نیز شناخته می‌شود.

2-توصیف آماری داده ها

آمار در همه زمینه ها نقش مهمی دارد. در جمع آوری داده ها، چه در هر زمینه ای، کمک می‌کند. در کنار آن، به تجزیه و تحلیل داده ها با استفاده از تکنیک های آماری نیز کمک می‌کند. آمار همه چیز در مورد “جمع آوری” داده ها است. همچنین، هدف حفظ داده ها برای رفاه همه افراد در منطقه است. بر اساس محاسبات مختلف، پیش‌بینی‌های متعددی وجود دارد که به یک یا آن پاسخ منجر شده است.

روش های مختلف آماری شامل

a) اندازه گیری گرایش مرکزی

در آمار، یک گرایش مرکزی ممکن است به عنوان میانه یا محل توزیع نامیده شود. معیارهای گرایش مرکزی را میانگین می‌نامند. رایج ترین معیارهای واحد ناحیه گرایش مرکزی عبارتند از:

میانگین حسابی: مجموع تمام مقادیر عددی تقسیم بر تعداد کل مقادیر عددی

میانه: پس از مرتب کردن داده ها به ترتیب صعودی، به نقطه میانی داده ها اشاره می‌کند.

مد:بیشترین تعداد تکرار در داده ها

b) اندازه گیری پراکندگی

در آمار، پراکندگی مربوط به تغییرپذیری است، پراکندگی و گسترش میزان کشش یا فشرده شدن یک توزیع است. تنوع اطلاعات را از یکدیگر می‌گوید و یک طرح شفاف در مورد توزیع اطلاعات ارائه می‌دهد. اندازه گیری پراکندگی می‌تواند همگنی یا ناهمگنی توزیع مشاهدات را ارائه دهد. نمونه های رایج معیارهای پراکندگی آماری عبارتند از:

دامنه: به تفاوت بین بالاترین مقدار و کمترین مقدار اشاره دارد.
واریانس: به مجموع مجذور انحرافات از میانگین نمونه اطلاق می‌شود که بر یک کمتر از حجم نمونه تقسیم می‌شود.
انحراف معیار: به جذر واریانس اشاره دارد.
محدوده بین چارکی: IQR معیاری برای تغییرپذیری است که بر اساس تقسیم اطلاعات مجموعه به چارک است. چارک ها یک مجموعه دانش مرتب شده را به چهار جزء مساوی تقسیم می‌کنند. مقادیری که اجزاء را از هم جدا می‌کنند، به عنوان چارک‌های اولیه، دوم و سوم شناخته می‌شوند. و آنها با Q1، Q2 و Q3 نشان داده می‌شوند.

c) اندازه گیری چولگی و کورتوزیس

چولگی ممکن است در اثر تقارن یا به طور دقیق تر، عدم تقارن باشد. مجموعه داده متقارن است اگر در سمت چپ و راست نقطه مرکزی یکسان به نظر برسد.

کورتوزیس معیاری است که نشان می‌دهد داده ها دارای دم سنگین یا سبک نسبت به توزیع نرمال هستند. به این معنا که مجموعه‌های اطلاعاتی با کشش بالا تمایل به داشتن دنباله یا نقاط پرت جدی دارند. مجموعه داده‌های با کشیدگی کم تمایل به داشتن دم سبک یا فقدان نقاط پرت دارند. توزیع یکنواخت یک مورد شدید خواهد بود.

3- مفهوم تجسم داده ها

تجسم داده، تصویر گرافیکی دانش و داده است. با بدرفتاری با بخش‌های بصری مانند نمودارها و نقشه‌ها، ابزارهای تجسم داده‌ها راهی در دسترس برای دیدن و درک روندها، نقاط دورافتاده و الگوهای داده‌ها فراهم می‌کنند. این مفهوم یک ابزار کلیدی فزاینده برای درک تریلیون ها ردیف داده ای است که هر روز تولید می‌شود.

انجام این کار به اطلاع‌ رسانی داستان‌ها کمک می‌کند تا اطلاعات را به گونه‌ای ساده‌تر بشناسند و روندها و نقاط پرت را برجسته کنند. یک تجسم خوب داستانی را بیان می‌کند که داده های پرت را از داده ها حذف و اطلاعات مفید را برجسته می‌کند.

4- تکنیک های مختلف تجسم داده ها

انواع کلی و متداول تجسم داده ها:

نمودار ها
جدول ها
گراف ها
نقشه ها
اینفوگرافیک ها
داشبورد ها

نمونه های دیگر از متدهای تجسم داده ها:

نمودار مساحتی
نمودار میله ای
نمودار جعبه ای
نمودار گلوله
کارتوگرام
نمای دایره
نقشه توزیع نقطه ای
نمودار گانت
نقشه حرارتی
جدول برجسته
هیستوگرام
ماتریس
شبکه
منطقه قطبی
درخت شعاعی
طرح پراکندگی (دو بعدی یا سه بعدی)
استریم گراف
جدول زمانی
نقشه درختی

و در آخر

ما در این مقاله سعی کردیم تا داده کاوی را از مناظر مختلف مورد بررسی قرار دهیم و با این حساب متوجه شدیم که در این دوره، داده ها در ارکان مهم سیاسی، اقتصادی و اجتماعی دنیا نقش بسیار مهمی را ایفا می‌کنند. امروزه دیگر می‌توان گفت که استفاده از دیتاها برای مدیریت کسب و کارها هم یک الزام به حساب می‌آید. قطعا کسب و کارهایی هم که از پیوستن به این حیطه خودداری کنند سرنوشتی جز شکست نخواهند داشت. امیدوارم که این مقاله برای شما عزیزان مفید واقع شده باشد.

جهت کسب اطلاعات بیشتر به وبلاگ پویان آی تی مراجعه نمایید و مقالات مرتبط را مطالعه نمایید.

داده کاوی چیست؟ + بررسی صفر تا صد داده کاوی به زبانی ساده

انواع داده کاوی

پایگاه داده رابطه ای

انبارهای داده

مخازن داده ها

پایگاه داده شی – رابطه ای

پایگاه داده معاملات

مزایای داده کاوی

معایب داده کاوی

تکنیک های داده کاوی

پاکسازی و آماده سازی داده ها

الگوهای ردیابی

طبقه بندی

انجمن

تشخیص نقاط پرت

خوشه بندی

پیش بینی

الگوهای متوالی

درختان تصمیم

تکنیک های آماری

تجسم

شبکه های عصبی

انبار داده ها

پردازش حافظه بلند مدت

یادگیری ماشینی و هوش مصنوعی