داده کاوی چیست؟ + بررسی صفر تا صد داده کاوی به زبانی ساده
داده کاوی از الگوریتم های پیچیده ریاضی برای استخراج دیتاها استفاده میکند و احتمال وقوع رویدادها در آینده را پیش بینی میکند. به داده کاوی، کشف دانش از داده (KDD) نیز میگویند. در واقع داده کاوی فرایندی است که از آن برای استخراج داده های خاص از پایگاه های بزرگ اطلاعاتی برای به کارگیری در راستای اهداف مشخص استفاده میشود. در این فرایند در ابتدا داده های خام به اطلاعات مفید تبدیل میشوند.
داده کاوی شبیه علم اطلاعات میباشد که توسط شخصی در یک موقعیت خاص بر روی یک مجموعه داده خاص برای دستیابی به هدفی خاص انجام میشود. این فرآیند شامل انواع مختلفی از خدمات مانند متن کاوی، وب کاوی، استخراج صدا و تصویر، داده کاوی تصویری و داده کاوی رسانه های اجتماعی است. این فرایند توسط یک نرم افزار ساده و بسیار خاص انجام میشود.
با برون سپاری داده کاوی میتوان کارها را سریع تر و با هزینه های کمتر انجام داد. شرکتهای تخصصی همچنین میتوانند از فناوریهای جدید برای جمعآوری دادههایی استفاده کنند که یافتن آنها به صورت دستی غیرممکن است. هزاران تن اطلاعات در پلتفرم های مختلف موجود است، اما دانش بسیار کمی در دسترس است. بزرگ ترین چالش در این فرایند آنالیز داده ها برای استخراج اطلاعاتی مهم جهت حل یک مشکل یا توسعه یک شرکت میباشد. ابزارها و تکنیک های قدرتمند زیادی برای اسخراج داده و پیدا کردن بینش بهتر فراهم میباشد.
انواع داده کاوی
داده کاوی را میتوان بر روی انواع دیتاهای زیر انجام داد:
پایگاه داده رابطه ای
پایگاه داده رابطه ای مجموعه ای از دادههای متعدد است که به طور رسمی توسط جداول، رکوردها و ستون ها سازماندهی شدهاند که به آنها میتوان به روش های مختلف بدون نیاز به شناسایی جداول پایگاه داده دسترسی داشت. با انتقال و به اشتراک گذاری جداول اطلاعات جست و جوی دادهها و سازمان دهی آن ها آسان میشود.
انبارهای داده
انبار داده فناوری است که دیتاها را از منابع مختلف درون سازمان جمع آوری میکند تا بینش تجاری معنی دار ارائه دهد؛ حجم عظیمی از دیتاها از مکان های مختلفی مانند بازاریابی و امور مالی میباشند. اطلاعات استخراج شده برای اهداف تحلیلی استفاده میشود و به تصمیم گیری برای یک سازمان تجاری کمک میکند؛ انبار داده برای تجزیه و تحلیل اطلاعات به جای پردازش تراکنش طراحی شده است.
مخازن داده ها
مخزن داده به طور کلی به مقصدی برای ذخیره سازی داده ها اشاره دارد. با این حال، بسیاری از متخصصان فناوری اطلاعات از این واژه برای اشاره به نوع خاصی از تنظیمات در ساختار فناوری اطلاعات استفاده میکنند. به عنوان مثال، گروهی از پایگاه های داده، که در آن یک سازمان انواع مختلفی از اطلاعات را نگهداری میکند.
پایگاه داده شی – رابطه ای
ترکیبی از مدل پایگاه داده شی گرا و مدل پایگاه داده رابطه ای، مدل شی رابطه ای نامیده میشود که از کلاس ها، اشیاء، وراثت و غیره پشتیبانی میکند. یکی از اهداف اصلی مدل دادههای رابطهای شیء، بستن شکاف بین پایگاه داده رابطهای و شیگرا است که اغلب در بسیاری از زبانهای برنامهنویسی، به عنوان مثال، C++، جاوا، C# و غیره استفاده میشوند.
پایگاه داده معاملات
پایگاه داده معاملاتی به یک سیستم مدیریت پایگاه داده (DBMS) اشاره دارد که در صورت عدم اجرای مناسب، امکان خنثی سازی تراکنش پایگاه داده را دارد. اگرچه این یک قابلیت منحصربهفرد بود، اما امروزه بیشتر سیستمهای پایگاه داده رابطهای از فعالیتهای پایگاه داده معاملاتی پشتیبانی میکنند.
مزایای داده کاوی
- تکنیک داده کاوی سازمان ها را قادر میسازد تا دیتاهای مبتنی بر دانش را به دست آورند.
- داده کاوی سازمانها را قادر میسازد تا تغییرات سودآوری را در عملیات و تولید انجام دهند.
- در مقایسه با سایر برنامههای کاربردی داده های آماری، داده کاوی مقرون به صرفه است.
- داده کاوی به فرآیند تصمیم گیری یک سازمان کمک میکند.
- کشف خودکار الگوهای پنهان و همچنین پیش بینی روندها و رفتارها را تسهیل میکند.
- میتوان آن را در سیستم جدید و همچنین پلتفرم های موجود القا کرد.
- این یک فرآیند سریع است که تجزیه و تحلیل حجم عظیمی از اطلاعات را در زمان کوتاه برای کاربران جدید آسان میکند.
معایب داده کاوی
- این احتمال وجود دارد که سازمان ها اطلاعات مفید مشتریان را در ازای پول به سازمان های دیگر بفروشند.
- بسیاری از نرم افزارهای تجزیه و تحلیل داده کاوی تخصصی هستند و برای کار بر روی آنها به آموزش قبلی نیاز است.
- ابزارهای داده کاوی مختلف به دلیل الگوریتم های متفاوتی که در طراحی آنها استفاده میشود، به روشهای متفاوتی عمل میکنند. بنابراین، انتخاب ابزارهای داده کاوی مناسب یک کار بسیار چالش برانگیز است.
- تکنیک های داده کاوی دقیق نیستند.
تکنیک های داده کاوی
داده کاوی فرآیندی است که توسط آن، سازمان ها الگوهای موجود در داده ها را برای بینش های مرتبط با نیازهای تجاری خود تشخیص میدهند که هم برای هوش تجاری و هم برای علم داده ضروری است. بسیاری از تکنیک های داده کاوی وجود دارد که سازمان ها میتوانند از آنها برای تبدیل داده های خام به بینش های عملی استفاده کنند. اینها همه چیز را از هوش مصنوعی پیشرفته گرفته تا اصول اولیه آماده سازی داده را شامل میشود که هر دو کلیدی برای به حداکثر رساندن ارزش سرمایه گذاری داده ها هستند.

پاکسازی و آماده سازی داده ها
پاکسازی و آماده سازی دیتاها بخش مهمی از فرآیند داده کاوی است. اطلاعات خام باید پاکسازی و قالب بندی شوند تا در روش های مختلف تحلیلی مفید باشند. پاکسازی و آماده سازی داده ها شامل عناصر مختلفی از مدل سازی داده ها، تبدیل، انتقال داده ها، ETL، ELT، یکپارچه سازی داده ها و تجمیع است. این یک گام ضروری و مهم برای درک ویژگی های اساسی داده ها جهت تعیین بهترین کاربرد آن هاست.
ارزش تجاری پاکسازی و آماده سازی داده ها بدیهی است. بدون اولین گام، داده ها یا برای یک سازمان بی معنی یا به دلیل کیفیت پایین آنها غیرقابل اعتماد هستند. شرکت ها باید بتوانند به اطلاعات خود، نتایج تجزیه و تحلیل آن ها و اقدامات ایجاد شده از آن نتایج اعتماد کنند. این مراحل همچنین برای کیفیت داده ها و مدیریت صحیح دیتاها ضروری هستند.
الگوهای ردیابی
الگوهای ردیابی یک تکنیک داده کاوی اساسی هستند. این الگو ها شامل شناسایی و نظارت بر روندها یا الگوهای داده ها برای استنتاج هوشمندانه در مورد نتایج کسب و کار میباشند. به عنوان مثال، هنگامی که یک سازمان روندی را در داده های فروش شناسایی میکند، مبنایی جهت اقدام برای سرمایه گذاری بر روی آن بینش وجود دارد. اگر مشخص شود که یک محصول خاص بیشتر از سایرین برای یک جمعیت خاص به فروش میرسد، یک شرکت میتواند از این آگاهی برای ایجاد محصولات یا خدمات مشابه استفاده کند یا به سادگی محصول اصلی را برای این جمعیت شناسی بهتر ذخیره کند.
طبقه بندی
تکنیک های طبقه بندی داده کاوی شامل تجزیه و تحلیل ویژگی های مختلف مرتبط با انواع داده ها است. هنگامی که سازمان ها ویژگی های اصلی این نوع داده ها را شناسایی میکنند، سازمان ها میتوانند داده های مرتبط را دسته بندی یا طبقه بندی کنند.
انجمن
انجمن یک تکنیک داده کاوی مرتبط با آمار است که نشان میدهد که دیتاهای خاصی (یا رویدادهایی که در دادهها یافت میشوند) به سایر دیتاها یا رویدادهای داده محور مرتبط هستند. این شبیه به مفهوم همزمانی در یادگیری ماشینی است که در آن احتمال یک رویداد مبتنی بر داده با حضور رویداد دیگری نشان داده میشود.
مفهوم آماری همبستگی نیز مشابه مفهوم تداعی است. این بدان معنی است که تجزیه و تحلیل داده ها نشان میدهد که بین دو رویداد داده رابطه وجود دارد.
تشخیص نقاط پرت
تشخیص نقاط پرت هر گونه ناهنجاری را در مجموعه دیتاها تعیین میکند. هنگامی که سازمانها انحرافاتی را در دیتاهای خود پیدا کنند، درک اینکه چرا این ناهنجاریها رخ میدهند و آماده شدن برای هر گونه رویداد آینده برای رسیدن به بهترین اهداف تجاری آسانتر میشود. برای مثال، اگر در زمان خاصی از روز استفاده از سیستمهای تراکنش برای کارتهای اعتباری افزایش پیدا کند، سازمانها میتوانند با پی بردن به اینکه چرا فروششان را در بقیه روز بهینه میکنند، روی این اطلاعات سرمایهگذاری کنند.
خوشه بندی
خوشه بندی یک تکنیک تحلیلی است که بر رویکردهای بصری برای درک دیتاها متکی است. مکانیسم های خوشه بندی از گرافیک استفاده میکنند تا نشان دهند که توزیع دیتاها در رابطه با انواع مختلف معیارها کجاست. تکنیک های خوشه بندی نیز از رنگ های مختلف برای نشان دادن توزیع دیتا ها استفاده میکنند.
رویکردهای نموداری برای استفاده از تجزیه و تحلیل خوشه ای ایده آل هستند. به طور خاص با نمودارها و خوشهبندی، کاربران میتوانند به صورت بصری نحوه توزیع دیتا ها را برای شناسایی روندهای مرتبط با اهداف تجاری خود ببینند.

پیش بینی
پیش بینی یک جنبه بسیار قدرتمند از داده کاوی است که یکی از چهار شاخه تجزیه و تحلیل را نشان میدهد. تجزیه و تحلیل پیشگویانه از الگوهای موجود در دیتا های فعلی یا تاریخی استفاده میکند تا آنها را در آینده گسترش دهد. بنابراین، به سازمانها بینشی در مورد روندهای بعدی در دادههایشان میدهد. چندین رویکرد مختلف برای استفاده از تجزیه و تحلیل پیش بینی وجود دارد. برخی از پیشرفتهترها شامل جنبههای یادگیری ماشینی و هوش مصنوعی است. با این حال، تجزیه و تحلیل پیشبینیکننده لزوماً به این تکنیکها بستگی ندارد . همچنین میتوان آن را با الگوریتمهای سادهتر تسهیل کرد.
الگوهای متوالی
این تکنیک داده کاوی بر کشف مجموعه ای از رویدادهایی که به ترتیب اتفاق میافتند تمرکز دارد. این به ویژه برای داده کاوی داده های تراکنش مفید است. به عنوان مثال، این تکنیک میتواند نشان دهد که مشتریان پس از خرید اولیه مثلاً یک جفت کفش، چه اقلامی از لباس را بیشتر خریداری میکنند. درک الگوهای متوالی میتواند به سازمان ها کمک کند تا اقلام اضافی را برای تحریک فروش به مشتریان توصیه کنند.
درختان تصمیم
درختهای تصمیم نوع خاصی از مدلهای پیشبینی هستند که به سازمانها اجازه میدهند به طور موثر دیتاها را استخراج کنند. از نظر فنی، درخت تصمیم بخشی از یادگیری ماشینی است، اما به دلیل ماهیت بسیار ساده اش، بیشتر به عنوان تکنیک یادگیری ماشین جعبه سفید شناخته میشود.
درخت تصمیم کاربران را قادر می سازد تا به وضوح بفهمند که ورودی داده ها چگونه بر خروجی ها تأثیر میگذارد. هنگامی که مدلهای درخت تصمیمگیری مختلف با هم ترکیب میشوند، مدلهای تحلیلی پیشبینیکننده به نام جنگل تصادفی را ایجاد میکنند. مدلهای جنگل تصادفی پیچیده، تکنیکهای یادگیری ماشین جعبه سیاه در نظر گرفته میشوند، زیرا درک خروجیهای آنها بر اساس ورودیهایشان همیشه آسان نیست. با این حال، در بیشتر موارد، این شکل اولیه از مدلسازی مجموعه دقیقتر از استفاده از درختهای تصمیم به تنهایی است.

تکنیک های آماری
تکنیک های آماری در هسته اکثر تجزیه و تحلیل های درگیر در فرآیند داده کاوی قرار دارند. مدلهای تحلیلی مختلف مبتنی بر مفاهیم آماری هستند که مقادیر عددی را به دست میدهند که برای اهداف تجاری خاص قابل استفاده است. به عنوان مثال، شبکههای عصبی از آمار پیچیده بر اساس وزنها و معیارهای مختلف برای تعیین سگ یا گربه بودن تصویر در سیستمهای تشخیص تصویر استفاده میکنند.
مدل های آماری یکی از دو بخش اصلی هوش مصنوعی را در برمیگیرند. مدلهای برخی از تکنیکهای آماری ثابت هستند، در حالی که برخی دیگر که شامل یادگیری ماشینی هستند، با گذشت زمان بهتر میشوند.
تجسم
تجسم داده ها را هم میتوان یکی از عناصر مهم داده کاوی دانست که به کاربران بینشی در مورد داده ها را بر اساس ادراکات حسی که مردم میتوانند ببینند، میدهند. تجسم دیتا های امروزی پویا هستند، برای پخش دیتاها در زمان واقعی مفید هستند و با رنگ های مختلف مشخص میشوند که روندها و الگوهای متفاوتی را در دیتا ها نشان میدهند.
داشبوردها روشی قدرتمند برای استفاده از تجسم داده ها برای کشف بینش های داده کاوی هستند. سازمانها میتوانند داشبوردها را بر اساس معیارهای مختلف قرار دهند و به جای استفاده از خروجیهای عددی مدلهای آماری، از تجسمسازیها برای برجسته کردن بصری الگوها در دادهها استفاده کنند.
شبکه های عصبی
شبکه عصبی نوع خاصی از مدل یادگیری ماشینی است که اغلب با هوش مصنوعی و یادگیری عمیق استفاده میشود. شبکههای عصبی که به دلیل داشتن لایههای مختلف شبیه به نحوه عملکرد نورونها در مغز انسان هستند، یکی از دقیقترین مدلهای یادگیری ماشینی هستند که امروزه مورد استفاده قرار میگیرند.
اگرچه یک شبکه عصبی میتواند ابزار قدرتمندی در دادهکاوی باشد اما سازمانها باید هنگام استفاده از آن احتیاط کنند. زیرا برخی از این مدلهای شبکه عصبی بسیار پیچیده هستند که درک چگونگی تعیین خروجی توسط شبکه عصبی را دشوار میکند.
انبار داده ها
ذخیره سازی دیتا بخش مهمی از فرآیند داده کاوی است. به طور سنتی، انبار داده شامل ذخیره سازی دیتا های ساخت یافته در سیستم های مدیریت پایگاه داده، رابطه ای میشود تا بتوان آن ها را برای هوش تجاری، گزارش دهی و قابلیت های داشبورد اولیه تجزیه و تحلیل کرد. امروزه انبارهای داده ابری و انبارهای داده در فروشگاه های داده نیمه ساختار یافته و بدون ساختار مانند Hadoop وجود دارد. در حالی که انبارهای داده به طور سنتی برای داده های تاریخی استفاده میشدند، بسیاری از رویکردهای مدرن میتوانند تجزیه و تحلیل عمیق و در زمان واقعی داده ها را ارائه دهند.
پردازش حافظه بلند مدت
پردازش حافظه بلند مدت به توانایی تجزیه و تحلیل دیتا ها در بازه های زمانی طولانی اشاره دارد. داده های تاریخی ذخیره شده در انبارهای داده برای این منظور مفید هستند. هنگامی که یک سازمان میتواند تجزیه و تحلیل را در مدت زمان طولانی انجام دهد، میتواند الگوهایی را شناسایی کند که در غیر این صورت ممکن است تشخیص آنها بسیار ظریف باشد. به عنوان مثال، با تجزیه و تحلیل فرسایش در یک دوره چند ساله، یک سازمان ممکن است سرنخ های ظریفی پیدا کند که میتواند منجر به کاهش ریزش مالی شود.
یادگیری ماشینی و هوش مصنوعی
یادگیری ماشینی و هوش مصنوعی (AI) یکی از بزرگ ترین پیشرفت ها در داده کاوی را نشان میدهد. اشکال پیشرفته یادگیری ماشینی مانند یادگیری عمیق، پیشبینیهای بسیار دقیقی را هنگام کار با دادهها در مقیاس ارائه میدهند. در نتیجه، آنها برای پردازش داده ها در استقرار هوش مصنوعی مانند بینایی رایانه، تشخیص گفتار، یا تجزیه و تحلیل متن پیچیده با استفاده از پردازش زبان طبیعی مفید هستند. این تکنیک های داده کاوی برای تعیین ارزش داده های نیمه ساختاریافته و بدون ساختار مناسب هستند.
کاربردهای تجاری داده کاوی
1-کشف تقلب مالی
الگوریتم های داده کاوی را میتوان مانند شبکه های عصبی جهت تشخیص فعالیت های عادی کاربر از فعالیت های پرت و مشکوک آموزش داد. برای مثال، هنگامی که شما در سفر هستید و برای شما پیامی مبنی بر اینکه کارت اعتباری شما تا زمان مراجعه به بانک مسدود میباشد ارسال میشود نشانه ی این است که رفتار شما توسط یک الگوریتم مشکوک شناسایی شده است.
2- حفظ مصرف کننده
الگوریتم های زیادی در امر بازاریابی جهت اطمینان حاصل کردن از رضایت مشتری استفاده میشود. یادگیری ماشینی راه های جدیدی را برای محاسبه ریزش مشتری،ارزش طول عمر و تقسیم بندی بازار ارائه میدهد.این الگوریتم ها میتوانند زمانی را که مشتری در معرض توقف تعامل با یک کسب و کار است را تشخیص و اطلاع دهند و برای جلوگیری از این اتفاق مشوق ها و راهکار هایی را برای بازگرداندن مشتری ارائه دهند.
3- فروش و فروش متقابل در تجارت الکترونیک
در حال حاضر، همه با موتورهای توصیهای مانند ویژگی «مکرر خرید با هم» آمازون یا رسانههای پیشنهادی نتفلیکس و اسپاتیفای آشنا هستند. اینها از الگوریتم های داده کاوی برای تجزیه و تحلیل رفتار مصرف کننده گذشته و ارائه پیشنهادات بر اساس یافته های خود استفاده میکنند. این الگوریتمها به راحتی میتوانند کاربردهای دیگری مانند توصیههای سهام، مشاور مالی، پیشنهادات درمانی پزشک یا پیشنهادات استراحتگاه برای افراد با مشخصات خاص داشته باشند.
4- تایید اعتبار
از کاربردهای داده کاوی در بانک ها محاسبه احتمال عدم پرداخت اقساط وام توسط مشتری میباشد. بر اساس این محاسبه بانک میتواند درخواست وام متقاضی را رد یا قبول کند و همچنین نرخ سود بازپرداخت را تعیین کند.

5-فروشگاه های مواد غذایی
مزیت داشتن کارت وفاداری برای مشتریان فروشگاه های مواد غذایی شناسایی علایق و عادات خرید مشتریان و بهینه سازی و ارائه ی طرح های متناسب با آن میباشد. برای مثال فروشگاه معروف تارگت از طریق الگوی خرید مشتریان احتمال حاملگی و بچه دار شدن مشتریان را تشخیص و کوپن های پوشک و لوازم کودک را گاهی قبل از اطلاع خود مشتریان ارسال میکرد.
6-پیش بینی تعداد بیماران در بیمارستان ها
یکی از سخت ترین کارها در بیمارستان ها پیش بینی تعداد بیماران اورژانسی میباشد، که به عوامل متعددی مثل شرایط آب و هوایی و تعطیلات وابسته میباشد. الگوریتم های داده کاوی را میتوان برای دستیابی به دقیق ترین پیش بینی با توجه به داده های موجود از گذشته تنظیم کرد. البته محدودیت هایی مثل رویداد های کم سابقه مانند بلایای طبیعی یا شیوع بیماری ویروسی در این الگوریتم وجود دارد.گرچه که این رویداد ها به ندرت رخ میدهند.
7-رباط های مکالمه (Chatbots) و دستیاران مجازی
داده کاوی برای متن، که به عنوان پردازش زبان طبیعی (NLP) نیز شناخته میشود، در چند سال گذشته با جهش و حد و مرز پیشرفت کرده است، در حال حاضر به الگوریتم ها اجازه میدهد تا ویژگی های قدرتمندی مانند احساسات را از متن استخراج کنند. همچنین امکان تولید متن اصلی را فراهم میکند. پیشرفتهای NLP ، چتباتها و دستیارهای مجازی را هوشمندتر از همیشه کرده است و تصور آیندهای که دستیاران مجازی در همه جا حضور دارند، سخت نیست.
انواع داده در داده کاوی

داده کاوی فرآیند اسکن خودکار انبارهای دیتا گسترده برای یافتن الگوها و پیشرفت هایی است که فراتر از تحقیقات اساسی است؛ و از الگوریتم های آماری پیشرفته برای برش داده ها و محاسبه احتمال رویدادهای آینده استفاده میکند و اغلب به عنوان کشف دانش در پایگاه های داده (KDD) نامیده میشود. در علوم کامپیوتر، داده کاوی که به عنوان کشف اطلاعات از پایگاه های داده نیز شناخته میشود، روشی برای یافتن الگوها و روابط جالب و مفید در مجموعه داده های بزرگ است. برای تجزیه و تحلیل داده های انبوه که به مجموعه داده ها معروف هستند، این حوزه ابزارهای هوش محاسباتی و مصنوعی (مانند شبکه های عصبی و یادگیری ماشین) را با مدیریت پایگاه داده ترکیب میکند. در تجارت (بیمه، بانک، خرده فروشی)، تحقیقات علمی (نجوم، پزشکی) و امنیت دولتی، معمولا از داده کاوی (تشخیص مجرمان و تروریست ها) استفاده میشود.
انواع داده ها
داده کاوی را میتوان در قالب های داده زیر انجام داد:
1- پایگاه های اطلاعاتی رابطه ای
پایگاه داده رابطه ای مجموعهای از رکوردها است که بین استفاده از مجموعه ای از محدودیتهای از پیش تعریف شده مرتبط هستند. این رکوردها در ستون ها و ردیف ها در قالب جدول هایی مرتب شده اند. جدول ها برای ذخیره داده های مربوط به مواردی که قرار است در پایگاه داده توضیح داده شوند استفاده میشود.
یک پایگاه داده رابطهای به عنوان مجموعهای از دادههای مرتب شده در ردیفها و ستونها در جداول پایگاه داده مشخص میشود. در پایگاه های داده رابطه ای، ساختار پایگاه داده را میتوان با استفاده از طرحواره های فیزیکی و منطقی تعریف کرد. طرح واره فیزیکی طرحی است که ساختار پایگاه داده و رابطه بین جداول را توصیف می کند در حالی که طرحواره منطقی طرحی است که نحوه پیوند جداول با یکدیگر را توصیف میکند. API استاندارد پایگاه داده رابطه ای SQL است. کاربردهای آن پردازش داده، مدل ROLAP و غیره است.
2-انبارهای داده
ساخت یک مخزن داده به وسیله ی مجموعه ای از قوانین، انبار داده نام دارد. به وسیله ی ترکیب دادهها از چندین منبع ناهمگن کاربر را قادر به گزارشهای تحلیلی، درخواستهای استاندارد و تصمیمگیری میکند. ذخیره سازی دیتا ها نیازمند پاکسازی دیتا ها، یکپارچه سازی و ذخیره سازی اطلاعات است. برای کمک به تحقیقات تاریخی، یک انبار داده معمولاً چندین ماه یا چندین سال داده را ذخیره سازی میکند.
داده های یک انبار داده معمولاً از چندین منبع داده توسط فرآیند استخراج، تبدیل و بارگذاری بارگیری میشوند. انبارهای داده مدرن به سمت معماری استخراج، بارگذاری، تبدیل می روند که در آن تمام یا بیشتر تبدیل داده ها بر روی پایگاه داده ای انجام میشود که میزبان انبار داده است. مهم است که به یاد داشته باشید که بخش بسیار مهمی از ابتکار طراحی انبار داده، توصیف روش ETL (استخراج، تبدیل، و بارگذاری) است. فعالیت های ETL ستون فقرات انبار داده است.
3-پایگاه های داده تراکنش ها
برای توضیح مفهوم پایگاه های داده تراکنش ها، ابتدا توضیح میدهیم که تراکنش شامل چه چیزی است. معامله به عبارت فنی، مجموعه ای از توالی کار هایی است که در عین حال مستقل و وابسته هستند. یک معامله تنها در صورتی منعقد میشود که تمام فعالیت هایی که بخشی از معامله هستند با موفقیت انجام شوند. تراکنش حتی اگر شکست بخورد به عنوان یک خطا در نظر گرفته میشود و همه اقدامات باید به عقب برگردند یا مجددا انجام شوند.
یک نقطه شروع مشخص برای هر تراکنش پایگاه داده وجود دارد که به دنبال آن مراحل تغییر داده های داخل پایگاه داده انجام میشود. در پایان، قبل از اینکه تراکنش دوباره امتحان شود، پایگاه داده یا تغییرات را انجام میدهد تا آنها را دائمی کند یا تغییرات را به نقطه شروع برمیگرداند.
برای مثال، در مورد معامله بانکی، تراکنش بانکی تنها زمانی انجام میپذیرند که مبلغی که از یک حساب بستانکاری شده با موفقیت به حساب دیگری بدهکار شود. اما اگر مبلغ برداشت شده توسط مقصد دریافت نشد، لازم است که کل تراکنش را به نقطه اصلی برگردانید.
4-سیستم مدیریت پایگاه داده
DBMS یک برنامه کاربردی برای توسعه و مدیریت پایگاه داده است. روشی ساختاریافته برای کاربران برای ایجاد، بازیابی، به روز رسانی و مدیریت داده ها ارائه میدهد. شخصی که از DBMS برای برقراری ارتباط با پایگاه داده استفاده میکند، نیازی به نگرانی در مورد نحوه و مکان پردازش داده ها ندارد. DBMS وظیفه مراقبت از آن را بر عهده دارد.
DBMS مجموعه ای از داده ها به صورت ساختار یافته است و سیستمی برای مدیریت پایگاه داده است که اطلاعاتی را ثبت میکند که دارای اهمیت خاصی هستند. به عنوان مثال، اگر بخواهیم یک پایگاه داده دانش آموزی ایجاد کنیم، باید ویژگی های خاصی مانند شماره شناسه دانش آموز، نام دانش آموز، آدرس دانش آموز، شماره موبایل دانش آموز، ایمیل دانش آموز و غیره را اضافه کنیم و همه ویژگی ها دارای نوع رکورد مشابهی هستند. DBMS یک شرکت قابل اعتماد در اختیار کاربر نهایی قرار میدهد.
5-سیستم پایگاه داده پیشرفته
طیف جدیدی از پایگاه های داده مانند NoSQL/new SQL توسط سیستم های تخصصی مدیریت پایگاه داده هدف قرار گرفتند. پیشرفتهای جدید در ذخیره سازی دادهها با درخواستهای کاربردی مانند پشتیبانی از تحقیقات تحلیل پیشبینیکننده و پردازش دادهها نیز توسط سیستمهای مدیریت پایگاه داده پیشرفته پشتیبانی میشوند، افزایش یافته است. مرکز یک پایگاه داده موثر و سیستم های اطلاعاتی همواره مدیریت پیشرفته داده ها بوده است. این انبوهی از مدلهای مختلف داده را بررسی میکند و پایههای ساختاربندی، مرتبسازی، ذخیرهسازی و جستجوی دادهها را بر اساس این مدلها بررسی میکند.

مسائل داده کاوی
امروزه داده کاوی تقاضای زیادی دارد؛ زیرا به شرکتها کمک میکند تا بینشهایی ارائه دهند و بررسی کنند که چگونه فروش محصولاتشان میتواند افزایش یابد. داده کاوی نقاط قوت زیادی دارد و یک صنعت رقابتی و در حال گسترش سریع است. به عنوان مثال، یک فروشگاه مد که هر یک از مشتریان خود را که محصولی را از فروشگاه آنها خریداری میکنند، ثبت نام میکند. بر اساس داده های مشتری مانند سن، جنسیت، گروه درآمد، شغل و غیره،فروشگاه میتواند بفهمد که چه نوع مصرف کنندگانی محصولات مختلف را خریداری میکنند. در این مثال، نام مشتری هیچ ارزشی ندارد، بنابراین ما نمیتوانیم الگوی خرید را با نام پیشبینی کنیم که آیا مصرفکننده محصول خاصی را خریداری میکند یا خیر. بنابراین، از گروه سنی، قومیت، گروه درآمد، شغل و غیره برای مکان یابی جزئیات ارزشمند استفاده میشود. “داده کاوی” به دنبال حقایق یا روندهای جذاب در داده ها است.
برنامه های کاربردی داده کاوی در دنیای امروز با مشکلاتی روبرو هستند. بسیاری از این مشکلات در تحقیق و توسعه های اخیر داده کاوی تا حدی حل شده و اکنون معیاری برای داده کاوی در نظر گرفته میشود. اما برخی هنوز در سطح تحقیق هستند.
برخی از رایج ترین چالش ها در زیر توضیح داده شده است:
1-روانشناسی استخراج
با وجود برنامه های کاربردی متنوع، فعالیت های استخراج جدید همچنان در حال تکامل هستند. این فعالیت ها ممکن است از یک پایگاه داده به روش های متعددی استفاده کنند و نیاز به تکنیک های جدیدی برای داده کاوی ایجاد کنند. هنگام جستجوی اطلاعات در مجموعه داده های بزرگ، باید فضای چند بعدی را طی کنیم. انواع مختلفی از اندازه گیریها باید برای شناسایی الگوهای جذاب اجرا شوند. داده های نامشخص، آشفته و ناقص نیز ممکن است منجر به استنتاج نادرست شود.
2- مشکل تعامل کاربر
روش پردازش دیتاها میتواند بسیار فراگیر باشد. تعامل با کاربر برای تسهیل فرآیند استخراج بسیار مهم است. در دوره داده کاوی، تمام اطلاعات دامنه، دانش زمینه، محدودیت ها و غیره باید با هم ترکیب شوند. دانش کشف شده توسط داده کاوی باید برای انسان قابل دسترسی باشد. یک نمایش گویا از اطلاعات، تکنیک های شبیه سازی کاربر پسند و غیره باید توسط چارچوب پیاده سازی شود.

3- عملکرد و مقیاس پذیری
به منظور بازیابی موثر داده های جالب از حجم زیادی از داده ها در انبارهای داده، الگوریتم های داده کاوی باید قوی و مقیاس پذیر باشند.توسعه الگوریتم های فشرده داده های موازی و توزیع شده از توزیع زیاد داده ها و پیچیدگی محاسباتی الهام گرفته شده است.
الگوریتم داده کاوی باید کارآمد و مقیاس پذیر باشد تا بتواند به طور موثر اطلاعات را از حجم عظیمی از داده ها در پایگاه های داده استخراج کند. اندازه عظیم بسیاری از پایگاه های داده، توزیع گسترده داده ها و پیچیدگی برخی از روش های داده کاوی عواملی هستند که انگیزه توسعه الگوریتم هایی برای داده کاوی موازی و توزیع شده را ایجاد میکنند. این الگوریتم ها داده ها را به پارتیشن هایی تقسیم میکنند که به طور همزمان تجزیه و تحلیل میشوند.
4- تنوع نوع داده ها
- کار با انواع داده های رابطه ای و پویا: در کتابخانه ها و انبارهای داده، انواع مختلفی از دیتا ها ذخیره میشود. هر دو نوع دیتا را نمیتوان توسط یک ماشین استخراج کرد. در کنار انواع مختلف داده ها، راه حل های داده کاوی نیز باید ساخته شوند.
- استخراج اطلاعات از مجموعه دادههای ناهمگن و سیستمهای اطلاعات جهانی: از آنجایی که دادهها از منابع داده شبکه محلی (LAN) و شبکه گسترده (WAN) جمعآوری میشوند، کشف اطلاعات از منابع سازمانیافته مختلف یک چالش بزرگ برای دادهکاوی است.
5- داده کاوی و جامعه
زمینه های مورد علاقه ای که باید مورد بحث قرار گیرد افشای استفاده از اطلاعات و نقض احتمالی حریم خصوصی انسان و حمایت از حقوق آن ها است. کاربرد داده کاوی منجر به پیدا کردن راه حل های منحصر به فرد داده کاوی، ابزارهای محیطی، پاسخگویی هوشمندانه به سوالات، نظارت بر فرآیندها و تصمیم گیری میشود.
انگیزه یا اهمیت داده کاوی
داده کاوی حوزه ای است که در آن مقادیر زیادی دانش به دست میآید و برای بازیابی هر گونه اطلاعات ارزشمند، یعنی اطلاعات ساختاریافته، تجزیه و تحلیل میشود. با گذشت زمان، خواسته هایش بیشتر شد. همه به دانش مختصر و دقیقی نیاز دارند که از طریق آن امکان پذیر است، زیرا کار آسانی نیست، اما از طریق مجموعه ای از فرآیندها و فناوری، امکان پذیر میشود.
منابع اصلی داده های فراوان
تجارت : وب، تجارت الکترونیک، معاملات، سهام
علوم : سنجش از دور، بیوانفورماتیک، شبیه سازی علمی
جامعه و همه : اخبار، دوربین های دیجیتال، یوتیوب
در صنایع : برای اطلاع از رتبه بندی افراد
پاکسازی داده
پاکسازی داده ها روشی برای حذف تمام نویزهای احتمالی از داده ها و پاکسازی آن است. دیتاهای مناسب و پاک شده برای تجزیه و تحلیل داده ها و یافتن بینش های کلیدی، الگوها و غیره استفاده میشوند. پاکسازی داده ها، سازگاری آن ها را افزایش میدهد و مستلزم عادی سازی داده ها است. اطلاعات به دست آمده از منابع موجود ممکن است نادرست، غیرقابل اعتماد، پیچیده و گاهی ناقص باشند. بنابراین، قبل از داده کاوی، برخی از داده های سطح پایین باید پاکسازی شوند. پاکسازی اطلاعات تنها به پاک کردن دادهها برای ایجاد فضا برای اطلاعات جدید نیست، بلکه یافتن راهی برای بهبود دقت مجموعه دادهها بدون حذف واقعی اطلاعات است.
چرا پاک سازی داده ها؟
پاکسازی داده ها هم برای افراد و هم برای سازمان ها مهم است. با گسترش شرکت، داده های زیادی را جمع آوری میکند. دیتاهای تمیز و ساختار یافته به مدیران سازمان ها اجازه میدهد تا تصمیماتی اتخاذ کنند که کارایی سازمان را بهبود بخشند.
یک استراتژی سازمانی مؤثر به حفظ سازمان برای مدت طولانی کمک میکند و بهترین انتخاب ها را انجام میدهد و در نتیجه، کارایی را بهبود میبخشد و برای دستیابی به پاکسازی بیشتر و کارآمدتر داده ها مهم است.

فرآیند پاکسازی داده ها
فرآیند پاکسازی داده ها پاکسازی داده ها را مدیریت میکند. اما قبل از رسیدگی به داده های متناقض، ابتدا باید آنها را شناسایی کرد. مراحل زیر در فرآیند پاکسازی داده ها استفاده میشود.
1- شناسایی جزئیات متناقض
با توجه به عوامل مختلف، مانند نوع داده، اختلاف در داده ها را میتوان با بسیاری از فیلدهای اختیاری ایجاد کرد که به داوطلبان امکان میدهد جزئیات از دست رفته را پر کنند. در هنگام ورود به نتایج، نامزدها ممکن است اشتباه کنند؛ هر یک از جزئیات ممکن است قدیمی باشد، مانند به روز رسانی آدرس، شماره تلفن و غیره. ممکن است این دلیل جزئیات متناقض باشد.
2- شناسایی مقادیر گمشده
اگر رکوردی وجود داشته باشد که فاقد چندین ویژگی و مقادیر آن باشد، میتوان آن را نادیده گرفت.
3- داده های پرت و مقادیر از دست رفته را حذف کنید
داده های پرت شامل اطلاعات بدون معنی هستند. برای بیان سوابق فاسد از اصطلاح اطلاعات نویز نیز استفاده میشود. داده های پرت نمیتوانند با اطلاعات ارزشمند در فرآیند داده کاوی مطابقت داشته باشند. برای شروع داده کاوی، داده های پرت که حجم داده ها را در انبار داده افزایش میدهد را میتوان به طور موثر حذف کرد.
به طور کلی روش های زیر برای حذف داده های پرت استفاده میشود:
پاکسازی: ممکن است دیتاهای پرت را را با تعیین مقادیر مرزی برای اجازه جایگزینی بر اساس نحوه ایجاد آنها حذف کنیم.
رگرسیون: رگرسیون برای دیتاهای پرت استفاده میشود. رگرسیون ویژگی های داده را به عنوان یک ویژگی که رابطه بین دو متغیر را مشخص میکند مطابقت میدهد، مانند رگرسیون خطی، به طوری که یک ویژگی به شناسایی مقدار ویژگی دیگر کمک میکند.
خوشه بندی: دیتاهای قابل مقایسه در یک خوشه با این روش خوشه بندی میشوند. نقاط پرت ممکن است شناسایی نشده باشند یا خارج از خوشه ها ممکن است فرو بریزند.

مزایای پاکسازی داده ها:
1-حذف داده های پرت از منابع مختلف داده
2-تشخیص خطا، کارایی کار را بهبود میبخشد و به کاربران جهت شناسایی اشتباهات ناشی از منابع مختلف را میدهد.
3-با استفاده از فرآیند پاکسازی داده ها، میتوانیم یک فرآیند تجاری موثر و تصمیم گیری بهتر داشته باشیم.
کاوش داده در داده کاوی
1-تعریف اکتشاف داده
کاوش داده فرآیند جمع آوری داده های مرتبط با اطلاعات مربوط به یک شی یا فیلد هدف است. این کاراکتر ها شامل اندازه یا کمیت اطلاعات، کامل بودن اطلاعات، صحت اطلاعات، روابط قابل انجام بین مؤلفه های دانش یا فایل ها یا جدول های موجود در دانش است.
اغلب کاوش داده ها ترکیبی از فعالیت های خودکار و دستی میباشند. فعالیتهای خودکار شامل نمایهسازی دادهها یا تجسم دادهها یا گزارشهای جدولی میشود تا تحلیلگر اطلاعات اولیه را بخواند و ویژگیهای کلیدی را درک کند. معمولاً اطلاعات را به صورت دستی فیلتر میکنند تا ناهنجاری ها یا الگوهای شناخته شده از طریق اقدامات خودکار شناسایی شوند.
کاوش داده حتی میتواند به اسکریپتنویسی دستی و جستجو در اطلاعات (مانند زبانهای بهره برداری مانند SQL یا R) یا صفحات گسترده بهرهبرداری یا ابزارهای مشابه برای مشاهده دادهها نیاز داشته باشد. تمام این فعالیتها در جهت ایجاد یک مدل ذهنی و درک اطلاعات در ذهن تحلیلگر و شکلدهی به اطلاعات پایه (آمار، ساختار، روابط) برای مجموعه اطلاعاتی است که ممکن است در تحلیلهای آتی استفاده شود. هنگامی که این درک اولیه از اطلاعات انجام شد، اطلاعات با حذف عناصر غیرقابل استفاده از اطلاعات (پاکسازی داده ها)، اصلاح مؤلفه های با قالب بندی ضعیف و شکل دادن به روابط مرتبط در بین مجموعه داده ها، هرس یا اصلاح میشود. این روش علاوه بر این به عنوان کیفیت دانش حیاتی نیز شناخته میشود.
2-توصیف آماری داده ها
آمار در همه زمینه ها نقش مهمی دارد. در جمع آوری داده ها، چه در هر زمینه ای، کمک میکند. در کنار آن، به تجزیه و تحلیل داده ها با استفاده از تکنیک های آماری نیز کمک میکند. آمار همه چیز در مورد “جمع آوری” داده ها است. همچنین، هدف حفظ داده ها برای رفاه همه افراد در منطقه است. بر اساس محاسبات مختلف، پیشبینیهای متعددی وجود دارد که به یک یا آن پاسخ منجر شده است.
روش های مختلف آماری شامل
a) اندازه گیری گرایش مرکزی
در آمار، یک گرایش مرکزی ممکن است به عنوان میانه یا محل توزیع نامیده شود. معیارهای گرایش مرکزی را میانگین مینامند. رایج ترین معیارهای واحد ناحیه گرایش مرکزی عبارتند از:
میانگین حسابی: مجموع تمام مقادیر عددی تقسیم بر تعداد کل مقادیر عددی
میانه: پس از مرتب کردن داده ها به ترتیب صعودی، به نقطه میانی داده ها اشاره میکند.
مد:بیشترین تعداد تکرار در داده ها

b) اندازه گیری پراکندگی
در آمار، پراکندگی مربوط به تغییرپذیری است، پراکندگی و گسترش میزان کشش یا فشرده شدن یک توزیع است. تنوع اطلاعات را از یکدیگر میگوید و یک طرح شفاف در مورد توزیع اطلاعات ارائه میدهد. اندازه گیری پراکندگی میتواند همگنی یا ناهمگنی توزیع مشاهدات را ارائه دهد. نمونه های رایج معیارهای پراکندگی آماری عبارتند از:
- دامنه: به تفاوت بین بالاترین مقدار و کمترین مقدار اشاره دارد.
- واریانس: به مجموع مجذور انحرافات از میانگین نمونه اطلاق میشود که بر یک کمتر از حجم نمونه تقسیم میشود.
- انحراف معیار: به جذر واریانس اشاره دارد.
- محدوده بین چارکی: IQR معیاری برای تغییرپذیری است که بر اساس تقسیم اطلاعات مجموعه به چارک است. چارک ها یک مجموعه دانش مرتب شده را به چهار جزء مساوی تقسیم میکنند. مقادیری که اجزاء را از هم جدا میکنند، به عنوان چارکهای اولیه، دوم و سوم شناخته میشوند. و آنها با Q1، Q2 و Q3 نشان داده میشوند.
c) اندازه گیری چولگی و کورتوزیس
چولگی ممکن است در اثر تقارن یا به طور دقیق تر، عدم تقارن باشد. مجموعه داده متقارن است اگر در سمت چپ و راست نقطه مرکزی یکسان به نظر برسد.
کورتوزیس معیاری است که نشان میدهد داده ها دارای دم سنگین یا سبک نسبت به توزیع نرمال هستند. به این معنا که مجموعههای اطلاعاتی با کشش بالا تمایل به داشتن دنباله یا نقاط پرت جدی دارند. مجموعه دادههای با کشیدگی کم تمایل به داشتن دم سبک یا فقدان نقاط پرت دارند. توزیع یکنواخت یک مورد شدید خواهد بود.
3- مفهوم تجسم داده ها
تجسم داده، تصویر گرافیکی دانش و داده است. با بدرفتاری با بخشهای بصری مانند نمودارها و نقشهها، ابزارهای تجسم دادهها راهی در دسترس برای دیدن و درک روندها، نقاط دورافتاده و الگوهای دادهها فراهم میکنند. این مفهوم یک ابزار کلیدی فزاینده برای درک تریلیون ها ردیف داده ای است که هر روز تولید میشود.
انجام این کار به اطلاع رسانی داستانها کمک میکند تا اطلاعات را به گونهای سادهتر بشناسند و روندها و نقاط پرت را برجسته کنند. یک تجسم خوب داستانی را بیان میکند که داده های پرت را از داده ها حذف و اطلاعات مفید را برجسته میکند.
4- تکنیک های مختلف تجسم داده ها
انواع کلی و متداول تجسم داده ها:
- نمودار ها
- جدول ها
- گراف ها
- نقشه ها
- اینفوگرافیک ها
- داشبورد ها
نمونه های دیگر از متدهای تجسم داده ها:
- نمودار مساحتی
- نمودار میله ای
- نمودار جعبه ای
- نمودار گلوله
- کارتوگرام
- نمای دایره
- نقشه توزیع نقطه ای
- نمودار گانت
- نقشه حرارتی
- جدول برجسته
- هیستوگرام
- ماتریس
- شبکه
- منطقه قطبی
- درخت شعاعی
- طرح پراکندگی (دو بعدی یا سه بعدی)
- استریم گراف
- جدول زمانی
- نقشه درختی
و در آخر
ما در این مقاله سعی کردیم تا داده کاوی را از مناظر مختلف مورد بررسی قرار دهیم و با این حساب متوجه شدیم که در این دوره، داده ها در ارکان مهم سیاسی، اقتصادی و اجتماعی دنیا نقش بسیار مهمی را ایفا میکنند. امروزه دیگر میتوان گفت که استفاده از دیتاها برای مدیریت کسب و کارها هم یک الزام به حساب میآید. قطعا کسب و کارهایی هم که از پیوستن به این حیطه خودداری کنند سرنوشتی جز شکست نخواهند داشت. امیدوارم که این مقاله برای شما عزیزان مفید واقع شده باشد.
جهت کسب اطلاعات بیشتر به وبلاگ پویان آی تی مراجعه نمایید و مقالات مرتبط را مطالعه نمایید.
به این مقاله امتیاز دهید!
میانگین امتیاز 0 / 5. تعداد رأی ها : 0
هنوز هیچ رأیی داده نشده. اولین نفر باشید!
اولین دیدگاه را اضافه کنید.