کاوش داده – Data Mining

کاوش داده اغلب با نوشتن مقدار زیادی گزارش و تحقیق و استعلام از آنها اشتباه میشود. اما در واقع کاوش داده هیچکدام از اینها را شامل نمی شود. کاوش داده از طریق تجهیزات مخصوصی انجام میشود که عملیات کاوش از پیش تعریف شده را بر اساس مدلهای تجزیه و تحلیل انجام میدهند.

کاوش داده، بررسی داده ها با تمایل به کشف نکات با ارزش و مفید اطلاعات در مقدار متنابهی از داده ها که در طول کار و تجارت بدست آمده است میباشد. کاوش داده با آنالیزهای متداول آماری نیز متفاوت است. در زیر تفاوتهای کاوش داده و آنالیز آماری آمده است.

  • آنالیز آماری

آمارشناسان همیشه با یک فرضیه شروع به کار میکنند.

آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط شود.

آنها از داده های عددی استفاده میکنند.

آنها میتوانند داده های نابجا و نادرست را در طول آنالیز تشخیص دهند.

آنها میتوانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند.

  • کاوش داده

به فرضیه احتیاجی ندارد.

الگوریتمهای کاوش داده در ابزارها بطور اتوماتیک روابط را ایجاد میکنند.

ابزارهای کاوش داده از انواع مختلف داده و نه فقط عددی میتوانند استفاده کنند.

کاوش داده به داده های صحیح و درست طبقه بندی شده بستگی دارد.

نتایج کاوش داده ها آسان نیست و همچنان به متخصصان آمار برای تحلیل آنها و بیان آنها به مدیران نیاز است.

  • دومثال زیر اولی در مورد شناخت کلاهبرداری بیمه و دومی بررسی بازار، تفاوت بین روش بررسی سنتی و کاوش داده را نشان میدهد.

  • مثال اول

روش بررسی سنتی

یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه میشود. بر اساس این فرضیه مفسر یک سری خواسته ها و سوالات می سازد تا این موضوع را بررسی کند. اگر نتایج قاطع و مسلم نبود مفسر با اصلاح فرضیه و یا با یک فرضیه دیگر مجدد شروع میکند. این روش نه تنها وقت گیر است بلکه به قدرت تحلیلی مفسر نیز بستگی دارد. بعلاوه و مهمتر اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که، مفسر به آنها مظنون نشده و در فرضیه جا نداده، پیدا نمی کند.

روش کاوش داده

یک مفسر وسایل کاوش داده را آماده میکند و آنرا طوری تنظیم میکند که تمام الگوهای غیر عادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری مالیاتی شوند را پیدا کند. نتایج کاوش داده شرایط مختلفی را که مفسر باید در مراحل بعدی تحقیق کند را نشان میدهد. در مراحل بعدی مفسر میتواند درستی و اثبات این شرایط را بررسی کند. این تلاشها یک مدل ایجاد میکند که میتواند مشتریهایی را که امکان کلاهبرداری دارند پیش بینی نماید.

  • مثال دوم

روش آنالیز سنتی

یک مفسر میخواهد به مطالعه رفتار خرید یک طبقه مشخص از مشتریها (مثلا معلمان بازنشسته) برای طراحی Target Market بپردازد. ابتدا مفسر از خصوصیات شناخته شده این طبقه مشتری استفاده کرده و سعی می کند آنها را در گروهایی ردیف کند. سپس به بررسی رفتار خرید یکسان در هر یک از این گروها می پردازد. او این کار را آنقدر انجام میدهد تا به گروه بندی مناسب و مورد رضایتی برسد.

کاوش داده

ابزارهای کاوش داده به مطالعه بانک داده ها برای مشخص کردن تمام گروهایی که الگوی خرید مشخص دارند می پردازد. بعد از کاوش ان داده ها، مفسر میتواند این نتایج را گزارش دهد و یا برای بررسی مجدد به ابزارهای تحلیلی دیگری دهد.

  • کاوش داده و منابع داده

انبار داده Data warehouse از جمله منابع معمول برای بکارگیری کاوش داده هستند زیرا شامل منابع با ارزشی از داده های داخلی که بوسیله روشهای استخراج/ انتقال/ بارگزاری (ETL) جمع آوری، یکپارچه و تایید شده اند.

انبار داده ها همچنین میتوانند شامل داده های با ارزش خارجی مانند قوانین و ضوابط، جمعیت شناسی یا داده های جغرافیایی باشند که وقتی با داده های داخل سازمانی مخلوط میشوند اساس کاوش داده را پی ریزی میکنند.

اما وقتی داده برای انبار داده خلاصه شد، داده های مخفی و روابط و پیوستگی داده ها دیگر قابل تمییز نمی باشند. برای مثال یک ابزار نمیتواند دیگر به بررسی معمولی که بر روی سبد خرید مشتریها با داده های فروش که در هفته خلاصه شده بپردازد زیرا در خلاصه شدن جزییات و روابط و پیوستگیها از بین رفته است. به همین دلیل فایلها و بانکهای داده عملیاتی نیز بعنوان یک منبع معمول هستند زیرا شامل جزییات مبادلاتی و هزاران داده های مخفی هستند.

ابزارهای کاوش داده با بانکهای داده عملیاتی و انبار داده ها بطور مستقیم بدون ساخت بانک داده دست پیدا میکنند. اما بعضی از ابزارهای کاوش داده مثلا روابطی مانند Oracle ، طبقه بندی مانند IMS و حتی فایلهای مسطح مانند VSAM ترجیح میدهند خود نیز یک بانک داده داشته باشند. اما دسترسی مستقیم به انبار داده ها و داده های عملیاتی اصولا توصیه نمی شود زیرا:

حوضچه های داده Data Pool باید قادر باشند بسته به ابزار کاوش داده تغییر کنند اما تعویض جزئیات یک داده عملیاتی و یا بانکهای اطلاعاتی انبار داده ممکن نمیباشد.

  • عملکرد داده های عملیاتی و یا بانک داده با عملیاتهای جستجوی داده تحت تاثیر قرار میگیرند. این برای داده های عملیاتی غیر قابل قبول و برای انبار داده ها مطلوب نیست.
  • یک عملیات کاوش داده ممکن است به جزئیات تاریخی داده احتیاج داشته باشد. بانکهای اطلاعاتی عملیاتی جزئیات تاریخی را نگه نمی دارند و انبار داده ها جزئیات مطلوب را ندارد.

بنابر این همانطور که در شکل زیر آمده است، سازمانها داده ها را برای کاوش داده با توجه به هدف کاوش از انبار داده و یا بانک داده عملیاتی استخراج می کنند.

منبع :http://technologymgt.blogspot.com

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اجرا شده توسط: همیار وردپرس