رفتن به نوشته‌ها

داده ‏کاوی چیست ؟

Last updated on ۱۳۹۹/۰۸/۰۸

امروزه حجم زیادی از داده ها در اطرافمان قابل مشاهده هستند. بسیاری از مدیران کسب و کار به سمت استخدام نیروهای متخصص در تجزیه و تحلیل داده ها رفته اند. از طرفی طرفداران حریم خصوصی نگران اطلاعات شخصی و کنترل بر آنها هستند و کارآفرینان به راه های جدید جمع آوری داده ها، کنترل و تبدیل آن به پول فکر می کنند. همه ما می دانیم داده ها پرقدرت و پر ارزشند، اما چگونه ؟

data_mining

در این مقاله تلاش شده تا نشان داده شود که داده کاوی چگونه کار می کند و چرا شما باید در مقابل آن محتاط باشید. زیرا وقتی ما به نحوه استفاده از داده ها فکر می کنیم، این موضوع بسیار مهم هست که با قدرت عملکرد آن نیز آشنایی داشته باشیم. بدون داده کاوی وقتی شما چیزی درباره خود به کسی بگویید، او تنها همان چیزهایی را درباره شما می داند که شما به او گفتید. اما با داده کاوی، او علاوه بر چیزهایی که شما به او گفته اید، به چیزهایی که فکر می کنید و به آنها تمایل دارید نیز اشراف پیدا می کند. در واقع داده کاوی، به شرکت ها و دولت ها این امکان را می دهد تا بر اساس اطلاعاتی که از شما می گیرند، افکار شما را نیز برای خود آشکار سازند.

برای اغلب ما داده کاوی چیزی شبیه اینست: خروارها داده جمع آوری شده، که یک سری افراد مانند جادوگران با ابزارهای جادویی خود می توانند از میان آنها چیزهای شگفت انگیزی استخراج کنند. اما چگونه؟ چه چیزهایی آنها می توانند بفهمند؟ حقیقت اینست: علی رغم این واقعیت که، الگوریتم ها و تکنیک های خاص داده کاوی کاملاً پیچیده می باشند – آنها همانند جعبه سیاه هستند جز برای متخصصین آمار یا علوم کامپیوتر – ولی کاربردها و قابلیت های آنها کاملاً شهودی و قابل درک هستند.

در اکثر موارد، داده کاوی در مجموعه داده های بسیار بزرگ و حجیم، اطلاعاتی را به ما می دهد که در مجموعه داده های کوچک به آسانی قابل مشاهده هستند. بطور مثال داده کاوی می تواند به ما بگوید “این مورد مانند سایر موردهای دیگر نیست!” یا می تواند انواع دسته ها را به ما نشان دهد و بعد هریک از موارد را در یکی از دسته های از پیش تعریف شده قرار دهد. اما باید توجه کرد روابطی که در بین 5 عدد بسیار ساده می باشند در میان 5 میلیارد عدد به هیچ وجه ساده نیستند.

این روزها، همه جا پر از داده هست. ما آنها را از جاهای مختلف گردآوری می کنیم، و بعد می توانیم آنها را خلاصه کنیم. تقریباً هر تراکنش یا تعاملی مقادیری داده ایجاد کرده که کسی در جایی آنها را جمع آوری و ثبت می کند. این موضوع به خصوص در اینترنت کاملاً درست است. اما سیستم های محاسباتی و رقومی سازی که همه جا حضور دارند بطور فزاینده ای باعث شدند این موضوع در سایر ابعاد زندگیمان غیر از کامپیوتر نیز درست باشد. مقیاس و ابعاد این داده ها فراتر از قابلیت های حسی بشر می باشد. در این مقیاس، الگوها اغلب بسیار ظریفتر و رابطه ها بسیار پیچیده یا چند بعدی می باشند که بتوان با نگاهی ساده به داده ها آنها را مشاهده کرد. داده کاوی بخش اتوماتیک فرآیند تشخیص الگوهای قابل تفسیر از مجموعه داده ها هست. داده کاوی به ما کمک می کند تا جنگل را ببینیم بدون اینکه در میان درختان گم شویم.

کشف دانش از مجموعه داده ها، 2 حالت عمده دارد: توصیفی و پیش بینی. در مقیاس داده های مورد بررسی، اینکه داده ها چه چیزی را به ما نشان می دهند بسیار سخت است. داده کاوی به ساده سازی و خلاصه کردن داده ها در چارچوبی که برای ما قابل درک باشد می پردازد و به ما اجازه می دهد تا با مشاهده الگوها به استنتاج چیزهای مفید از مجموعه داده ها نائل شویم. در هر حال کاربردهای خاص داده کاوی محدود به داده ها و قدرت ابزارهای محاسباتی قابل دسترس هست، و همچنین باید متناسب با نیازها و اهداف باشند. از اینرو چند روش اصلی وجود دارد که برای تشخیص الگو ها معمولاً از آنها استفاده می شود که به عنوان وظایف داده کاوی مطرح گشته اند. این وظایف، نشان می دهند که داده کاوی چگونه می تواند کار کند؟

تشخیص انحرافات: در مجموعه داده های بزرگ می توان تمایل داده ها به الگو یا رفتار خاصی را تصویر نمود. تکنیک های آماری می توانند در این موقعیت بررسی کنند آیا موارد خاصی وجود دارند که نسبت به الگوی موجود تفاوت قابل ملاحظه ای داشته باشند یا خیر؟ بطور مثال، اداره های دارایی می توانند با مدلسازی الگوی اظهارنامه های مالیاتی دریافت شده و با استفاده از روشهای تشخیص انحرافات، اظهارنامه های مغایر با الگوی معمول را استخراج کرده و به بررسی بیشتر و ممیزی آنها بپردازند.

آنالیز وابستگی ها: یکی از روش های داده کاوی می باشد که در سیستم پیشنهادات سایت آمازون مورد استفاده قرار گرفته است. به عنوان مثال، کسانی که کوکتل شیکر و کتاب دستورالعمل کوکتل را خریده اند اغلب یک گیلاس مارتینی نیز سفارش داده اند. این روش کشف الگو، معمولاً در مسائل بازاریابی و تبلیغات هدفمند استفاده می شود. یک نسخه مشابه ولی پیچیده تر از این روش در سیستم پیشنهاد فیلم سایت Netflix بکار رفته است.

خوشه بندی: یکی از روش های الگوشناسی که بطور خاص در تشخیص خوشه های متمایز در درون داده ها بکار می رود. بدون داده کاوی، تحلیلگر بایستی با مشاهده بصری داده ها نسبت به خوشه های متمایز در آنها تصمیم گیری کرده و روابط شاخص در هر خوشه را تشخیص دهد. در این حالت خطر نادیده انگاشتن دسته های مهمی از داده ها بسیار زیاد است. با استفاده از داده کاوی، این امکان وجود دارد تا به خود داده ها اجازه دهیم تا گروه های بین خود را نمایش دهند. این یکی از روش های جعبه سیاه الگوریتم های داده کاوی هست که درک آن سخت می باشد. ولی در یک مثال ساده، می توان رفتار خرید مشتریان را با استفاده از این روش مورد بررسی قرار داد. مثلاً می توانیم مشاهده کنیم رفتار خرید باغبان ها، ماهیگیران و علاقه مندان به هواپیماهای مدل، نسبت به هم تفاوت معناداری دارند. الگوریتم های یادگیری ماشین می توانند خوشه های متفاوت از هم را در مجموعه داده ها نشان دهند.

طبقه بندی: اگر ساختار و دسته بندی تعریف شده ای در مجموعه داده وجود داشته باشد، داده کاوی می تواند موارد جدید را به یکی از آنها تخصیص دهد. الگوریتم ها با یادگیری از مجموعه بزرگی از داده های از قبل دسته بندی شده، می توانند بطور دائمی وجه تمایز بین عناصر هر دسته را تشخیص داده و با استفاده از قوانین حاصل شده، موارد جدید را بصورت اتوماتیک دسته بندی نمایند. فیلتر هرزنامه ها، یکی از بهترین نمونه های این روش می باشد. مجموعه بزرگی از ایمیل ها که به عنوان هرزنامه ها شناخته می شوند، دارای تفاوت های جدی در استفاده از کلمات در متن خود می باشند، بطوریکه طبقه بندی آنها با استفاده از قوانین بدست آمده دارای صحت بالایی می باشد.

پیش بینی: داده کاوی دارای قابلیت ساخت مدلهای پیش بینی کننده بر اساس تعداد زیادی از متغیرها می باشد. بطور مثال، فیسبوک علاقه مند است تا سرگرمی های آتی کاربرانش را بر اساس رفتارهای گذشته آنها پیش بینی نماید. فاکتورهایی مانند مقدار اطلاعات به اشتراک گذاری شده، تعداد عکس های تگ شده، تعداد درخواست های دوستی، تعداد نظرات، تعداد لایک ها و … می توانند به عنوان ورودی های یک مدل باشند. در طول زمان این مدل می تواند با اضافه کردن متغیرهای جدید، و یا تغییر وزن متغیرهای موجود بر اساس میزان تفاوت پیش بینی با مقادیر واقعی، خود را بهبود دهد. در نهایت نتایج بدست آمده می توانند به عنوان راهنمای طراحی به منظور تشویق رفتارهایی که منجر به افزایش سرگرمی ها در آینده خواهد شد استفاده شوند.

الگوهای تعیین شده و ساختارهای آشکار شده توسط داده کاوی توصیفی اغلب در ادامه، برای پیش بینی سایر وجوه مورد علاقه در داده ها بکار می روند. سیستم پیشنهادات آمازون مثال خوبی برای استفاده از داده کاوی توصیفی در پیش بینی می باشد. به عنوان مثال (فرضی) از رابطه بین خرید کوکتل شیکر و گیلاس مارتینی به همراه بسیاری از رابطه های مشابه دیگر، به عنوان بخشی از یک مدل پیش بینی می توان استفاده نمود. بر اساس آنها می توان احتمال اینکه یک کاربر خاص یک خرید خاص را انجام دهد تعیین نمود. این مدل قادر خواهد بود تمامی روابط بدست آمده را با خریدهای قبلی کاربر مقایسه کرده و بر اساس آنها محصولاتی که دارای احتمال بیشتری برای خرید می باشند را پیش بینی نماید. آمازون بر اساس پیش بینی های انجام شده می تواند تبلیغات خود را بر مبنای محصولاتی که برای هر کاربر احتمال خرید بیشتری دارد مدیریت نماید.

داده کاوی در این مسیر، قدرت استنتاجی عظیمی را اعطا می کند. اگر یک الگوریتم به درستی می تواند یک نمونه را بر اساس حجم داده های محدود به طبقه خودش تخصیص دهد، پس این امکان وجود دارد تا بتوان دامنه وسیعی از اطلاعات مربوط به آن نمونه را بر اساس ویژگی های سایر نمونه های موجود در آن طبقه برآورد نمود. هرچند ممکن است این موضوع سخت و دشوار به نظر آید، اما نشان می دهد که شرکت های بزرگ اینترنتی چگونه پول می سازند و از کجا قدرتشان را بدست می آورند.

data-mining

تعریف داده‏ کاوی :

وظیفه ی داده‏کاوی، کاویدن و استخراج از منابع عظیم داده است تا اطلاعات گرانبهایی که در حجم انبوهی از اطلاعات سطحی پنهان شده است را استخراج کند.
«داده‏کاوی» ترجمه ی عبارت «Data Mining» و به معنای «کاویدن معادن داده» است.
تفاوت اصلی داده‏کاوی و علم آمار، در حجم داده های مورد تحلیل، روش مدلسازی داده ها و استفاده از هوش مصنوعی است.

داده‏ کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده ها.

کلمه ی Mining در معنای تحت الفظی خود یعنی «استخراج از معدن» بکار می رود و در واقع عبارت Data Mining نشان می دهد که حجم انبوه اطلاعات مانند یک معدن عمل می کند و از ظاهر آن مشخص نیست چه عناصر گرانبهایی در عمق این معدن وجود دارد. تنها با کند و کاو و استخراج این معدن است که می توان به آن عناصر گرانبها دست پیدا کرد.
داده‏کاوی شاخه ی توسعه یافته و پیچیده ی علم آمار است. علم آمار به تنهایی برای صاحبان صنایع و شرکت ها بسیار اهمیت دارد. اما اهمیت داده‏کاوی فراتر از علم آمار می رود و امکاناتی در اختیار شما قرار می دهد که ساز و کارهایی آماری از انجام آنها ناتوان هستند. تفاوت اصلی علم آمار با شاخه ی توسعه یافته ی خود یعنی داده‏کاوی، در حجم داده های مورد تحلیل و روش مدلسازی داده هاست.
در بیشتر موارد حجم داده های اولیه ی مورد استفاده در داده‏کاوی آنقدر زیاد است که به یک چالش زمان بر و هزینه بر تبدیل می شود. اما مدلسازی داده های ورودی و دستیابی به اطلاعات پنهان و ارزشمند موجود در این حجم عظیم داده، با کمک هوش مصنوعی و شیوه های خودکار یادگیری انجام می شود که در بررسی های پایه ای آماری خبری از آن نیست.

داده‏ کاوی چگونه کار می کند ؟
فرآیند داده‏کاوی در استاندارد «کریسپ دی ام» در طول شش مرحله اجرا می شود.
در ابتدای فرایند داده‏کاوی، مشکلات شرکت یا سازمان شما پیدا خواهد شد و در پایان با کمک هوش مصنوعی، راهکارهایی برای حل آن مشکلات در اختیار شما قرار خواهد گرفت.
پس از یافتن مشکلات در ابتدای فرایند داده‏کاوی، اطلاعات ریز ثبت شده در شرکت یا خط تولید شما دریافت می شود.
بر اساس این اطلاعات، مکانیزم های مرتبط در کسب و کار شما مدلسازی کامپیوتری می شود و سپس با کمک متدهای «یادگیری ماشین» راه حل هایی برای از بین بردن مشکلات شرکت شما در چارچوب گزارشات مستند و نرم افزار رایانه ای در اختیار شما قرار می گیرد.

  • مشکل کسب‏وکار شما پیدا می‏شود
  • اطلاعات ریز ثبت شده‏ی کسب و کار و خط تولید دریافت می شود
  • اطلاعات ثبت شده مرتب می شود
  • اطلاعات ثبت شده مدل می شود
  • مدل با واقعیت مقایسه می شود
  • برای حل مشکل کسب و کار شما
  • سرانجام چند راه حل ارائه می شود

داده‏کاوی یک روش حل مسئله است مبتنی بر داده های موجود. تیم داده‏کاوی دایکه بر اساس استاندارد جهانی کریسپ دی ام (crisp-dm) این فرایند حل مسئله را به اجرا می گذارد.
بر اساس این استاندارد، فرایند حل مسئله با کمک داده‏کاوی در شش مرحله و در تعامل با کارفرما صورت می گیرد.

1 کارفرما مشکلی در کسب و کار خود دارد. مشکل خود را با متخصص داده‏کاوی مطرح می کند. این گام اول است.
در حالت دیگر، کارفرما نمی تواند مشکلات کسب و کار خود را تشخیص دهد اما می داند سیستم کسب و کار وی دارای نقصان است. در این حالت طرح مسئله را نیز بر عهده ی متخصص داده‏کاوی می گذارد.

2 متخصص داده‏کاوی، داده های ثبت شده در کسب و کار کارفرما را از وی درخواست می کند و به بررسی داده ها می پردازد.
متخصص داده‏کاوی با توجه به حجم و کیفیت داده ها مسئله ی طرح شده در مرحله ی قبل را تعدیل می کند تا نتیجه ی پروسه ی داده‏کاوی واقع بینانه تر بشود.

3 در مرحله ی سوم عملیات آماده سازی داده ها توسط متخصص داده‏کاوی صورت می گیرد. آماده سازی داده ها شامل این موارد می شود:

  • یکی کردن انبارهای متفاوت داده در کسب و کار کارفرما
  • شناسایی و حذف داده های پرت و اشتباه
  • تغییر فرمت داده ها متناسب با مسئله ی تعدیل شده در مرحله ی دوم

4 قدم چهارم مدلسازی داده های آماده سازی شده است. با توجه به متدهای متفاوت، مدل های متفاوتی ساخته می شود و بهترین مدل ها از نظر متخصص داده‏کاوی انتخاب می شود.

5 مدل های ساخته شده تست و ارزیابی می شوند و بهترین مدل از نظر مسئله ی طرح شده در مرحله ی یک، انتخاب می شود. سپس در تبادل نظر با کارفرما، موثر بودن مدل انتخاب شده بررسی می شود. در صورتی که مدل انتخاب شده کمکی در حل مسئله نمی کند کل فرایند از مرحله ی یک دوباره انجام می شود.

6 در صورتی که ارزیابی ها رضایت بخش باشند راه حل هایی در قالب توسعه ی مدل نهایی ارائه می شوند که مشکلات مطرح شده در مرحله ی یک را برطرف می کنند.

داده کاوی دو راهکار مشخص ارائه می کند: ارائه گزارشات مستند برای حل مشکلات کسب و کار شما؛ ارائه راهکار نرم افزاری با طراحی سیستم پشتیبان تصمیم گیری

مدل نهایی به متخصص داده ‏کاوی نشان می دهد که رفتار مجموعه ی کسب و کار کارفرما در مورد مشکلات مطرح شده در مرحله ی یک چگونه است.
این درک از رفتار کسب و کار، در قالب راه حل های عددی و چند فرمول یا راهکار عملی در اختیار کارفرما قرار می گیرد تا مشکلات مطرح شده در مرحله ی یک رفع گردد.
همچنین متخصص داده‏کاوی می تواند در قالب گزارشات مستند مکانیزم رفتاری کسب و کار کارفرما را برای وی تشریح کند.
برای سادگی تعامل کارفرما با مدل نهایی، یک نرم افزار یارانه ای نوشته می شود که کار شبیه سازی رفتار کسب و کار کارفرما را برعهده دارد بطوریکه کارفرما می تواند با وارد کردن برخی پارامترهای کنونی از کسب و کار خود، رفتار کارخانه و یا سودآوری کسب و کار خود را در آینده پیش بینی کند.

داده‏کاوی سودآور است :

داده‏ کاوی به دو دلیل سودآور است:

  • داده‏ کاوی منجر به تصمیمات واقع بینانه می شود.
  • داده‏ کاوی منجر به تکرار تصمیمات سودآور اتفاق افتاده در گذشته می شود.

با داده ‏کاوی شما مجبور می شوید تصمیمات احساسی را فراموش کنید و بر اساس واقعیت ها تصمیم بگیرید. بنابراین ضرر های ناشی از نا آگاهی مدیران حذف می شود.
داده‏کاوی همچنین فضای سال های گذشته ی شرکت شما را بازبینی می کند و در نهایت نشان می دهد کدام تصمیمات منجر به سود شده است در حالی که شما از آن ها بی خبر هستید.
شرکت ها و سازمان ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی شود و عواملی چون «فراموشی»، «تخلفات و تقلبات»، «اشکالات خط تولید»، «منافع شخصی» و «سیاست های اعمال نفوذ شده از جاهای دیگر» منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می شود.
داده کاوی تصمیمات زیانده را کم می کند: در فضای شفاف نمی توانید احساسی تصمیم بگیرید؛ و با علم به گذشته می دانید کدام تصمیمات زیانده بوده اند.
اما داده‏کاوی فضای حاکم بر کسب و کار شما را شفاف می کند و شما را مجبور می کند واقع بینانه تصمیم بگیرید.
تصمیم گیری واقع بینانه کلید از بین بردن تصمیمات احساسی و در نتیجه از بین بردن بهره وری پایین و ضرر های ناشی از نا آگاهی است.
بطور کلی فضای تصمیم گیری در یک کسب و کار شباهت بسیار زیادی به فضاهای تصمیم گیری اتفاق افتاده در 10 سال گذشته ی آن مجموعه دارد.
این شباهت در یاد تصمیم گیرندگان آن کسب و کار باقی نمی ماند و اغلب آشکار نیز نمی شود.
داده‏کاوی فضای سال های گذشته ی کسب و کار شما را بازخوانی می کند و به شما می گوید کدام تصمیمات منجر به سود شده است و کدام تصمیمات منجر به زیان کسب و کار شده است.
بنابراین داده‏کاوی باعث می شود تصمیمات زیانده کسب و کارتان در گذشته را تکرار نکنید ولی تصمیمات سودآور اتفاق افتاده در گذشته را دوباره تکرار کنید.

پیش بینی با داده‏کاوی :

فلسفه ی داده‏کاوی این است که آینده بسیار به گذشته شبیه است. اگر گذشته را خوب بشناسید می توانید آینده را پیش بینی کنید.
داده‏کاوی به شما کمک می کند تا رفتار کسب و کار خود را در گذشته دقیقن بشناسید و بر اساس آن آینده را با تقریب بالا پیش بینی کنید.
به عنوان مثال داده‏کاوی به شما کمک می کند تا حداقل دو مورد اساسی را در بخش فروش کسب و کار خود پیش بینی کنید:

  • پیش بینی نیاز های یک مشتری خاص در آینده و در نتیجه حفظ آن مشتری
  • پیش بینی نیاز بازار در زمان ها و مناطق مختلف و در نتیجه ساماندهی نظام توزیع برای آنها

فلسفه ی داده‏کاوی این است که با شناخت درست از گذشته، آینده را می توان پیش بینی کرد.

اگر یک صاحب کسب و کار، رفتار و نیازهای مشتری خود را در گذشته به خوبی بشناسد می تواند نیاز های او را در آینده نیز حدس بزند. اما معمولاً تعداد مشتری ها آنقدر زیاد است که مدیریت آن از عهده ی مدیر آن مجموعه خارج می شود.
داده‏کاوی به شما کمک می کند حجم عظیم مشتری های خود را خوب بشناسید و بصورت خودکار به آن ها پیام دهید که اکنون چه نیازهایی دارند. حتی ممکن است خود آنها نیز فراموش کرده باشند.
فرض کنید که شما صاحب یک بانک هستید. دانستن رفتار مشتری در آینده برای بازپرداخت وام هایی که گرفته است بسیار برای شما اهمیت دارد.
در حالت دیگر داده‏کاوی به شما کمک می کند نیاز بازار را به خوبی درک کنید بطوری که نظام توزیع محصولات شما به مشکل برخود نکند.

پیش بینی نیاز بازار با داده‏کاوی: داده کاوی می تواند مانع انباشت کالا در انبار و یا کمبود عرضه ی کالا به هنگام نیاز بازار شود.

پیش بینی نیاز بازار کمک می کند تا هم از انباشت محصولات کارخانه ی خود در انبار جلوگیری کنید و هم در هنگام تقاضای زیاد با کمبود عرضه ی محصولات خود روبرو نشوید.
داده‏کاوی در بسیاری جهات می تواند حیاتی نیز باشد. پخش منسجم و هدفمند مواد دارویی در داروخانه ها می تواند جان بسیاری از مردم را نجات دهد و از گران شدن برخی دارو ها جلوگیری کند.
داده‏کاوی از جمله می تواند در نظام توزیع کالا برای سازمان های مردم نهاد و همچنین دولت حائذ اهمیت باشد. توزیع مناسب کالاهای اساسی مردم در شرایط بحرانی، از نوسانات قیمت آنها و نایاب شدن آنها جلوگیری می کند.

Source : Dayche

منتشر شده در بلاگفناوری اطلاعات و ارتباطاتمقالاتمقالات تخصصی

نظر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.