مفهوم جامع داده کاوی |
و علوم مربوط به آن جهت پردازش این حجم بالا از داده ها استفاده شود. بطور کلی هدف از پردازش داده ها، استخراجاطلاعات و دانش از آنها به گونه ای است که بتوان در علوم و کاربردهای دیگر از آنها استفاده نمود. کاوشداده عبارت است از اعمال روشهای مبتنی بر کامپیوتر جهت استخراج دانش از روی داده های خام. درسالهای اخیر روشهای مختلف و متنوعی جهت کشف و استخراج دانش از روی داده های خام ارائه شدهاست. دانش مزبور پس از استخراج شدن قابل ارزیابی توسط اشخاص خبره می باشد. با توجه به ارزیابیافراد خبره و همچنین روشهای موجود در بررسی کیفیت دانش استخراج شده، این امکان وجود دارد تا کارآیی الگوریتم کاوشگر دانش مورد مطالعه و بررسی قرار گیرد.,[4] [25]
2-2) داده کاوی: مفاهیم کلی
بطور کلی علوم و مهندسی بر اساس مدلهای علمی اولیه سعی در توصیف انواع مختلف سیستم ها می کنند. این توصیفها معمولا با یک مدل علمی اولیه مانند قوانین نیوتن در حرکت یا معادلات ماکسول در الکترومغناطیس آغاز شده و سپس بر اساس مدل بکار رفته مسائل مختلفی در مهندسی مکانیک یامهندسی برق مورد بررسی و آنالیز قرار میگیرد. از داده های آزمایشگاهی در اینگونه موارد جهت ارضاءمدلهای اولیه موجود استفاده میشود. در این راستا پارامترها و یا متغیرهایی که امکان محاسبه واندازه گیری آنها به طور مستقیم وجود ندارد و یا مشکل است تخمین زده می شوند. در علوم مختلفهمیشه امکان داشتن مدلهای اولیه ذکر شده وجود ندارد. همچنین بدست آوردن یک فرمول بندی ریاضیجهت واکشی یک مدل معمولا پیچیده و حتی در اکثر موارد امکانپذیر نمی باشد.
با رشد علم کامپیوتر وافزایش داده های متنوع در علوم مختلف، امکان استخراج مدلهای حاکم بر مسائل گوناگون از رویداده های مزبور میسر است.
نیاز به درک وقایع نهفته در حجم انبوهی از داده ها در زمینه های مختلف تجاری، علوم و مهندسی وجوددارد. در دنیای تجارت، داده های شرکت و مشتری به عنوان منابع اصلی تصمیم گیری شناخته می شوند. استفاده مناسب از داده های مزبور میتواند نقش تعیین کننده ای را در موفقیت و پیشرفت یک مجموعهتجاری ایفا کند.
فرآیند استفاده از یک روش مبتنی بر کامپیوتر جهت استخراج دانش از داده های خام را میتوان یک تعریف کلی برای داده کاوی در نظر گرفت.
1-2-2) اهداف مختلف داده کاوی به دو دسته زیر تقسیم بندیمیشوند:
1-1-2-2) پیش بینی[2]: شامل استفاده کردن از برخی متغیرها یا فیلدها در مجموعه داده ها جهت پیش بینی مقادیر نامشخص میباشد.
2-1-2-2) توضیح یا توصیف[3]: تمرکز این قسمت بیشتر بر روی استخراج الگوهای توصیف کننده مجموعه داده ها به گونه ای است که توصیف مزبور قابل درک و تفسیر به کمک انسان خبره باشد.
اهمیت هر کدام از اهداف فوق با توجه به کاربرد خاص داده کاوی متفاوت است.
2-2-2) کاربردهای مختلفداده کاوی در ادامه ارائه شده اند:
۱-2-2-2) دسته بندی[4]: هدف در دسته بندی، کشف یک مدل پیشگویی کننده به قسمی است که مدل مزبور توانایی دسته بندی یک داده ورودی را به یکی از مجموعه دسته های خروجی ممکن را دارا باشد.
۲-2-2-2) رگرسیون[5]: هدف در رگرسیون کشف یک مدل پیشگویی کننده با توانایی نگاشت یک نمونه داده ای به یک متغیر تخمینی است.
۳-2-2-2) خوشه بندی[6]: در خوشه بندی هدف یافتن مجموعه متناهی از دسته ها یا خوشه ها جهت توصیف داده ها می باشد.
2-2-2)خلاصه بندی[7]: شامل روشهایی جهت یافتن توصیفی فشرده برای یک مجموعه داده می شود.
۵-2-2-2) مدل کردن وابستگی[8]: هدف در مدل کردن وابستگی، یافتن مدلی محلی جهت تبیین وابستگی میان متغیرها یا مقادیر ویژگیها در یک مجموعه داده ای یا بخشی از آن است.
6 -2-2-2) تشخیص انحراف و تغییر[9]: تشخیص تغییرات عمده در داده ورودی مهمترین هدف این کاربرد می باشد.
فاکتور موفقیت در داده کاوی وابسته به میزان انرژی، دانش و خلاقیتی است که شخص طراح مدل و الگوریتم داده کاوی برای آن صرف می کند. در واقع فرآیند داده کاوی بسیار شبیه حل یک جورچین است.
قطعات یک جورچین هر کدام از نظر ساختار به تنهایی پیچیده نیستند. ولی چنانچه این قطعات به صورت مجموعه ای گرد هم آیند، میتوانند مبین سیستم بسیار پیچیده ای باشند. فرآیند داده کاوی از آن جهت شبیه جورچین است که میتوان هر کدام از نمونه ها در مجموعه داده های ورودی را معرف یک قطعه در جورچین دانست. دانش نهفته در داده های مزبور و یا به عبارت دیگر نظم حاکمی که در میان تمام داده ها وجود دارد و قادر است داده های ورودی یا بخشی از آنها را توجیه کند، همان نقشی است که یک جورچین در صورت کامل شدن ارائه می کند. داده کاوی یکی از زمینه هایی است که در صنعتکامپیوتر رشد قابل توجهی داشته است. یکی از دلایل این امر رشد روز افزون روش های متنوعی است که از آنها جهت کاوش داده ها و استخراج دانش استفاده می شود. از داده کاوی در صنایع مختلفی استفاده می شود. نمونه هایی از این صنایع عبارتند از: خرده فروشی، تولید و ساخت، مخابرات، بهداشت و درمان، بیمه، حمل و نقل، بازاریابی، مهندسی مجدد، قانون و جزاء و امنیت.
از دیدگاه کلی میتوان داده کاوی را ترکیبی از علوم آمار و یادگیری ماشین دانست. در علم آمار تأکید بیشتر بر روی واکشی یک فرمول ریاضی جهت تبیین رابطه موجود میان داده ها می باشد. در مقابل یادگیری ماشین سعی در توجیه داده ها به صورت کاربردی و ضمنی و نه لزوما فرمولی و صریح، می کند.
از دیدگاهی دیگر میتوان هدف علم آمار را ارائه یک مدل دقیق برای داده های مورد بررسی دانست. اینهدف در علم یادگیری ماشین بصورت ارائه یک الگوریتم ضمنی جهت بررسی داده ها دنبال می شود. اینکهعلم داده کاوی بیشتر به کدامیک از علوم آمار یا یادگیری ماشین نزدیکتر است بستگی به ماهیت مسأله ای دارد که داده های مورد کاوش مربوط به آن هستند. هر چقدر که مسأله مزبور شناخته شده تر بوده و دانش ما در مورد داده های مورد کاوش بیشتر باشد، ماهیت علم داده کاوی به علم آمار نزدیکتر می شود.این در حالی است که عدم وجود دانش قبلی درباره داده های مورد کاوش، ماهیت علم داده کاوی را به علمیادگیری ماشین نزدیکتر می کند. با توجه به آنکه در مسأله تشخیص نفوذ دانش آماری خاصی درباره دسته های مختلف (همانند تابع توزیع احتمال وقوع حمله ها، نرخ رخداد دسته های موجود و غیره) برای ما فراهم نمی باشد، به همین دلیل میتوان ماهیت فرآیند داده کاوی را برای این مسأله به علم یادگیری ماشین نزدیکتر دانست.
[1] Data mining
[2] Prediction
[3] Description
[4] Classification
[5] Regression
[پنجشنبه 1398-12-08] [ 12:38:00 ق.ظ ]
|