*اطمینان از وجود تعداد مناسبی نمونه در فایل و اینکه شناسه هیچ کدام تکرار نشده باشد.
* بررسی کد های آشفته
* کنترلها و بررسیهای سازگاری
* یک بررسی تکمیلی برای اینکه تمام نمونه ها جمع آوری شده، و در فایل آمده اند.
وظایف اصلی فاز پاکسازی داده ها عبارتنداز:
*پر کردن داده های مفقوده
* شناخت داده های پرت و هموار کردن داده های مغشوش
* درست کردن داده های ناسازگار
* حل کردن مشکل افزونگی که بر اثر یکپارچه ساختن داده ها ایجاد شده است.
مقادیر مفقود:
در داده های اولیه که برای داده کاوی که در اختیار داریم ممکن است برخی نمونه ها برای برخی ویژگیها مقدار نداشته باشند. مثلا در داده های فروش ممکن است برای چند مشتری درآمد مشتری درج نشده باشد، ما به این مقادیر، مقادیر مفقود می گوییم.
داده مغشوش:
اغتشاش یا نویز، خطای تصادفی یا مغایرت در متغیر اندازه گیری شده است. مقادیر ویژگی ممکن است به دلایل زیر نادرست باشد:
*ابزارهای معیوب جمع آوری داده.
* مسائل و مشکلات حین ورود داده.
* محدودیت فناوری.
2-5-1-2یکپارچه سازی داده ها
داده کاوی اغلب به یکپارچه سازی داده ( ادغام داده ها از چندین منبع داده) نیاز دارد. همچنین ممکن است لازم باشد که داده ها به شکل مناسب داده کاوی تبدیل شوند.
در این مرحله، داده های چندین منبع را در یک مخزن منسجم ترکیب میکنیم.مهم ترین مسئله شناخت موجودیتهای مشابه درون چندین منبع است.مثلا اگر در پایگاه داده A برای مشتری فیلد A.Cust_id و در پایگاه داده B از فیلد B.Cust# به همان منظور استفاده شده باشد، در صورت عدم حذف یکی از این دو، آنگاه مشکل افزونگی داده ایجاد می شود. البته این مشکل می تواند درون یک پایگاه داده هم رخ دهد و آن وقتی است که یک فیلد از روی فیلد دیگری درون همان پایگاه داده قابل استنتاج بوده، در آن نگهداری شود. مثلا نگهداری تاریخ تولد و سن به صورت همزمان ایجاد افزونگی می کند.
بنابراین برای رفع مشکل افزونگی داده ها بایستی فیلد های تکراری شناسایی شوند.استفاده از فرا داده و اطلاعاتی که در هنگام طراحی پایگاه داده مستند شده است، می توان به ما کمک کند. علاوه بر این استفاده از روشهای آماری برای شناخت ویژگیهایی که دارای وابستگی هستند نیز به ما کمک می کند. در واقع برای این کار نیاز به استفاده از تحلیلهای همبستگی داریم.
2-5-1-3 تبدیل داده ها
در این مرحله داده ها به شکل مناسب برای داده کاوی تبدیل میشوند.
2-5-1-3-1هموار سازی
با حذف کردن مقادیر مغشوش داده سرو کار دارد. برخی روشهای مورد استفاده برای هموارسازی عبارتند از بسته بندی، رگرسیون و خوشه بندی.حتی مشخصه هایی که انتظار می رود خطای کمی در مقادیرشان داشته باشند، می توانند از هموارسازی مقادیرشان برای کاهش تغییرات تصادفی استفاده کنند. برخی روشها مثل شبکه های عصبی با توابع سیگموئید یا درختان رگرسیونی در بازنمایی خود به طور ضمنی هموارساز دارند.
2-5-1-3-2 تجمیع
گاه عملیات تلخیص و تجمیع بر روی داده ها انجام می شود. برای مثال فروش روزانه ممکن است تجمیع شده و به شکل فروش هفتگی یا ماهانه نمایش داده شود. این کار عموما در ایجاد مکعب داده استفاده می شود.
2-5-1-3-3 تعمیم
در تعمیم با بهره گرفتن از سلسله مراتب مفهومی، داده سطح پایین یا اولیه با مفاهیم سطح بالاتر جایگزین می شود. برای مثال ویژگی طبقه ای مانند خیابان با مفهوم بالاتر مانند شهر یا کشور عمومیت داده می شود.
2-5-1-3-4 ساخت ویژگی
جایی که از ویژگی های موجود ویژگی جدیدی ساخته شده و برای کمک به فرایند داده کاوی به آن اضافه می شود. برای مثال، ممکن است ویژگی مساحت را از ضرب دو ویژگی طول و عرض که موجودند، بسازیم.
2-5-1-3-5 نرمال سازی
نرمال سازی تغییر مقایس داده ها به گونه ای است که آن ها را به کمک دامنه کوچک و معینی به فاصله ای مانند فاصله بین 1- تا 1 نگاشت می کند. نرمال سازی به ویژه برای الگوریتمهای دسته بندی همچون شبکه های عصبی یا اندازه گیری فاصله همچون دسته بندی از طریق نزدیک ترین همسایه و خوشه بندی مفید است. در این الگوریتمها نرمال سازی باعث می شود که وقتی داده ها برای اندازه گیری فاصله به کار میروند، داده هایی با مقیاس بزرگ نتیجه را به سمت خویش منحرف نکنند.
2-5-1-4 کاهش داده ها
اگر بدون از دست دادن داده ها، داده های اصلی از داده های فشرده قابل باسازی باشد این کاهش داده ، بدون اتلاف نامیده می شود. و اگر این باز سازی امکان پذیر نباشد و به عبارت دیگر در این تبدیل برخی داده ها از میان بروند، این کاهش داده را با اتلاف میگویند]1[.
شکل(2-5)-فشرده سازی بی اتلاف و پر اتلاف]1[
اغلب مشکلات داده کاوی به علت وجود مقادیر زیادی از نمونه ها با ویژگیهای مختلف به وجود می آید. به علاوه این نمونه ها اغلب ابعاد بالایی دارند.
روش های کاهش داده می تواند برای بدست آوردن یک بازنمایی کوچکتر و کاهش یافته از داده که بسیار کم حجمتر از داده های اصلی بوده و البته یکپارچگی داده های اصلی را حفظ کند، به کار رود. بنابراین کاوش روی مجموعه داده های کاهش یافته بسیار کاراتر است و البته سبب ایجاد نتایج تحلیلی مشابه می شود. استراتژی های کاهش داده شامل موارد زیر است:
-
- تجمیع مکعبی داده ( کاهش سطری): وقتی تجمیع بر روی داده هایی که به شکل مکعب گرد آمدهاند، انجام شود.
-
- انتخاب زیر مجموعه مشخصه ها ( کاهش ستونی): وقتی ابعاد با ویژگی نامربوط یا با ارتباط ضعیف یا افزونه شناسایی یا حذف شوند.
-
- کاهش تعدد نقاط ( کاهش سطری): جایی که داده به وسیله جایگزینهای کوچکتر از داده قبلی با بهره گرفتن از مدلهای پارامتریک ( که تنها نیاز به ذخیره پارامترهای مدل دارند) یا مدلهای ناپارامتریک مانند خوشه بندی، نمونه برداری و استفاده از هیستوگرام کاهش یابد.
-
- گسسته سازی و تولید سلسله مراتب مفهومی: جایی که مقادیر داده های خام با دامنه یا سطوح مفهومی بالاتر جایگزین می شود.گسسته سازی یک روش کاهش تعدد نقاط است که راه مفیدی برای تولید خودکار سلسله مراتب مفهومی است.
-
- کاهش بُعد ( کاهش ستونی): جایی که مکانیزم های کد کردن برای کاهش اندازه مجموعه داده استفاده می شود]1[.
2-5-1-4-1 تجمیع مکعبی داده
در مکعبهای داده میتوان داده را در ابعاد مختلف تجمیع کرد، بدون اینکه اطلاعات لازم برای وظایف تحلیلی از میان برود. مثلا در شکل 2-6 فروش فصلهای مختلف جمعآوری شده و سر جمع سالانه آنها نیز محاسبه و نگهداری می شود.