التنقيب في البيانات هي عملية بحث محوسب ويدوي عن معرفة من البيانات دون فرضيات مسبقة عما يمكن أن تكون هذه المعرفة. هناك هدفان أساسيان للتنقيب في البيانات هم: االتنقيب الاستشرافي والتنقيب الوصفي. التنقيب الاستشرافي ينتج عنه نموذج عن النظام الذي تصفه البيانات المستخدمة في التنقيب. أما التنقيب الوصفي فنتج معلومات جديدية بناء على المعلومات الموجودة داخل البيانات المستخدمة في عملية التنقيب. العمليات الاساسية التي تعتبر ضمن عمليات أو مهام التنقيب هي:
هناك ثلاثة أهداف للتنقيب في البيانات:
1) من أجل تعليل بعض الظواهر المرئية. مثال: لماذا زادت نسبة المدخنين في الوطن العربي؟
2) من أجل التثبت من نظرية ما. مثال: التثبت من النظرية التي تقول بأن الأسر الكبيرة تهتم بالضمان الصحي أكثر من الأسر الصغيرة عددا.
3) من أجل تحليل البيانات للحصول على علاقات جديدة وغير متوقعة. مثال: كيف سيكون الانفاق العام إن كان ملازما لعمليات خداع واسعة من قبل البطاقات الائتمانية.
وسائل التنقيب في البيانات: هناك عدة وسائل مختلفة من أجل التنقيب في البيانات. اختيار الوسيلة المناسبة يعتمد على طبيعة البيانات تحت الدراسة وعلى حجمها. يمكن اجراء عملية التنقيب في البيانات بالمقارنة مع سوق البيانات ومخزن البيانات.
بعض من هذه الوسائل هي: (يتبعها وظيفة كل وسيلة)
- التفكير واستخلاص النتائج والقوانين من أمثلة حية Case-Based reasoning
- الكشف عن قانون Rule Discovery: البحث عن منوال معين أو علاقة معينة في جزئية كبيرة من البيانات
- معالجة الاشارات Signal Processing: ايجاد الظواهر المتشابه مع بعضها البعض
- شبكات نووية Neural Nets: تطوير نماذج قابلة لتنبؤ النتائج. هذه النماذج تم تطويرها بناءا على أسس تم استنباطها من عقل الانسان.
- منحنيات غير ثابتة Fractals: تصغير البيانات الكبيرة من دون ضياع المعلومات
تطبيقات التنقيب في البيانات: وسائل التنقيب في البيانات تُستعمل وبنجاح في الكثير من التطبيقات الحقيقة حول العالم. التطبيقات التالية تشمل بعضا من الأمثلة: (يتبعها مثال لكل تطبيق)
- كتابة تقرير مختصر عن فئة معينة Profiling Populations: تطوير وإنشاء تقارير موجزة عن الزبائن المهمين وعن بطاقات الائتمان.
- تحليل النزعة التجارية Analysis of Business Trend: ايجاد الأسواق ذات قدرات النمو القوية أو الضعيفة.
- التسويق لفئة معينة Target Marketing: ايجاد الزبائن من أجل منح التخفيضات لهم لسبب معين.
- تحليل الاستعمال Usage Analysis: ايجاد منوال معين لاستعمال الخدمات والسلع
- فعالية الحملة Campaign Effectiveness: مقارنة استراتيجيات الحملات مع بعضها البعض من أجل ايجاد أكثرها فعالية وتأثيرا.
- جاذبية السلعة: ايجاد السلع التي تباع مع بعضها البعض.
تطبيقات التنقيب في البيانات بدأت تنمو بصورة كبيرة للأسباب التالية: 1) كمية البيانات الموجودة في مخزن البيانات وسوق البيانات تنمو بصورة أسية (exponential). ومن أجل ذلك، فإن المستخدم يحتاج إلى أدوات متطورة من مثل التنقيب في البيانات من اجل استخلاص الفائدة والمعرفة من هذه البيانات.
2) الكثير من أدوات التنقيب عن البيانات بدأت تظهر مؤخرا، وكل أداة أفضل من الأخرى.
3) المنافسة الشديدة الموجودة في السوق تدفع الشركات إلى الاستفادة القصوى من البيانات التي بيدها. عمليات التنقيب في البيانات تفعل ذلك تماما.