الرئيسيةبحث

تصديق متقاطع


هي تقنية لتقدير مدى اداء نموذج معين لعينه من البيانات بالنسبه للبيانات المستقبلية، و ذلك عن طريق تقسيم البيانات لمجموعتين: مجموعة التدريب (training set) حيث يتم عليها التطبيق ، ومجموعة الاختبار (testing set) حيث يتم حساب نسبة الخطأ الناتج عليها.

تستخدم Cross-Validation عادة في الاحصاء لعمل ارتداد (Regression) لمجوعه من البيانات، و في عملية اختيار أفضل نموذج لحل مشكله معينه (Model Selection)، و في التصنيف (Classification)، وفي اختيار السمات (Feature Selection)


فهرس

الارتداد (Regression)

هي طريقه احصائيه لفحص علاقة متغير اعتمادي بمتغيرات مستقله معينه، أحد تطبيقاتها يكمن في استخدام عدد قليل من العينات للتنبؤ بسلوك كمية كبيرة من العينات. لنفرض ان لدنيا العينات او النقاط التالية : (كما في الشكل )


هذه البيانات تتبع لاقتران معين ق(س) غير معروف، يمكننا تقريب شكل الاقتران و ذلك للتنبؤ بسلوك الاقتران، من خلال طرق الارتداد التاليه:

الارتداد الخطي (Linear Regression) و يتم باستخدام اقتران خطي للتنبؤ بسلوك الاقتران الاصلي


الارتداد التربيعي (Quadratic Regression) يتم باستخدام معادلة تربيعية


توصيل جميع النقاط (Piecewise Liner Regression) عن طريق توصيل النقاط ببعضها البعض كما في الشكل


لمعرفة اي من الطرق الثلاث السابقة هي الافضل في هذه الحاله، نلجأ إلى تطبيق أحد طرق ال Cross-Validation الثلاث كما يلي

الطريقة الأولى : اختبار المجموعة (Test Set)

هذه الطريقة تقوم على اختيار 30% كعينة عشوائية من النقاط للاختبار و باقي العينات تستخدم في عملية التدريب


نطبق طريقة الارتداد على عينات التدريب :


نفحص مدى مطابقة الاقتران بناءا على مجموعة عينات الاختبار و نحسب مربع متوسط الخطأ (متوسط مربع الخطأ = 2.4)


متوسط مربع الخطأ = 0.9


متوسط مربع الخطأ = 2.2


محاسن هذه الطريقة :بسيطة جدا مأخذ هذه الطريقة :ضياع البيانات لاننا نستخدم 30% من العينات للاختبار

الطريقة الثانية : ترك عينة واحدة

نحذف عينه عشوائيه مؤقتا، و نستخدم باقي العينات في التدريب


حساب الخطا يعتمد على النقطة المحذوفة و سيتم حساب الخطا بالنسبة لجميع العينات المستخدمة في التدريب بعد الانتهاء من جميع النقاط (مربع متوسط الخطأ = 2.12)


وبالنسبه للارتداد التربيعي (مربع متوسط الخطأ = 9.62)


وبالنسبه لتوصيل جميع النقاط (مربع متوسط الخطأ = 3.33) صورة:Cv15.PNG

محاسن هذه الطريقة : عدم ضياع البيانات ماخذ الطريقة : مكلفة في عملية التنفيذ

الطريقة الثالثة : اخذ "ك" من الاقسام

قسم العينات إلى ك اقسام، قيمة ك تعتمد على عدد البيانات. في العاده يتم اخذ ك = 10 (في هذا المثال ك = 3)


بالنسبة لنقاط الحمراء : نستخدم العينات غير الحمراء للتدريب


نحسب مجموعة الاخطاء بالنسبة للعينات الحمراء.

نعيد هذه العملية على النقاط الخضراء و الزرقاء ثم حسب متوسط مربع الخطأ للاجزاء الثلاثه (مربع متوسط الخطأ = 2.05)


نكرر العمليه على الطريقتين الاخريين للارتداد التربيعي (مربع متوسط الخطأ = 1.11)


توصيل جميع النقاط (مربع متوسط الخطأ = 2.93)


محاسن الطريقة : أفضل من طريقة اختبار المجموعة ماخذ الطريقة : نخسر (ك/عدد البيانات الكلي)% من البيانات مكلفة بـ "ك" ضعف من طريقة الاختبار

تصنيف البيانات (Classification)

لتصنيف البيانات إلى عدة اقسام (نسبة إلى عوامل مشتركه بينها)حيث يتم استخدام الطرق الثلاث سابقة الذكر، ولكن بدلا من حساب الخطأ، يتم حساب عدد البيانات غير المصنفه.

اختيار النموذج (Model Selection)

يتم تدريب النماذج باستخدام طريق معينه، و حساب الخطا، ثم يتم اختيار النموذج بناء على اقل خطأ. مثلا في مشكلة k-nearest neighbor يتم اختيار القيمه المناسبه ل k عن طريق تطبيق طريقة ترك عينه واحده لعدد معين من النماذج (حيث تختلف قيمة k في كل مره)، و حساب قيمة الخطا (متوسط مربع الخطأ) و يتم اختيار k بناء على النوذج ذو الخطأ الاقل.