تعريف تنقيب البيانات. عندما تفكر في التنقيب ، فإن أول ما يتبادر إلى الذهن هو استخراج الذهب أو الفضة أو أي معادن ثمينة أخرى. في عالم البيانات ، لا يختلف الأمر كثيرًا. لكن المعادن هي مورد محدود ، في حين أن البيانات على العكس من ذلك متوفرة بكثرة وقابلة لإعادة الاستخدام.

في هذه المقالة ، سنسلط الضوء على أكبر فائدة لتطبيق التنقيب في البيانات على عملك من خلال مثال واقعي للشركات التي قامت بذلك من قبل.

ماهو تعريف تنقيب البيانات Data Mining

تنقيب البيانات هوعملية تحليل البيانات من وجهات نظر مختلفة وإيجاد الاختلالات والأنماط والارتباطات في مجموعات البيانات الثاقبة والمفيدة في توقع النتائج التي تساعدك. لاتخاذ قرار مستنير.

و مثال التعدين الخاص بنا ، عندما تخطط لاستكشاف الذهب أو المعادن الثمينة ، يجب عليك أولاً تحديد المكان الذي تعتقد أن الذهب ثم يجب أن يبدأ الحفر فيه.

تنقيب البيانات

في عملية التنقيب عن البيانات ، لدينا نفس المفهوم. لاستخراج البيانات ، يجب عليك أولاً جمع البيانات من مصادر مختلفة ، وإعدادها وتخزينها في مكان واحد ، لأنه لا شيء من التنقيب عن البيانات مرتبط بالعثور على البيانات نفسها.

مراحل Crisp-DM: عملية التنقيب في البيانات القياسية

. فهم اعمال التجارة

كل شيء في عملية استخراج البيانات على تحديد ما تبحث عنه. يجب أن تفهم وتحدد متطلبات العمل من أجل صياغة بيان المشكلة. بمجرد تحديد بيان المشكلة ، يمكننا توجيه البيانات وفقًا لذلك.

مثال على بيان المشكلة الذي يجب العثور عليه في حل لاستخدام التنقيب عن البيانات:

  • كيف يمكنني زيادة هامش الربح لكل وحدة؟
  • كيف تخطط لتصحيح عيوب التصنيع وتجنب شحن منتج به عيوب؟

من هناك ، تبدأ في تطوير سؤال أكثر تحديدًا تحتاج إلى الإجابة عليه.

. فهم البيانات

نجمع البيانات الأولية ونفهمها ونواصل أنشطتها لتحديد البيانات ؛ لتحديد جودتها وتناقضاتها ومشاكل قراءتها ، لاكتشاف المستوى الأولى للأفكار.

في هذه المرحلة تحتاج إلى تحديد:

  • من أين تأتي البيانات؟
  • من قام بتجميعها وهل اتبعت مجموعتهم الأساليب القياسية؟
  • ماذا تعني أعمدة وصفوف البيانات المختلفة؟
  • هل يوجد اختصارات مبهمة أو غير واضحة؟
  • صف البيانات وتحقق من حجمها وافحص خصائص التجميع.
  • إمكانية الوصول وتوافر الميزات. أنواع السمات والالتزامات والهوايات.
  • فهم معنى وقيمة كل ميزة في مصطلحات العمل.

إعداد البيانات

يغطي جميع الأنشطة التي يتم إجراؤها لإنشاء مجموعة البيانات النهائية من البيانات الأولية. لاحظ أن تحويل البيانات الأولية إلى مجموعة بيانات تحليلية يمثل 90٪ من وقت المشروع.

بمجرد تحديد مصادر البيانات ، نحتاج إلى تحديد البيانات وتوضيحها وإنشاءها وتنسيقها بالشكل المطلوب. يجب القيام بمهمة التنقيب عن البيانات بعمق وتدقيق لملاحظة الأنماط التي تكمن وراء فهم الأعمال.

ستؤثر جودة البيانات الموضحة أو البيانات النهائية على أداء النموذج في النهائي. يعرف كل عامل منجم البيانات قاعدة بسيطة ويعمل وفقًا لها (القمامة في … القمامة في الخارج).

من المحتمل أن يتم تنفيذ مهام إعداد البيانات عدة مرات وليس بترتيب معين وتتضمن عددًا من الأنشطة ، على سبيل المثال:

  • قلل مجموعات البيانات إلى تلك المتغيرات ذات الأهمية في مشكلة بيانات معينة (هندسة الميزات).
  • تنقية البيانات وتوضيحها (الاختلالات مثل القيم المتطرفة ، البيانات المفقودة ، إعادة التنسيق) و (تنقية البيانات)
  • تحقق من عدم وجود بيانات غير متسقة تحتاج إلى معالجتها.
  • قم بإعداد البيانات

النمذجة

نموذج: في التنقيب عن البيانات ، هذا هو تمثيل الكمبيوتر لمراقبة الكلمات الحقيقية. القوالب هي تطبيقات لخوارزمية للعثور على أي نمط أو رسالة في بياناتك وتحديدها وعرضها. هناك نوعان من النماذج في استخراج البيانات:

  • التصنيفية أو الوصفية
  • التنبؤية
  • نمذجة النمذجة
  • في هذه المرحلة ، يتم اختيار تقنيات النمذجة المختلفة وتطبيقها ويتم تحديد معلماتها نحو القيم المثلى. عادة ، يتم استخدام تقنيات متعددة لمشكلة واحدة في التنقيب عن البيانات. بعض التقنيات لها متطلبات محددة على شكل البيانات.

 التقييم

الهدف في هذه المرحلة هو تحديد ما إذا كانت هناك مشكلة عمل كبيرة لم تتم معالجتها بشكل كافٍ. في نهاية هذه المرحلة ، يجب اتخاذ قرار بشأن المضي في مرحلة النشر أم لا.

 النشر

هنا نحتاج إلى تحديد كيفية استخدام النتائج. يجب تنظيم المعرفة المكتسبة وتقديمها بطريقة يمكن لأصحاب المصلحة استخدامها. اعتمادًا على الاحتياجات ، يمكن أن تكون مرحلة الإصدار بسيطة مثل إنشاء تقرير ، أو معقدة مثل تنفيذ عملية التنقيب عن البيانات القابلة للتكرار عبر المؤسسة.

يوفر CRISP-DM إطارًا موحدًا لتوثيق الخبرة والمشورة العامة. علاوة على ذلك ، يمكن تطبيق CRISP-DM في صناعات مختلفة بأنواع مختلفة من البيانات.