التنقيب عن البيانات هو عملية تتبعها الشركات لتحويل البيانات الخام إلى معلومات جاهزة للتنفيذ. يتم استخدام برامج خاصة للعثور على أنماط بكميات كبيرة من البيانات.
ماذا يعني التنقيب في البيانات واتخاذ القرار
تنظم الشركات بياناتها وتستخدمها لدعم عمليات اتخاذ القرار الإداري. يمكن أيضًا استخدام النتائج في حالات العمل.
تخزين المعلومات والبيانات الضخمة مصدرين لاتخاذ القرار. في كلتا الحالتين ، فإنه يتضمن الكثير من البيانات. يتداخل تخزين البيانات الفردية والبيانات الضخمة ، ولكن ليس مع بعضهما البعض. في مستودع البيانات ، يتم تخزين البيانات المخزنة بشكل عام بطريقة منظمة في قاعدة بيانات. مع البيانات الضخمة ، غالبًا ما يكون هذا الهيكل غير منظم. بالإضافة إلى ذلك ، عادةً ما يتم تخزين البيانات الضخمة في السحابة. هذان العاملان لا يبسطان استخراج البيانات.
عملية استخراج البيانات
- تقوم المؤسسات بجمع البيانات وتحميلها إلى مستودعات البيانات الخاصة بها.
- تخزين البيانات على خوادم داخلية أو في السحابة.
- تم ترتيب الإدارة.
- يمكن لمحللي الأعمال وفرق الإدارة ومتخصصي تكنولوجيا المعلومات الوصول إلى البيانات. يحددون أيضًا كيف يريدون تنظيمه.
- يقوم برنامج استخراج البيانات بفرز البيانات حسب طلب المستخدم.
أخيرًا ، يعرض المستخدم النهائي البيانات في طريقة عرض يمكن الوصول إليها ، مثل مخطط أو جدول.
استخراج البيانات وأدوات الاستعلام
هناك اختلافات واضحة بين تحليل البيانات وطرق الاستعلام الشائعة ولغات الاستعلام التي يوفرها معظمهم ، مثل مثل SQL. بينما تم تصميم لغات الاستعلام لتوفير وسيلة لمستخدميها لتحديد البيانات التي يريدون استخراجها من قاعدة بيانات واختبار أي افتراضات قاموا بها بناءً على البيانات أو القيم المستخرجة .
فإن أدوات التنقيب عن البيانات مصممة لتطوير الفرضيات واختبارها واستخلاص معلومات جديدة منها. لتوضيح هذه الفكرة ، يمكن تحقيق التوازن بين هذين الاتجاهين في المثال التالي:
شركة تصنيع كمبيوتر تريد معرفة معدلات مبيعات منتجاتها وطرق تحسين عوائدها. يبدأ بدراسة كل منتج من منتجاته لتحديد معدل المبيعات في مناطق معينة من العالم والتوازن بين هذه المعدلات لمعرفة مدى قبول المنتج في تلك المناطق. للقيام بذلك ، يمكن استخدام إحدى لغات الاستعلام مثل SQL ، ثم العلاقة بين متوسط الدخل للفرد في كل بلد وعدد المنتجات التي تشتريها تلك الدولة سنويًا وما إلى ذلك ، وما إلى ذلك ، ومتى كان هناك هي فرضية تم إثباتها أو رفضها. أما بالنسبة لتقنيات التنقيب عن البيانات ، فهي تهدف إلى الإجابة عن السؤال العام لهذه الأسئلة الفرعية ، مثل “هل حقق المنتج نجاحًا كافيًا؟ وما هي العقبات التي تمنعه من تحقيق النجاح المطلوب؟ وما هي طرق التغلب عليها؟ عقبات؟ ”في هذه الحالة ، لا تتطلب أداة التحقيق أي تخمين ، ولكنها تقوم بفرز وتصنيف وتحليل العلاقات والمعلومات المخفية التي لا يمكن ملاحظتها دائمًا.
بشكل عام ، يمكننا القول أنه إذا كان المتطلب معروفًا جيدًا ، فيمكن استخدام لغات الاستعلام مثل SQL ، ولكن إذا كان ما يريده المستخدم غير واضح ولديه افتراضات أو معايير ، فإن استخدام تقنيات استخراج البيانات التي لها أصبحت ذات أهمية كبيرة لغموض الحاجة في معظم الحالات.
التقنيات المستخدمة في تنقيب البيانات
هناك مجموعة واسعة من التقنيات المستخدمة في استخراج البيانات ، ولكل منها خصائص فريدة لا توفرها التقنيات الأخرى. لذلك ، ليس من السهل اختيار تقنية تحديد الهوية المناسبة لحالة معينة. وقد تقتصر أهم هذه التقنيات على ما يلي: –
- أدوات الاستعلام ومنها SQL وغيرها.
- تقنيات إحصائية.
- الإظهار، وهو طريقة مفيدة لاستخراج عينات من مجموعة بيانات. يتم تطبيقه في بداية عملية التحقيق في البيانات ، حيث يعطي فكرة جيدة عن كفاية البيانات والعينات التي يمكن استخراجها منها.
- اشجار القرار، تعد أشجار القرار تقنية مفيدة لتصنيف البيانات وفقًا لمجموعة من الخصائص الهرمية التي تشكل شجرة القرار.
- القواعد المرتبطة.
- الشبكات العصبية القائمة على محاكاة الدماغ البشري وكيفية التعلم والدراسة الذاتية ، ثم تتحول عملية استخراج البيانات إلى قيم يمكن إرسالها إلى مدخلات عقد الشبكة.
- تعد الخوارزميات الجينية ، المشتقة من علم الأحياء وعلم الوراثة ، نوعًا من استراتيجيات التعلم المتطورة ، استنادًا إلى نظرية التطور ، حيث تتحول مشكلة التنقيب عن البيانات إلى مجموعة من متواليات الكروموسومات.
إذا وجدت إحدى هذه التقنيات شكلًا مناسبًا ، فيمكن لبقية التقنيات العثور على هذا الشكل وترجمة المشكلة إلى تقنية تعليمية ، ثم يقوم المتخصص بإنشاء تمثيل هندسي للشكل الناتج.