चौथी औद्योगिक क्रांति की नींव काफी हद तक निर्भर करेगी डेटा तथा कनेक्टिविटी. विश्लेषण सेवाएं डेटा खनन समाधान विकसित करने या बनाने में सक्षम इस संबंध में एक महत्वपूर्ण भूमिका निभाएगा। यह संभावित खरीदारों को लक्षित करने के लिए ग्राहक खरीद व्यवहार के परिणामों का विश्लेषण और भविष्यवाणी करने में सहायता कर सकता है। डेटा एक नया प्राकृतिक संसाधन बन जाएगा और इस अपरिवर्तित डेटा से प्रासंगिक जानकारी निकालने की प्रक्रिया बहुत महत्व रखेगी। इस प्रकार, शब्द की उचित समझ - डेटा माइनिंग, इसकी प्रक्रियाएं, और एप्लिकेशन इस चर्चा के बारे में समग्र दृष्टिकोण विकसित करने में हमारी सहायता कर सकता है।
डेटा खनन मूल बातें और इसकी तकनीकें
डेटा खनन, जिसे भी जाना जाता है डेटा में ज्ञान की खोज (KDD) सरल विश्लेषण से परे पैटर्न और प्रवृत्तियों को उजागर करने के लिए डेटा के बड़े स्टोर खोजने के बारे में है। हालांकि, यह एक ही चरण समाधान नहीं है बल्कि एक बहु-चरण प्रक्रिया है और विभिन्न चरणों में पूरा हो गया है। इसमें शामिल है:
1] डेटा एकत्रण और तैयारी
यह डेटा संग्रह और इसके उचित संगठन के साथ शुरू होता है। यह डेटा खनन के माध्यम से खोजी जा सकने वाली जानकारी खोजने की संभावनाओं में काफी सुधार करने में मदद करता है
2] मॉडल बिल्डिंग और मूल्यांकन
डेटा खनन प्रक्रिया में दूसरा कदम विभिन्न मॉडलिंग तकनीकों का उपयोग है। इन्हें पैरामीटर को इष्टतम मानों को कैलिब्रेट करने के लिए उपयोग किया जाता है। तकनीकें बड़े पैमाने पर संगठनात्मक आवश्यकताओं के एक समूह को संबोधित करने और निर्णय लेने के लिए आवश्यक विश्लेषणात्मक क्षमताओं पर निर्भर करती हैं।
आइए संक्षेप में कुछ डेटा खनन तकनीकों की जांच करें। यह पाया जाता है कि अधिकांश संगठन दो या दो से अधिक डेटा खनन तकनीकों को एक साथ उचित प्रक्रिया बनाने के लिए जोड़ते हैं जो उनकी व्यावसायिक आवश्यकताओं को पूरा करता है।
पढ़ना: बिग डेटा क्या है?
डेटा खनन तकनीकें
- एसोसिएशन - एसोसिएशन व्यापक रूप से ज्ञात डेटा खनन तकनीकों में से एक है। इसके तहत, एक ही लेनदेन में वस्तुओं के बीच संबंधों के आधार पर एक पैटर्न को समझ लिया जाता है। इसलिए, इसे संबंध तकनीक के रूप में भी जाना जाता है। बिग ब्रांड खुदरा विक्रेताओं ने इस तकनीक पर ग्राहक की खरीदारी की आदतों / वरीयताओं का शोध करने के लिए भरोसा किया है। उदाहरण के लिए, लोगों की खरीदारी की आदतों को ट्रैक करते समय, खुदरा विक्रेताओं की पहचान हो सकती है कि जब ग्राहक चॉकलेट खरीदते हैं तो ग्राहक हमेशा क्रीम खरीदता है, और इसलिए सुझाव देता है कि अगली बार जब वे चॉकलेट खरीदते हैं तो वे क्रीम भी खरीदना चाहेंगे।
- वर्गीकरण - यह डेटा खनन तकनीक उपर्युक्त से अलग है कि यह मशीन सीखने पर आधारित है और रैखिक प्रोग्रामिंग, निर्णय पेड़, तंत्रिका नेटवर्क जैसे गणितीय तकनीकों का उपयोग करती है। वर्गीकरण में, कंपनियां ऐसे सॉफ़्टवेयर का निर्माण करने का प्रयास करती हैं जो डेटा आइटम को समूहों में वर्गीकृत करने का तरीका सीख सकती है। मिसाल के तौर पर, एक कंपनी इस आवेदन में वर्गीकरण को परिभाषित कर सकती है कि "कंपनी से इस्तीफा देने की पेशकश करने वाले कर्मचारियों के सभी रिकॉर्ड दिए गए हैं, भविष्य में कंपनी से इस्तीफा देने की संभावना रखने वाले व्यक्तियों की संख्या की भविष्यवाणी करें।" ऐसे परिदृश्य के तहत, कंपनी कर्मचारियों के रिकॉर्ड को दो समूहों में वर्गीकृत कर सकती है, अर्थात् "छोड़ें" और "रहें"। इसके बाद कर्मचारियों को पहले बनाए गए अलग-अलग समूहों में वर्गीकृत करने के लिए अपने डेटा खनन सॉफ्टवेयर का उपयोग कर सकते हैं।
- क्लस्टरिंग - समान विशेषताओं को प्रदर्शित करने वाली विभिन्न वस्तुओं को स्वचालन के माध्यम से एक क्लस्टर में एक साथ समूहीकृत किया जाता है। ऐसे कई क्लस्टर वर्ग और वस्तुओं (समान विशेषताओं के साथ) के रूप में बनाए जाते हैं, तदनुसार इसमें रखा जाता है। इसे बेहतर समझने के लिए, आइए लाइब्रेरी में पुस्तक प्रबंधन का एक उदाहरण देखें। पुस्तकालय में, पुस्तकों का विशाल संग्रह पूरी तरह से सूचीबद्ध है। एक ही प्रकार के आइटम एक साथ सूचीबद्ध हैं। यह हमारे लिए हमारी रुचि की एक पुस्तक खोजना आसान बनाता है। इसी प्रकार, क्लस्टरिंग तकनीक का उपयोग करके, हम उन पुस्तकों को रख सकते हैं जिनके पास एक क्लस्टर में कुछ प्रकार की समानताएं हैं और इसे एक उपयुक्त नाम असाइन करें। इसलिए, यदि कोई पाठक अपनी रुचि के लिए प्रासंगिक पुस्तक को पकड़ने की तलाश में है, तो उसे पूरी लाइब्रेरी को खोजने के बजाय केवल उस शेल्फ पर जाना होगा। इस प्रकार, क्लस्टरिंग तकनीक कक्षाओं को परिभाषित करती है और प्रत्येक वर्ग में वस्तुओं को रखती है, जबकि वर्गीकरण तकनीकों में, वस्तुओं को पूर्वनिर्धारित कक्षाओं में आवंटित किया जाता है।
- भविष्यवाणी - भविष्यवाणी एक डेटा खनन तकनीक है जिसे अक्सर अन्य डेटा खनन तकनीकों के संयोजन में उपयोग किया जाता है। इसमें रुझान, वर्गीकरण, पैटर्न मिलान और संबंध का विश्लेषण शामिल है। एक उचित अनुक्रम में पिछले घटनाओं या उदाहरणों का विश्लेषण करके कोई भविष्य की घटना की सुरक्षित भविष्यवाणी कर सकता है। उदाहरण के लिए, भविष्यवाणी लाभ की भविष्यवाणी करने के लिए पूर्वानुमान में पूर्वानुमान विश्लेषण तकनीक का उपयोग किया जा सकता है यदि बिक्री को एक स्वतंत्र चर के रूप में चुना जाता है और बिक्री पर परिवर्तनीय निर्भर के रूप में लाभ होता है। फिर, ऐतिहासिक बिक्री और लाभ डेटा के आधार पर, कोई एक उपयुक्त रिग्रेशन वक्र खींच सकता है जिसका लाभ लाभ पूर्वानुमान के लिए उपयोग किया जाता है।
- निर्णय के पेड़ - निर्णय पेड़ के भीतर, हम एक साधारण प्रश्न से शुरू करते हैं जिसमें कई उत्तरों हैं। प्रत्येक उत्तर डेटा को वर्गीकृत या पहचानने में सहायता के लिए एक और प्रश्न की ओर जाता है ताकि इसे वर्गीकृत किया जा सके, या ताकि प्रत्येक उत्तर के आधार पर भविष्यवाणी की जा सके। उदाहरण के लिए, हम यह निर्धारित करने के लिए निम्नलिखित निर्णय पेड़ का उपयोग करते हैं कि क्रिकेट ओडीआई खेलना है या नहीं: डेटा खनन निर्णय वृक्ष: रूट नोड से शुरू होने पर, मौसम पूर्वानुमान पूर्वानुमान बारिश की भविष्यवाणी करता है, तो हमें दिन के लिए मैच से बचना चाहिए। वैकल्पिक रूप से, यदि मौसम का पूर्वानुमान स्पष्ट है, तो हमें मैच खेलना चाहिए।
डेटा खनन संचार, बीमा, शिक्षा, विनिर्माण, बैंकिंग और खुदरा जैसे विभिन्न उद्योगों और विषयों में विश्लेषिकी प्रयासों के केंद्र में है। इसलिए, विभिन्न तकनीकों को लागू करने से पहले इसके बारे में सही जानकारी रखना आवश्यक है।