शब्द 'डेटा' हमारे लिए नया नहीं है। जब आप सूचना प्रौद्योगिकी और कंप्यूटर चुनते हैं तो यह प्राथमिक चीजों में से एक है। यदि आप याद कर सकते हैं, तो डेटा को जानकारी का कच्चा रूप माना जाता है। हालांकि पहले से ही एक दशक के लिए, शब्द बड़ा डाटा इन दिनों एक चर्चा है। शब्द, भार, और डेटा के भार से स्पष्ट, बिग डेटा है और इसे आवश्यक जानकारी प्राप्त करने के लिए विभिन्न विधियों और औजारों का उपयोग करके विभिन्न तरीकों से संसाधित किया जा सकता है। यह आलेख बिग डेटा की अवधारणाओं के बारे में बात करता है, जिसमें डेटा वेयरहाउसिंग के क्षेत्र में अग्रदूत डौग लेन द्वारा वर्णित 3 वी का उपयोग किया जाता है, जिसे माना जाता है कि इस क्षेत्र को शुरू किया गया है Infonomics (सूचना अर्थशास्त्र)।
बिग डेटा 3 बनाम
डेटा, अपने विशाल रूप में, विभिन्न माध्यमों के माध्यम से जमा किया गया था, पहले विभिन्न डेटाबेस में ठीक से दायर किया गया था और कुछ समय बाद उसे छोड़ दिया गया था। जब अवधारणा उभरी कि जितना अधिक डेटा, यह पता लगाना आसान है - अलग-अलग और प्रासंगिक जानकारी - सही टूल का उपयोग करके, कंपनियों ने लंबी अवधि के लिए डेटा संग्रह करना शुरू कर दिया। यह डेटा को खरीदे जाने वाले किसी भी रूप में डेटा स्टोर करने के लिए नए स्टोरेज डिवाइस जोड़ने या क्लाउड का उपयोग करने जैसा है: दस्तावेज़, स्प्रेडशीट्स, डेटाबेस, और एचटीएमएल इत्यादि। इसके बाद इसे बड़े प्रारूपों को संसाधित करने में सक्षम टूल का उपयोग करके उचित स्वरूपों में व्यवस्थित किया जाता है। डेटा।
ध्यान दें: बिग डेटा का दायरा आपके परिसर और क्लाउड में एकत्र और संग्रहीत डेटा तक ही सीमित नहीं है। इसमें विभिन्न अन्य स्रोतों से डेटा शामिल हो सकता है, जिसमें सार्वजनिक डोमेन में आइटम शामिल हैं लेकिन इतनी ही सीमित नहीं है।
बिग डेटा का 3 डी मॉडल निम्नलिखित वी पर आधारित है:
- वॉल्यूम: डेटा स्टोरेज के प्रबंधन को संदर्भित करता है
- वेग: डेटा प्रोसेसिंग की गति को संदर्भित करता है
- विविधता: अलग-अलग, प्रतीत होता है कि असंबंधित डेटा सेट के डेटा को समूहीकृत करने के लिए संदर्भित करता है
निम्नलिखित पैराग्राफ विवरण में प्रत्येक आयाम (प्रत्येक वी) के बारे में बात करके बिग डेटा मॉडलिंग की व्याख्या करते हैं।
ए] बिग डेटा की मात्रा
बिग डेटा के बारे में बात करते हुए, कोई व्यक्ति कच्चे माल के विशाल संग्रह के रूप में वॉल्यूम को समझ सकता है। हालांकि यह सच है, यह डेटा की संग्रहण लागत के बारे में भी है। महत्वपूर्ण डेटा परिसर के साथ-साथ क्लाउड पर भी संग्रहीत किया जा सकता है, बाद वाला लचीला विकल्प है। लेकिन क्या आपको प्रत्येक और सब कुछ स्टोर करने की ज़रूरत है?
मेटा ग्रुप द्वारा जारी किए गए एक श्वेतपत्र के अनुसार, जब डेटा की मात्रा बढ़ जाती है, तो डेटा के कुछ हिस्से अनावश्यक दिखने लगते हैं। इसके अलावा, यह बताता है कि केवल उस मात्रा की मात्रा को बनाए रखा जाना चाहिए जिसे व्यवसायों का उपयोग करना है। अन्य डेटा को त्याग दिया जा सकता है या यदि व्यवसाय "माना जाता है कि गैर-महत्वपूर्ण डेटा" जाने के लिए अनिच्छुक हैं, तो उन्हें अप्रयुक्त कंप्यूटर उपकरणों और यहां तक कि टेपों पर भी डाला जा सकता है ताकि व्यवसायों को ऐसे डेटा को संग्रहीत करने के लिए भुगतान नहीं करना पड़े।
मैंने "अनुमानित रूप से महत्वहीन डेटा" का उपयोग किया क्योंकि मुझे भी विश्वास है कि भविष्य में किसी भी व्यवसाय द्वारा किसी भी प्रकार के डेटा की आवश्यकता हो सकती है - जितनी जल्दी या बाद में - और इस प्रकार आपको यह जानने से पहले पर्याप्त समय के लिए रखा जाना चाहिए कि डेटा वास्तव में है गैर महत्वपूर्ण। व्यक्तिगत रूप से, मैं पुराने डेटा को पहले से ही डीवीडी पर और कभी-कभी डीवीडी पर हार्ड डिस्क पर डंप करता हूं। मुख्य कंप्यूटर और क्लाउड स्टोरेज में वह डेटा होता है जिसे मैं महत्वपूर्ण मानता हूं और जानता हूं कि मैं इसका उपयोग करूँगा। इस डेटा के बीच, उपयोग-एक बार ऐसा डेटा होता है जो कुछ वर्षों के बाद पुराने एचडीडी पर समाप्त हो सकता है। उपरोक्त उदाहरण सिर्फ आपकी समझ के लिए है। यह बिग डेटा के विवरण में फिट नहीं होगा क्योंकि एंटरप्राइजेज बिग डेटा के रूप में क्या समझता है इसकी तुलना में राशि काफी कम है।
बी ] बिग डेटा में वेग
बिग डेटा की अवधारणाओं के बारे में बात करते समय प्रोसेसिंग डेटा की गति एक महत्वपूर्ण कारक है। कई वेबसाइटें हैं, खासकर ई-कॉमर्स। Google ने पहले ही स्वीकार कर लिया था कि बेहतर रैंकिंग के लिए जिस पृष्ठ पर पेज लोड आवश्यक है। रैंकिंग के अलावा, जब भी वे खरीदारी करते हैं तो गति उपयोगकर्ताओं को भी सुविधा प्रदान करती है। अन्य जानकारी के लिए संसाधित डेटा के लिए भी लागू होता है।
वेग के बारे में बात करते समय, यह जानना आवश्यक है कि यह केवल उच्च बैंडविड्थ से परे है। यह विभिन्न विश्लेषण उपकरणों के साथ आसानी से उपयोग करने योग्य डेटा को जोड़ती है। आसानी से उपयोग करने योग्य डेटा का अर्थ डेटा के ढांचे को बनाने के लिए कुछ होमवर्क है जो प्रक्रिया में आसान है। अगला आयाम - विविधता, इस पर और प्रकाश फैलती है।
सी] बिग डेटा की विविधता
जब भार और डेटा लोड होता है, तो उन्हें व्यवस्थित करना महत्वपूर्ण हो जाता है कि विश्लेषण उपकरण डेटा को आसानी से संसाधित कर सकते हैं। डेटा व्यवस्थित करने के लिए उपकरण भी हैं। भंडारण करते समय, डेटा असंगठित और किसी भी रूप में किया जा सकता है। यह आपके ऊपर है कि यह पता लगाने के लिए कि आपके साथ अन्य डेटा के साथ क्या संबंध है। एक बार जब आप संबंध समझ लेंगे, तो आप उपयुक्त टूल चुन सकते हैं और डेटा को संरचित और सॉर्ट किए गए स्टोरेज के वांछित रूप में बदल सकते हैं।
सारांश
दूसरे शब्दों में, बिग डेटा का 3 डी मॉडल तीन आयामों पर आधारित है: यूएसएबीएल डेटा जो आपके पास है; डेटा की उचित टैगिंग; और तेजी से प्रसंस्करण। यदि इन तीनों की देखभाल की जाती है, तो जो भी आप चाहते हैं उसे जानने के लिए आपका डेटा आसानी से संसाधित या विश्लेषण किया जा सकता है।
उपरोक्त दोनों अवधारणाओं और बिग डेटा के 3 डी मॉडल को समझाता है। यदि आप अवधारणा के लिए नए हैं तो दूसरे पैरा में जुड़े लेख अतिरिक्त समर्थन साबित होंगे।
अगर आप कुछ भी जोड़ना चाहते हैं, तो कृपया टिप्पणी करें।