डेटा विज्ञान के लिए परिचय (Introduction to data science in Hindi)

पर Admin द्वारा प्रकाशित

सरलता से कहा गया है, डेटा विज्ञान में विभिन्न तरीकों का उपयोग करके आपके द्वारा इकट्ठा किए गए डेटा से ज्ञान निकालना शामिल है। एक डेटा वैज्ञानिक के रूप में, आप एक जटिल व्यावसायिक समस्या लेते हैं, उससे अनुसंधान संकलित करते हैं, इसे डेटा में बनाते हैं, फिर समस्या को हल करने के लिए उस डेटा का उपयोग करते हैं। सुंदर निफ्टी, हुह? आपको बस एक व्यवसाय के डोमेन की स्पष्ट, गहरी समझ और बहुत सारी रचनात्मकता चाहिए – जो, निस्संदेह, आपके पास है। डेटा विज्ञान में रुचि का एक महत्वपूर्ण क्षेत्र धोखाधड़ी, विशेष रूप से इंटरनेट धोखाधड़ी की चिंता करता है। यहां, डेटा वैज्ञानिक धोखाधड़ी का पता लगाने और उन्हें अपने कौशल का उपयोग करने से रोकने के लिए एल्गोरिदम बनाते हैं। आप इस लेख में डेटा विज्ञान के बारे में बहुत कुछ सीखेंगे, जिसमें डेटा वैज्ञानिकों के लिए करियर क्षेत्र, वास्तविक-विश्व डेटा विज्ञान अनुप्रयोग और डेटा विज्ञान में कैसे आरंभ किया जा सकता है।

डेटा साइंटिस्ट क्या करता है? (What Does a Data Scientist do in Hindi?)

डेटा वैज्ञानिक विभिन्न क्षेत्रों में काम करते हैं। प्रत्येक समस्याओं के समाधान खोजने के लिए महत्वपूर्ण है और विशिष्ट ज्ञान की आवश्यकता है। इन क्षेत्रों में डेटा अधिग्रहण, तैयारी, खनन और मॉडलिंग, और मॉडल रखरखाव शामिल हैं। डेटा वैज्ञानिक कच्चे डेटा को लेते हैं, इसे मशीन लर्निंग एल्गोरिदम की मदद से सूचनाओं की एक सुनहरी में बदल देते हैं जो व्यवसायों के लिए उनके सवालों के समाधान के लिए सवालों के जवाब देते हैं। प्रत्येक क्षेत्र को निम्नानुसार परिभाषित किया जा सकता है:

आंकड़ा अधिग्रहण (Data Acquisition in Hindi)

यहां, डेटा वैज्ञानिक अपने सभी कच्चे स्रोतों, जैसे डेटाबेस और फ्लैट-फाइलों से डेटा लेते हैं। फिर, वे इसे एक समरूप प्रारूप में एकीकृत और रूपांतरित करते हैं, जिसे “डेटा वेयरहाउस” के रूप में जाना जाता है, इसे एकत्रित करते हुए एक सिस्टम जिसके द्वारा डेटा का उपयोग आसानी से जानकारी निकालने के लिए किया जा सकता है। ईटीएल के रूप में भी जाना जाता है, यह कदम कुछ उपकरणों के साथ किया जा सकता है, जैसे कि टैलेंड स्टूडियो, डेटास्टेज और इंफॉर्मेटिका।

डेटा तैयारी (Data Preparation in Hindi)

यह सबसे महत्वपूर्ण चरण है, जिसमें डेटा वैज्ञानिक का 60 प्रतिशत समय व्यतीत होता है क्योंकि अक्सर डेटा “गंदा” या उपयोग के लिए अयोग्य होता है और इसे स्केलेबल, उत्पादक और सार्थक होना चाहिए। वास्तव में, पाँच उप-चरण यहाँ मौजूद हैं:

  • डेटा की सफाई (Data Cleaning): महत्वपूर्ण क्योंकि खराब डेटा खराब मॉडल का कारण बन सकता है, यह चरण लापता मान और शून्य या शून्य मान को संभालता है जिसके कारण मॉडल विफल हो सकता है। अंततः, यह व्यावसायिक निर्णयों और उत्पादकता में सुधार करता है।
  • डेटा परिवर्तन (Data Transformation): कच्चे डेटा को लेता है और इसे सामान्य करके वांछित आउटपुट में बदल देता है। इस चरण का उपयोग कर सकते हैं, उदाहरण के लिए, न्यूनतम-अधिकतम सामान्यीकरण या जेड-स्कोर सामान्यीकरण।
  • आउटलेयर्स को हैंडल करना (Handling Outliers): यह तब होता है जब कुछ डेटा बाकी डेटा के दायरे से बाहर हो जाते हैं। खोजपूर्ण विश्लेषण का उपयोग करते हुए, एक डेटा वैज्ञानिक जल्दी से भूखंड और ग्राफ़ का उपयोग करता है यह निर्धारित करने के लिए कि आउटलेयर के साथ क्या करें और देखें कि वे वहां क्यों हैं। अक्सर, आउटलेयर का उपयोग धोखाधड़ी का पता लगाने के लिए किया जाता है।
  • डेटा इंटीग्रेशन (Data Integration): यहां, डेटा वैज्ञानिक यह सुनिश्चित करता है कि डेटा सटीक और विश्वसनीय है।
  • डेटा रिडक्शन (Data Reduction): यह डेटा के कई स्रोतों को एक में संकलित करता है, भंडारण क्षमताओं को बढ़ाता है, लागत को कम करता है और डुप्लिकेट, अनावश्यक डेटा को समाप्त करता है।

डेटा माइनिंग (Data Mining in Hindi)

यहां, डेटा वैज्ञानिक बेहतर व्यावसायिक निर्णय लेने के लिए डेटा पैटर्न और रिश्तों को उजागर करते हैं। छिपी और उपयोगी ज्ञान प्राप्त करने के लिए यह एक खोज प्रक्रिया है, जिसे आमतौर पर खोजपूर्ण डेटा विश्लेषण के रूप में जाना जाता है। डेटा खनन भविष्य के रुझानों की भविष्यवाणी करने, ग्राहक पैटर्न को पहचानने, निर्णय लेने में मदद करने, धोखाधड़ी का जल्द पता लगाने और सही एल्गोरिदम चुनने के लिए उपयोगी है। झांकी डेटा खनन के लिए अच्छी तरह से काम करती है।

प्रतिरूप निर्माण (Model Building in Hindi)

यह सरल डेटा खनन से आगे बढ़ता है और मशीन लर्निंग मॉडल बनाने की आवश्यकता होती है। मॉडल एक मशीन लर्निंग एल्गोरिदम का चयन करके बनाया गया है जो डेटा, समस्या कथन और उपलब्ध संसाधनों के अनुकूल है। मशीन लर्निंग एल्गोरिदम दो प्रकार के होते हैं: पर्यवेक्षण और अनसुना:

देखरेख (Supervised in Hindi)

जब डेटा लेबल किया जाता है तो सुपरवाइज्ड लर्निंग एल्गोरिदम का उपयोग किया जाता है। दो प्रकार हैं:

प्रतिगमन (Regression): जब आपको निरंतर मूल्यों की भविष्यवाणी करने की आवश्यकता होती है और चर रैखिक रूप से निर्भर होते हैं, तो उपयोग किए जाने वाले एल्गोरिदम रैखिक और कई प्रतिगमन होते हैं, निर्णय जल और निष्क्रिय वन
वर्गीकरण (Classification): जब आपको श्रेणीबद्ध मूल्यों की भविष्यवाणी करने की आवश्यकता होती है, तो उपयोग किए जाने वाले कुछ वर्गीकरण एल्गोरिदम KNN, लॉजिस्टिक रिग्रेशन, SVM और Na SVve-Bayes हैं
के चलते किसी
जब डेटा अनलेब किया जाता है, तो अनसुर्विलाइज्ड लर्निंग एल्गोरिदम का उपयोग किया जाता है। दो प्रकार हैं:

क्लस्टरिंग (Clustering): यह उन वस्तुओं को विभाजित करने की विधि है जो उनके बीच समान हैं और दूसरों के लिए भिन्न हैं। के-मीन्स और पीसीए क्लस्टरिंग एल्गोरिदम आमतौर पर उपयोग किए जाते हैं।
एसोसिएशन-नियम विश्लेषण (Association-rule analysis): इसका उपयोग चर, अप्रीरी और हिडन मार्कोव मॉडल एल्गोरिथ्म के बीच दिलचस्प संबंधों की खोज के लिए किया जाता है
मॉडल रखरखाव (Model Maintenance): डेटा इकट्ठा करने और खनन और मॉडल निर्माण करने के बाद, डेटा वैज्ञानिकों को मॉडल की सटीकता को बनाए रखना चाहिए। इस प्रकार, वे निम्नलिखित कदम उठाते हैं:

आकलन करें (Assess): यह सुनिश्चित करने के लिए कि कभी-कभी यह सटीक रहता है, डेटा के माध्यम से एक नमूना चलाना
रिट्रेन (Retrain): जब पुनर्मूल्यांकन के परिणाम सही नहीं हैं, तो डेटा वैज्ञानिक को फिर से सही परिणाम प्रदान करने के लिए एल्गोरिथ्म को फिर से लिखना होगा
पुनर्निर्माण (Rebuild): यदि मुकरना विफल हो जाता है, तो पुनर्निर्माण होना चाहिए।
जैसा कि आप देख सकते हैं, डेटा विज्ञान निरंतर, उत्कृष्ट परिणाम प्राप्त करने के लिए बड़े पैमाने पर प्रयास करते हुए विभिन्न चरणों की एक जटिल प्रक्रिया है। अब जब आप समझते हैं कि एक डेटा वैज्ञानिक क्या करता है, तो काम पर डेटा विज्ञान के कुछ उदाहरण देखें।

एक्शन में डेटा साइंस: दो उदाहरण

डेटा विज्ञान समस्याओं को हल करने में मदद करने के लिए अपने कच्चे डेटा का उपयोग करता है। इन दो मामलों में से प्रत्येक में, डेटा ने लोगों को परेशान करने वाले एक प्रश्न को हल करने में मदद की – पहले, एक बैंक को यह समझने की आवश्यकता थी कि ग्राहक क्यों जा रहे थे, यह उदाहरण टैब्लेउ का उपयोग करके डेटा खनन पर केंद्रित है। दूसरे में, जिज्ञासा मौजूद थी कि किन देशों में सबसे अधिक खुशी की दर थी, यह उदाहरण मॉडल निर्माण पर केंद्रित है। डेटा विज्ञान के बिना, उत्तर नहीं मिले।

उदाहरण एक: बैंक में ग्राहक की बाहर निकलने की दर

यहां, एक बैंक पायथन का उपयोग करके डेटा की थोड़ी सफाई कर रहा है। ग्राहक एक CSV फ़ाइल लोड करता है और भूगोल क्षेत्र जैसे कुछ सबसेट में गुम मानों की खोज करता है। इस मामले में, डेटा वैज्ञानिक को डेटा सेट को समाप्‍त करने के लिए कुछ के साथ खाली मान भरने की जरूरत होती है, इसलिए ऐसा करने के लिए कोड का एक टुकड़ा लिखकर डेटा को “माध्य” स्‍कोर से भरा जाता है। अन्यथा, सांख्यिकीय डेटा काम नहीं करेगा।

डेटा गायब होने पर एक डेटा साइंटिस्ट अन्य कदम उठा सकता है। उदाहरण के लिए, कोई भी पूरी पंक्ति को छोड़ सकता है – लेकिन वह काफी कठोर है और अध्ययन के परिणामों को तिरछा कर सकता है। यदि सभी कॉलम खाली हैं, हालांकि, कोई उन्हें छोड़ सकता है। इसके अलावा, जब 10 से 20 पंक्तियां मौजूद होती हैं, और पांच से सात रिक्त होते हैं, तो कोई भी इस चिंता के बिना पांच से सात को गिरा सकता है कि परिणाम बहुत बदल जाएंगे।

डेटा साफ होने के बाद, डेटा वैज्ञानिक डेटा माइनिंग के लिए डेटा का उपयोग करने के लिए तैयार है। अब, डेटा वैज्ञानिक लिंग, क्रेडिट कार्ड होल्डिंग और भूगोल के आधार पर बैंक के ग्राहकों की निकास दर को देखने के लिए झांकी का उपयोग करता है, यह देखने के लिए कि क्या ये उस दर को प्रभावित कर रहे हैं।

झांकी डेटा का विश्लेषण करने के लिए एक ड्रैग-एंड-ड्रॉप सिस्टम का उपयोग करती है, इसलिए, पहले लिंग का विश्लेषण करने के लिए, डेटा वैज्ञानिक “निकास” को झांकी के “आयाम” खंड और “लिंग” को अपने “उपाय” अनुभाग में रखता है। यह दो कॉलम बनाता है, एक पुरुष के लिए और एक महिला के लिए, और दो मान, 0 उन लोगों के लिए जो मौजूद नहीं हैं, और एक उन लोगों के लिए जो किया। फिर, एक बार ग्राफ मानों के प्रतिशत को दर्शाता है। डेटा से महिलाओं और पुरुषों के बीच अंतर का पता चलता है।

क्रेडिट कार्ड के लिए भी ऐसा करने से कोई प्रभाव नहीं पड़ता है, लेकिन भूगोल भी प्रभाव दिखाता है। नतीजतन, अध्ययन से पता चलता है कि बैंक को अपने ग्राहकों के लिंग और स्थान पर विचार करना चाहिए जब विश्लेषण करते हैं कि यह कैसे उन्हें बेहतर बनाए रख सकता है। डेटा विज्ञान के लिए धन्यवाद, फिर, बैंक ग्राहक व्यवहार के बारे में महत्वपूर्ण जानकारी सीखता है।

उदाहरण दो: विश्व सुख की भविष्यवाणी करना

विश्व सुख की भविष्यवाणी करना एक असंभव लक्ष्य जैसा लगता है, नहीं? डेटा विज्ञान के लिए धन्यवाद, यह नहीं है! बल्कि, कई रैखिक प्रतिगमन मॉडल भवन का उपयोग करते हुए, इसका आकलन करना संभव है। आइए देखते हैं कैसे।

ऐसा करने के लिए, पहले एक मान लिखना चाहिए। इस मामले में, वे खुशी रैंक, खुशी मूल्य, देश, क्षेत्र, अर्थव्यवस्था, परिवार, स्वास्थ्य, स्वतंत्रता, विश्वास, उदारता और डायस्टोपियन अवशिष्ट हैं। सभी का उपयोग करने की आवश्यकता नहीं है, लेकिन कुछ को मॉडल बनाने और प्रशिक्षित करने के लिए होना चाहिए।

पाइथन का उपयोग करते हुए, डेटा साइंटिस्ट पुस्तकालयों जैसे पंडों, न्यूमिज़ और स्केलेरन्स का आयात करते हैं। डेटा को वर्ष 2015, 2016 और 2017 से CSV फ़ाइलों के रूप में आयात किया गया है। इसके बाद, वैज्ञानिक तीन डेटा को संक्षिप्त कर सकते हैं या प्रत्येक CSV के लिए एक मॉडल बना सकते हैं। अंत में, head() शीर्ष देशों को उच्चतम खुशी स्कोर के साथ दिखाता है।

पायथन में प्लॉट और ग्राफ दिखाई देते हैं कि कौन से देश सबसे खुश हैं और कौन से कम खुश हैं। एक स्कैप्लेटोट खुशी रैंक और खुशी स्कोर के बीच संबंध दर्शाता है; इसके विपरीत सहसंबद्ध है। अधिक भूखंड बताते हैं कि वे एक ही संदेश देते हैं, इसलिए खुशी रैंक स्कोर को गिराया जा सकता है।

जैसे-जैसे डेटा प्रसंस्करण समाप्त होता है, देश के नाम को हटाना और विश्व खुशी का निर्धारण करने वाले सबसे महत्वपूर्ण कारकों को प्लॉट करना संभव है। शीर्ष एक, जैसा कि आप कल्पना कर सकते हैं, खुशी का स्कोर है। विश्लेषण से, दूसरा सबसे महत्वपूर्ण तत्व अर्थव्यवस्था है, फिर परिवार और स्वास्थ्य। पायथन के कई रैखिक प्रतिगमन मॉडल निर्माण के अत्यधिक विस्तृत कामकाज के लिए धन्यवाद, अब हम विश्व खुशी की भविष्यवाणी कर सकते हैं!

जैसा कि हमने दिखाया है, तब, डेटा विज्ञान, डेटा के उच्चतम ध्वनि विश्लेषण को प्राप्त करने में भी मदद कर सकता है।



0 टिप्पणियाँ

Leave a Reply