डियर स्टूडेंट्स वेलकम टू गट्स मेजर्स आज की इस वीडियो में एक्सप्लेन करने जा रहा हूं hdfs-site.xml इसका रोल है जो बिग डाटा की हम लोग बात करते हैं कि हमारे पास ह्यूज अमाउंट ऑफ डाटा लार्ज अमाउंट ऑफ डटा है उसको स्टोर कैसे करना है उसको स्टोर करने का तरीका जो है वो एडीएफएस हमें बताता है क्योंकि जब भी हम डाटा प्रोसेसिंग की बात करते हैं तो दो चीजें बड़ी इंपॉर्टेंट है दो बड़े चैलेंज आते हैं सबसे पहला चैलेंज आता है कि डेटा को किस तरीके से स्टोर करना है क्योंकि हमारे पास ह्यूज अमाउंट ऑफ डेटा
तो उसको स्टोर करना एक अपने आप में चैलेंज है अब जब स्टोर कर दिया तो फिर उसको प्रोसेस कैसे करना है ताकि उसमें से हम कुछ इंपॉर्टेंट इंफॉर्मेशन निकाल सकें तो जो प्रोसेसिंग वाला पार्ट है वो मैप रिड्यूस देखता है और जो स्टोरेज वाला पार्ट है कि कैसे एफिशिएंट तरीके से स्टोर किया जाए तो वो एक्चुअल में एचडीएफएस है तो इट इज अ वेरी रोबट यू कैन से फाइल सिस्टम और ये बेस्ड है आपका ट्रेडिशनल फाइल सिस्टम के ऊपर ही मतलब जो फाइल सिस्टम हम नॉर्मली यूज करते हैं जैसे डायरेक्ट्रीएंट्री के अंदर फाइल्स बनाते हैं
वही रेर कल जो आर्किटेक्चर है वही यहां पे एडीएफएस में यूज़ किया हुआ है लेकिन आप कह सकते हो कि वो डिजाइन किए हैं जैसे विज में हम एटीएफएस यूज़ करते हैं या एनएफएस यूज़ करते हैं वो एक्चुअल में क्या है स्मॉल डाटा एक लिमिटेड अमाउंट ऑफ डाटा के लिए डिजाइन किया है बट ये ह्यूज अमाउंट ऑफ डाटा के लिए डिजाइन किया है अब सबसे पहले बात करते हैं इसके स्ट्रक्चर के बारे में तो जो आपका एडीएफएस है उसके स्ट्रक्चर में ये हमारा क्या है एडीएफएस क्लाइंट ये कह सकते हो कि क्लाइंट है जिसको डाटा
डालना है डाटा निकालना है वो सारी चीजें जो डटा को रीड करेगा डाटा को राइट करेगा लेकिन अगर हम बात करें एडीएफएस के स्ट्रक्चर की तो यहां पे दो मेन कंपोनेंट्स आते हैं सबसे पहला कंपोनेंट आता है नेम नोड नेम नोड इसको नोट कर लेना इट इज अ नेम नोड आप इसको बॉस भी कह सकते हो आप इसको मास्टर नोड भी कह सकते हो ठीक है ये बॉस है यहां का दैट इज अ नेम नोड और फिर हमारे पास आते हैं एंप्लॉयज जैसे एंप्लॉयज होते हैं कंपनीज में जो बॉस के नीचे काम करते हैं यहां
पे क्या है वो डटा नोड्स जहां पे एक्चुअल में डेटा स्टोर किया जाता है जैसे हम कहते हैं ना कि मेरे पास लेट्स से कोई डटा है उस डेटा को मुझे स्टोर करना है उसके अंदर फाइल कोई भी आप कह सकते हो टेक्स्ट डाटा है इमेजेस है वीडियोस है जो एक्चुअल में डाटा स्टोर होगा वो यहां पे होगा इन सर्वर्स पे होगा लेकिन जो डाटा स्टोर करेगा कैसे करना है कौन सा डाटा कहां पे जाएगा वो सारी चीजें आपका नेम नोड और बड़ी इंपॉर्टेंट चीज यहां पे कि कईयों के दिमाग में आता है सर इसके
लिए क्योंकि ये नई चीज है है तो हो सकता है हमें नए डिवाइसेज पड़ी हो हमें नए हार्डवेयर्स नए डिवाइसेटी बात है कि जो कमोडिटी जो ऑलरेडी एजिस्टिफाई फाइल आती है लेट्स से कोई फाइल है मेरे पास 520 520 एब की फाइल है ठीक है अब 520 एब की फाइल को ये करेगा क्या ये उसको डायरेक्टली स्टोर नहीं करेगा उसको डिवाइड करते हैं जैसे हम नॉर्मली भी फाइल को डिवाइड करके ही स्टोर करते हैं चाहे आप नॉर्मल अपने लैपटॉप में विंडोज की बात कर लो 8 केब क्योंकि उसमें हम लिमिटेड अमाउंट ऑफ डाटा की बात
करते हैं यहां पे ह्यूज अमाउंट ऑफ डेटा है तो अपने आप में फाइल का जो पार्टीशन हो रही है सबसे छोटा ब्लॉक जिसको आप बोल सकते हो एक ब्लॉक का साइज कितना होगा 128 एब तो लेट्स से अगर मेरे पास फाइल है 520 एब की तो आप कह सकते हो कि 128 का एक हो गया 128 का दूसरा 128 का तीसरा 128 का चौथा ठीक है तो ये चार जो है वो कितने हो गए 512 अब बाद में कितने बचे बाद में आपके आठ और बचे तो 8 एब नेक्स्ट वाले में आ जाएंगे तो यानी
पहला जो 128 एब का ब्लॉक आएगा वो मैं इस डाटा नोड में स्टोर कर दूंगा तभी तो बोल र है ना डिस्ट्रीब्यूटर एडीएफएस इज डिस्ट्रीब्यूटर एक जगह पे नहीं आप सारा का सारा 520 यहां पे भी स्टोर कर सकते हो लेकिन यहां पे स्टोर नहीं करना इट इज अ डिस्ट्रीब्यूटर ताकि मेरे को प्रोसेसिंग के टाइम पे मैं पैरेलली एक्सेस कर सकूं एक ही जगह पे स्टोर करूंगा तो उसके ऊपर पूरा का पूरा बर्डन आ जाएगा तो 128 का यहां 128 का यहां 128 का यहां 128 का यहां और लास्ट का जो 8 एब है वो
यहां तो इस तरीके से डिस्ट्री डिस्ट्रीब्यूटर वे में डाटा को स्टोर करता है अब पता कैसे लगेगा यूजर ने बोला कि मेरे को फाइल को रीड करना है मुझे किसी पर्टिकुलर ब्लॉक को रीड करना है तो मेरे को क्या पता कि मैंने यहां रखी थी यहां रखी थी किस जगह पे रखी थी तो उसका होता है मेटा डाटा हर एक फाइल का एक मेटा डाटा होता है मतलब उस फाइल से रिलेटेड इंफॉर्मेशन कि फाइल का नेम क्या है फाइल के ऊपर परमिश क्या है आपने किस डटा नोड पे रखा उसके कितने रेप्ट शंस बनाए मतलब
उस डाटा से रिलेटेड जो इंफॉर्मेशन है वो नेम नोड में स्टोर की जाती है तो यहां पे क्या होता है फाइल सिस्टम का नेम स्पेस नेम स्पेस जहां पे फाइल से रिलेटेड सारा मेटा डाटा जो है वो स्टोर किया जाता है कि फाइल का नेम साइज परमिश कितने आपने एप्लीकेशंस बनाए कितना आपने रक कौन सी जगह कहां पे रखी वो सारी चीजें आपकी यहां पे स्टोर रहती है तो ये एक्चुअल में स्ट्रक्चर इस तरीके से काम करता है अब नेक्स्ट यहां पे कांसेप्ट आता है रेप्स का मतलब हम यहां पे एचडीएफएस में लेट्स से मेरा
एक ब्लॉक है 128 का तो उस ब्लॉक को मैंने यहां पे स्टोर कर दिया ठीक है ए उसका नाम रख दिया लेट्स से मैंने यहां पे स्टोर कर दिया क्या मेरा काम खत्म नहीं एचडीएफएस कहता है आई वर्क ऑन द रेप्स फैक्टर रेप्ट केशन मतलब कि मैं इस पूरे एक ब्लॉक को एक जगह पे स्टोर नहीं करूंगा उसका सेम कॉपी किसी दूसरी जगह पे भी स्टोर किया जाएगा मतलब मतलब डेटा एक ही है डेटा सेम ही है सेम डेटा को मैंने तीन जगह पे कॉपी कर दिया ऐसे ही दूसरा ब्लॉक उठाया उसको भी मैंने यहां
पे स्टोर कर दिया उसको मैंने यहां पे भी स्टोर कर दिया उसको मैंने यहां पे भी स्टोर कर दिया तो बाय डिफॉल्ट रेप्ट केशन फैक्टर होता है तीन मतलब एक ब्लॉक को तीन जगह पे स्टोर किया जाता है इससे मिला क्या इससे मिला फॉल्ट टॉलरेंस फॉल्ट टॉलरेंस मतलब इफ वन ऑफ द डेटा नोड इज डाउन तो मेरे को डेटा कैसे मिलेगा क्लाइंट तो वेट करता रह जाएगा कब मेरे को डाटा मिले कब नहीं हमें डाटा को 24 * 7 फास्ट वे से एक्सेस करवाना है स्पीड चाहिए तो मैं वहां पे ठीक है ये डाउन है
तो यहां से डाटा दिलवा दो अब पता कैसे लगा कि यहां पे और यहां पे स्टोर है पता कैसे लगा कि मेरा डाटा यहां भी था और वही डाटा यहां था नेम नोड बताएगा तो यही नेम नोड की कहानी है इसीलिए इसको हम बॉस बोल रहे हैं मास्टर बोल रहे हैं ठीक है तो ये आपका रेप्ट केशन ताकि फॉल्ट टोलरेंस मेरे को मिल जाए तो इस तरीके से जो है ये वर्क करता है देन एक इसमें कांसेप्ट और आता है रैक अवेयरनेस का रैक अवेयरनेस अब ये रैक अवेयरनेस का कांसेप्ट क्या है अब हमारे पास
एक दो डेटा नोड तो है नहीं हमारे पास हजारों में डेटा नोड्स क्योंकि हम बहुत बड़े अमाउंट ऑफ डाटा को स्टोर कर रहे हैं जैसे google3 नोड्स है तो उनका मैंने एक रैक बना दिया ठीक है जैसे यहां पे आपको इस डायग्राम से और ज्यादा क्लेरिटी होगी रैक मींस रैक आपका एक तरह से ये हो गया रैक आपका एक तरह से ये हो गया जैसे ये रैक है जैसे हम घरों में रखते हैं ना रैक तो वो रैक जैसे मैंने पहला ब्लॉक इस रैक में रख दिया अब उसी की कॉपी मैं दोबारा इसमें नहीं रखूंगा
उसकी कॉपी मैं किसी और रैक में रखूंगा ताकि एक रैक में सेम टाइप ऑफ डाटा ना आए क्योंकि अगर रैक के अंदर प्रॉब्लम आ गई तो सारा डाटा ही लॉस हो जाएगा सारे डाटा को एक्सेस नहीं कर पाएंगे तो मैंने एक ब्लॉक यहां पे रख दिया एक ब्लॉक दूसरा मैंने यहां पे दूसरे ब्लॉक का तीसरे यहां पे रख दिया नेक्स्ट यहां पे रख दिया नेक्स्ट य अब a का जो दूसरा कॉपी है वो किसी दूसरे दसरे रैक में रख देंगे और जो तीसरी कॉपी है वो एक और किसी रिमोट एरिया में और यहां पे हम
लोग करते क्या है जो एक कॉपी है वो हम लोकली डेटा को प्रेजेंट करके रखते हैं लोकल का मतलब क्या है कि हम राद देन कि बार-बार डाटा को एक्सेस करना है मैं रिमोट जगह पे जाके एक्सेस करूं नहीं मैं लोकली उस डाटा को रखता हूं और जब भी यूजर बोलेगा कि मेरे को डटा चाहिए तो पता है एचडीएफएस क्या करेगा वो उस नियरेस्ट रैक का आप कह सकते हो एड्रेस दे देगा उस नियरेस्ट रैक का या नियरेस्ट डटा नोड का आईपी एड्रेस दे देगा ताकि आपको बहुत ज्यादा ट्रेवल ना करना पड़े डाटा को बहुत
ज्यादा ट्रेवल ना करना पड़े देखो सिंपल स एग्जांपल है लेट्स से मैं चंडीगढ़ में रहता हूं मैंने royalenfield.com फर्ड वालों ने क्या किया बना वहां पे रहे हैं लेकिन उन्होंने चंडीगढ़ मुंबई दिल्ली सब जगह आपने आउटलेट्स बना दिए आप जाओ चंडीगढ़ वाले में वहां पे आपने बुक किया मिल गया आपको तुरंत तो डाटा आपने लोकली रखा हुआ है राद देन उसको रिमोट हां जो कॉपीज है वो आप रिमोट रखो ताकि अगर लोकल में कोई प्रॉब्लम आ जाए तो हमारे पास रिमोट में जगह हो तो ये एक्चुअल में कहानी जो है वो इस तरीके से काम
करती है देन हमारे पास आ गया नेम नोड का फंक्शन अब नेम नोड में हमारे पास जो है वो दो चीजें होती है एक होती है एफएस इमेज और एक होती है एडिट लॉग एफएस इमेज क्या है जो मेरा पूरा फाइल सिस्टम है उसकी आप कह सकते हो इमेज अब ये पूरा फाइल सिस्टम है इसकी एक इमेज जो है इमेज मतलब कौन सी फाइल किस फाइल में पड़ी कौन सी डायरेक्ट्रीएंट्री वो आप प्राइमरी फाइल कह सकते हो और उसके साथ ही एक होती है एडिट लॉग अब ये एडिड लॉ क्या है आपने फाइल को डिलीट
कर दिया तो उसका एक लॉग बन जाएगा कि हां आपने कोई फाइल डिलीट की लोकेशन चेंज की पाथ चेंज किया वो सारी चीजें आपकी एडिट होती रहेंगी इस जगह पे तो ये एक्चुअल में पूरा का पूरा इस तरीके से वर्क करता है और साथ ही साथ एक यहां पे और पॉइंट बता दूं कि यहां पे एक और फंक्शनैलिटी जो है वो वर्क करती है दैट इज सेकेंडरी नेम नोड सेकेंडरी नेम नोड सेकेंडरी नेम नोड भी होता है यहां पे जैसे नेम नोड है और डेटा नोड है एक और तीसरा कंपोनेंट है सेकेंडरी नेम नोड सेकेंडरी
नेम नोड एक्चुअल में क्या है ना वो इसका पीए है वो बॉस है ना जो ये बॉस उसका एक पीए है जो भी आप चेंजेज कर रहे हो जो भी आप चेंजेज कर रहे हो उन चेंजेज को उठा के ना वो क्या करता रहता है वो फाइल जो इमेज है उसको अपडेट करता रहता है मतलब जो ये एफएस वाली फाइल है ना ये जो फाइल है एफएस वाली उसको अपडेट करता रहेगा इस वाली फाइल को ठीक है क्योंकि नेम नोड तो बिजी है नेम नोड तो बिजी है तो जैसे ही उसको टाइम मिलेगा वो इस
अपडेटेड फाइल को नेम नोड में सेव कर देगा तो सेकेंडरी नेम नोड क्या है एक पीए है जो सारी मीटिंग्स इन सबको शेड्यूल कर रहा है जो भी चेंजेज हो रहे हैं उनको रख रहा है और ये हमारा क्या है जो भी चेंजेज मैंने किए उन सारे चेंजेज को यहां पे स्टोर किया हुआ है उन सारे चेंजेज को उठा के एफएस इमेज फाइल को अपडेट कर दिया और उस फाइल को अपडेट करके उसने नेम नोड में डाल दिया ताकि नेम नोड जो है वो पूरी अपडेटेड रहे लेकिन ये काम करता कौन है सेकेंडरी नेम नोड
क्योंकि वो उसका पीए है उसका असिस्टेंट हेल्पर आप उसको बोल सकते हो तो इस तरीके से जो है वो पूरा का पूरा कहानी चलती है और यहां पे एक हर्ट बीट मैसेज भी इसका एक और रिस्पांसिबिलिटी है हर्ट बीट मैसेज को चेक करना मतलब डटा नोड जो है वो हर 3 सेकंड के बाद एक हर्ट बीट मैसेज जो है वो भेजता है नेम नोड को ताकि नेम नोड को पता लगे कि डेटा नोड मेरा प्रॉपर्ली चल रहा है वो लाइव है अगर 3 सेकंड के बाद नहीं आया किसी डेटा नोड से मैसेज तो वो एक
तरह से उसका रेप्स जो है वो चला देता ताकि डाटा जो है वो अवेलेबल रहे तो ये इस तरीके से जो है क्योंकि डिस्ट्रीब्यूटर है ना एक जगह पे डाटा नहीं पड़ा सारा डिस्ट्रीब्यूटर है तो डेटा नोड की फंक्शनैलिटी आपको मैंने बता दी अब यहां पे जब हमने रीड करना राइट करना है तो रीड राइट भी ओबवियसली आपको पता लग गया सारे के सारे किस तरीके से काम करेंगे रीड राइट करना है अगर लेट्स से मुझे रीड करना है डाटा डाटा को रीड कैसे करेंगे क्लाइंट ने बोला मुझे किसी पर्टिकुलर डाटा को रीड करना है
तो नेम नोड पे पहले उसकी परमिशन मिलेगी कि क्या रीड कर सकता है अगर रीड कर सकता है तो उस डाटा को हमने कहां पे स्टोर किया हुआ है तो मेटा डेटा से चेक करके हम पता लगा लेंगे कहां पे स्टोर किया हुआ है लेट्स से वो यहां पे स्टोर है तो उसका एड्रेस जो है वो क्लाइंट को दे देंगे क्लाइंट डायरेक्टली डाटा नोड को एक्सेस नहीं करेगा नेम नोड के थ्रू ही एक्सेस करेगा और फिर हम उसको जो डाटा है वो उसको रीड करवा देंगे राइट के केस में थोड़ी सी प्रॉब्लम है राइट आप
एक बार कर रहे हो बट रीड मेनी टाइम कर सकते हो कोई दिक्कत नहीं है राइट में क्या दिक्कत है कि आप डेटा में चेंज कर रहे हो अब देखो आप क्लाइंट ने बोला मुझे डेटा में चेंज करना है x की वैल्यू लेट्स से 100 थी उसको 200 करना है अब दिक्कत पता है क्या है वो यहां पे भी होगी उसकी एक कॉपी यहां पड़ी है यहां पे भी होगी और उसकी एक कॉपी यहां पड़ी है यहां पे भी होगी तो राइट जो है वो आपको सब जगह पैरेलली करना पड़ेगा तो इस केस में राइट
जो है वह थोड़ा सा आप कह सकते हो एक्सपेंसिव है क्योंकि एक बार में नहीं आपको एक बार में तीनों जगह पे पैरेलली साइ मल्ट नियस ही अपडेट करना पड़ेगा सो दिस इज हाउ रीड एंड राइट इज एक्चुअली परफॉर्म्ड इन एचडीएफएस सो दिस इज फुल इंफॉर्मेशन अबाउट एचडीए थैंक यू