क्यों lstm लुप्त हो रहे ग्रेडिएंट को हल करता है?

विषयसूची:

क्यों lstm लुप्त हो रहे ग्रेडिएंट को हल करता है?
क्यों lstm लुप्त हो रहे ग्रेडिएंट को हल करता है?

वीडियो: क्यों lstm लुप्त हो रहे ग्रेडिएंट को हल करता है?

वीडियो: क्यों lstm लुप्त हो रहे ग्रेडिएंट को हल करता है?
वीडियो: आवर्ती तंत्रिका नेटवर्क LSTM और वैनिशिंग और एक्सप्लोडिंग ग्रेजुएट्स - मजेदार और आसान मशीन लर्निंग 2024, अक्टूबर
Anonim

LSTM एक अद्वितीय एडिटिव ग्रेडिएंट संरचना का उपयोग करके समस्या का समाधान करते हैं जिसमें गेट गेट की सक्रियता के लिए सीधी पहुंच शामिल है, नेटवर्क को बार-बार गेट अपडेट का उपयोग करके त्रुटि ग्रेडिएंट से वांछित व्यवहार को प्रोत्साहित करने में सक्षम बनाता है सीखने की प्रक्रिया के हर कदम पर।

LSTM विस्फोट प्रवणता को कैसे हल करता है?

एक बहुत ही संक्षिप्त उत्तर: LSTM सेल स्टेट (आमतौर पर c द्वारा निरूपित) और हिडन लेयर/आउटपुट (आमतौर पर h द्वारा निरूपित) को डिकूप करता है, और केवल c को एडिटिव अपडेट करता है, जो c में मेमोरी को अधिक स्थिर बनाता है। इस प्रकार ग्रेडिएंट सी के माध्यम से प्रवाहित होता है और गायब होना मुश्किल होता है (इसलिए समग्र ढाल गायब होना मुश्किल है)।

कैसे लुप्त हो रही ढाल की समस्या को हल किया जा सकता है?

समाधान: सबसे सरल उपाय है अन्य सक्रियण कार्यों का उपयोग करना, जैसे कि ReLU, जो एक छोटे से व्युत्पन्न का कारण नहीं बनता है। अवशिष्ट नेटवर्क एक और समाधान है, क्योंकि वे सीधे पिछली परतों के लिए अवशिष्ट कनेक्शन प्रदान करते हैं।

LSTM किस समस्या का समाधान करता है?

एलएसटीएम। LSTM (लॉन्ग शॉर्ट-टर्म मेमोरी के लिए छोटा) मुख्य रूप से बैकप्रॉपैगैशन में लुप्त होने वाली ग्रेडिएंट समस्या को हल करता है। LSTM एक गेटिंग तंत्र का उपयोग करते हैं जो संस्मरण प्रक्रिया को नियंत्रित करता है। LSTM में जानकारी को खुले और बंद होने वाले गेटों के माध्यम से संग्रहीत, लिखा या पढ़ा जा सकता है।

क्यों LSTM आपके ग्रेडिएंट्स को बैकवर्ड पास से दृश्य गायब होने से रोकते हैं?

इसका कारण यह है कि, इस निरंतर त्रुटि प्रवाह को लागू करने के लिए, ढाल गणना को छोटा कर दिया गया था ताकि इनपुट या उम्मीदवार द्वार पर वापस प्रवाह न हो।

सिफारिश की: