डेटा सेट पर आउटलेर्स के सबसे सामान्य कारण: मापन त्रुटियां (साधन त्रुटियां) प्रायोगिक त्रुटियां (डेटा निष्कर्षण या प्रयोग योजना / निष्पादन त्रुटियां) जानबूझकर (परीक्षण करने के लिए किए गए डमी आउटलेयर) पता लगाने के तरीके) डेटा प्रोसेसिंग त्रुटियां (डेटा हेरफेर या डेटा सेट अनपेक्षित म्यूटेशन)
बाहरी होने का संभावित कारण क्या हो सकता है?
आउटलेयर के तीन कारण हैं - डेटा प्रविष्टि/एक प्रयोग माप त्रुटियां, नमूना समस्याएं, और प्राकृतिक भिन्नता। डेटा का प्रयोग/दर्ज करते समय त्रुटि हो सकती है। डेटा प्रविष्टि के दौरान, एक टाइपो गलती से गलत मान टाइप कर सकता है।
बाहरी लोगों से सबसे अधिक कौन प्रभावित होता है?
मीन, माध्यिका और बहुलक केंद्रीय प्रवृत्ति के माप हैं। माध्य केंद्रीय प्रवृत्ति का एकमात्र माप है जो हमेशा एक बाहरी से प्रभावित होता है। माध्य, औसत, केंद्रीय प्रवृत्ति का सबसे लोकप्रिय माप है।
क्या बाहरी लोगों द्वारा सीमा सबसे अधिक प्रभावित होती है?
अतः यदि हमारे पास {52, 54, 56, 58, 60} का समुच्चय है, तो हमें r=60−52=8 प्राप्त होता है, इसलिए परास 8 है। अब हम जो जानते हैं उसे देखते हुए, यह सही है कहते हैं कि एक बाहरी दौड़ जी ई को सबसे अधिक प्रभावित करेगा।
क्या आउटलेर्स को डेटा से हटा देना चाहिए?
आउटलेर्स को हटाना केवल विशिष्ट कारणों से वैध है आउटलेर्स विषय-क्षेत्र और डेटा संग्रह प्रक्रिया के बारे में बहुत जानकारीपूर्ण हो सकते हैं। … आउटलेयर आपके डेटा में परिवर्तनशीलता को बढ़ाते हैं, जिससे सांख्यिकीय शक्ति घट जाती है। नतीजतन, आउटलेर्स को बाहर करने से आपके परिणाम सांख्यिकीय रूप से महत्वपूर्ण हो सकते हैं।