Logo hi.boatexistence.com

क्या टेक्स्ट डेटा के वर्गीकरण के लिए k- साधन का उपयोग किया जा सकता है?

विषयसूची:

क्या टेक्स्ट डेटा के वर्गीकरण के लिए k- साधन का उपयोग किया जा सकता है?
क्या टेक्स्ट डेटा के वर्गीकरण के लिए k- साधन का उपयोग किया जा सकता है?

वीडियो: क्या टेक्स्ट डेटा के वर्गीकरण के लिए k- साधन का उपयोग किया जा सकता है?

वीडियो: क्या टेक्स्ट डेटा के वर्गीकरण के लिए k- साधन का उपयोग किया जा सकता है?
वीडियो: ⚡ माइक्रोसॉफ्ट एक्सेल में Data Tab के Data tools ऑप्शन का उपयोग कैसे करते हैं ? 2024, मई
Anonim

टेक्स्ट माइनिंग में

K-मीन्स डेटा क्लस्टरिंग के लिए शास्त्रीय एल्गोरिथम है, लेकिन फीचर चयन के लिए इसका उपयोग शायद ही कभी किया जाता है। … हम प्रत्येक वर्ग के लिए कई क्लस्टर सेंट्रोइड्स को कैप्चर करने के लिए k-means पद्धति का उपयोग करते हैं, और फिर वर्गीकरण के लिए टेक्स्ट सुविधाओं के रूप में सेंट्रोइड्स में उच्च आवृत्ति वाले शब्दों का चयन करते हैं।

क्या k-means स्पष्ट डेटा के साथ काम करता है?

के-मीन्स एल्गोरिदम श्रेणीबद्ध डेटा पर लागू नहीं है, क्योंकि श्रेणीबद्ध चर असतत हैं और इनका कोई प्राकृतिक मूल नहीं है। इसलिए अंतरिक्ष जैसे यूक्लिडियन दूरी की गणना करना सार्थक नहीं है।

क्या टेक्स्ट क्लस्टरिंग के लिए k- साधन का उपयोग किया जा सकता है?

K-मीन्स क्लस्टरिंग एक अनपर्यवेज़्ड लर्निंग मेथड का प्रकार है, जिसका उपयोग तब किया जाता है जब हमारे पास डेटा लेबल नहीं होता है जैसा कि हमारे मामले में होता है, हमारे पास बिना लेबल वाला डेटा होता है (मतलब, परिभाषित श्रेणियों या समूहों के बिना)।इस एल्गोरिथम का लक्ष्य डेटा में समूह ढूंढना है, जबकि नहीं। समूहों का प्रतिनिधित्व चर K. द्वारा किया जाता है

क्या हम वर्गीकरण के लिए k- साधन का उपयोग कर सकते हैं?

KMeans एक क्लस्टरिंग एल्गोरिथम है जो अवलोकनों को k समूहों में विभाजित करता है। चूंकि हम समूहों की मात्रा निर्धारित कर सकते हैं, इसलिए इसे आसानी से वर्गीकरण में उपयोग किया जा सकता है जहां हम डेटा को समूहों में विभाजित करते हैं जो कक्षाओं की संख्या के बराबर या उससे अधिक हो सकते हैं।

टेक्स्ट डेटा के लिए कौन सा क्लस्टरिंग एल्गोरिदम सबसे अच्छा है?

टेक्स्ट वैक्टर को क्लस्टर करने के लिए आप श्रेणीबद्ध क्लस्टरिंग एल्गोरिदम का उपयोग कर सकते हैं जैसे HDBSCAN जो घनत्व पर भी विचार करता है। HDBSCAN में आपको k- साधन के रूप में समूहों की संख्या निर्दिष्ट करने की आवश्यकता नहीं है और यह ज्यादातर शोर वाले डेटा में अधिक मजबूत है।

सिफारिश की: