पायथन टोकेनाइजेशन में मूल रूप से पाठ के एक बड़े भाग को छोटी पंक्तियों, शब्दों में विभाजित करना या गैर-अंग्रेजी भाषा के लिए शब्द बनाना। को संदर्भित करता है।
पायथन में आप टोकन का उपयोग कैसे करते हैं?
द नेचुरल लैंग्वेज टूल किट (NLTK) एक लाइब्रेरी है जिसका इस्तेमाल इसे हासिल करने के लिए किया जाता है। वर्ड टोकनाइजेशन के लिए पायथन प्रोग्राम के साथ आगे बढ़ने से पहले एनएलटीके स्थापित करें। इसके बाद हम पैराग्राफ को अलग-अलग शब्दों में विभाजित करने के लिए द वर्ड_टोकनाइज मेथड का उपयोग करते हैं। जब हम उपरोक्त कोड को निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।
एनएलटीके टोकनाइज क्या करता है?
NLTK में एक मॉड्यूल होता है जिसे टोकननाइज़ कहा जाता है जो आगे दो उप-श्रेणियों में वर्गीकृत करता है: वर्ड टोकनाइज़: हम एक वाक्य को टोकन या शब्दों में विभाजित करने के लिए word_tokenize विधि का उपयोग करते हैं। सेंटेंस टोकनाइज़: हम किसी दस्तावेज़ या पैराग्राफ़ को वाक्यों में विभाजित करने के लिए send_tokenize विधि का उपयोग करते हैं।
टोकनाइज का क्या मतलब है?
टोकनाइजेशन संवेदनशील डेटा को गैर-संवेदनशील डेटा में बदलने की प्रक्रिया है जिसे"टोकन" कहा जाता है जिसका उपयोग डेटाबेस या आंतरिक सिस्टम में इसे दायरे में लाए बिना किया जा सकता है। मूल डेटा को समान लंबाई और प्रारूप के असंबंधित मान के साथ बदलकर संवेदनशील डेटा को सुरक्षित करने के लिए टोकनाइजेशन का उपयोग किया जा सकता है।
प्रोग्रामिंग में टोकनाइज़ का क्या अर्थ है?
टोकनाइजेशन स्ट्रिंग्स के अनुक्रम को शब्दों, कीवर्ड्स, वाक्यांशों, प्रतीकों और टोकन नामक अन्य तत्वों जैसे टुकड़ों में तोड़ने का कार्य है।