Question 1

Tokenizer क्या होता है और LLMs में क्यों जरूरी है?

Accepted Answer

Tokenizer इसलिए जरूरी है क्योंकि AI models text को directly understand नहीं करते, वो सिर्फ numbers समझते हैं। मैं tokenizer से words को tokens में convert कराती हूँ और फिर हर token को एक unique ID मिलती है। यही IDs LLM training और inference में use होती हैं।

Question 2

Word-level tokenization में vocabulary explosion क्या होता है?

Accepted Answer

जब हर single word को एक token बना देते हैं, तो language के millions of words + tenses + names की वजह से vocabulary बहुत बड़ी हो जाती है। इससे model को ज्यादा memory चाहिए होती है और training slow हो जाती है। Generalize करने में भी टाइम लगता है क्योंकि tokens बहुत ज्यादा हो जाते हैं।

Question 3

Out-of-vocabulary (OOV) problem क्या है और UNK token क्यों आता है?

Accepted Answer

OOV तब होता है जब input में ऐसा word आ जाए जो tokenizer की vocabulary में है ही नहीं। Word-level tokenizer उस word की जगह UNK (unknown) token डाल देता है। अगर output में बहुत सारे UNK आ गए तो model की output quality clearly खराब हो जाती है।

Question 4

Subword tokenization (BPE) OOV problem को कैसे solve करता है?

Accepted Answer

Subword tokenizer पूरा word ना लेकर उसे parts/subwords में divide कर देता है। इसलिए अगर पूरा word vocabulary में नहीं भी है, तो उसके subwords मिल जाते हैं और tokenizer handle कर लेता है। मैंने वीडियो में दिखाया कि word-level में “write” UNK बनता है, लेकिन subword में WRI + TE जैसे pieces से बन जाता है।

Question 5

अपने dataset पर tokenizer train करने से performance क्यों improve होती है?

Accepted Answer

Domain-specific data में कुछ terms बहुत frequently आते हैं, तो tokenizer उन्हें better तरीके से learn कर लेता है। इसी वजह से AI/ML domain में “artificial”, “generative”, “machine” जैसे words पूरे tokens की तरह भी आ सकते हैं। इससे tokenization ज्यादा meaningful होती है और downstream model को फायदा मिलता है।

Question 6

Tokenizer training के लिए GPU चाहिए होता है क्या?

Accepted Answer

नहीं, tokenizer train करना heavy training जैसा नहीं होता। मैं सिर्फ tokenizers library में tokenizer.train चलाती हूँ और seconds में tokenizer बन जाता है। GPU की जरूरत नहीं पड़ती, बस text files और सही code चाहिए।

Question 7

Hugging Face tokenizers से BPE tokenizer train करने के लिए कौन-कौन से steps हैं?

Accepted Answer

मैं पहले web scraping से corpus बनाती हूँ (requests + BeautifulSoup), फिर citation numbers clean करती हूँ और clean text file save करती हूँ। उसके बाद BPE model + BpeTrainer के साथ vocab_size set करती हूँ और special tokens add करती हूँ। Finally tokenizer को JSON में save करके test sentence पर encode करके verify करती हूँ।

L-10 | How to Train a Tokenizer on Your Own Dataset for LLMs

🛍️ Products Mentioned (1)

GitHub

About This Video

Frequently Asked Questions

🎬 More from Code With Aarohi Hindi