मुफ़्त कैरेक्टर मैप
श्रेणी के अनुसार Unicode वर्णों को ब्राउज़ करें, नाम या कोड पॉइंट से खोजें, और क्लिपबोर्ड पर कॉपी करें।
कैसे उपयोग करें
- उस समूह के वर्ण प्रदर्शित करने के लिए किसी श्रेणी टैब पर क्लिक करें।
- किसी वर्ण पर क्लिक करके उसके विवरण और कॉपी विकल्प देखें।
- नाम (जैसे "heart") या हेक्स कोड (जैसे "2665") से वर्ण खोजने के लिए सर्च बार का उपयोग करें।
- चयनित वर्ण को क्लिपबोर्ड पर कॉपी करने के लिए वर्ण कॉपी करें पर क्लिक करें।
अक्सर पूछे जाने वाले प्रश्न
Unicode कोड पॉइंट क्या है?
Unicode कोड पॉइंट Unicode मानक में प्रत्येक वर्ण को सौंपा गया एक अनूठा नंबर है। यह हेक्साडेसिमल फ़ॉर्मेट में लिखा जाता है, अक्सर U+ से उपसर्गित (उदाहरण के लिए ♥ के लिए U+2665)।
HTML entity क्या है?
HTML entity एक विशेष कोड है जो HTML में एक वर्ण का प्रतिनिधित्व करता है। उदाहरण के लिए, ♥ ♥ का प्रतिनिधित्व करता है। Entities तब उपयोगी होते हैं जब सीधे एक वर्ण टाइप करना संभव नहीं हो।
CSS कोड क्या है?
CSS कोड स्टाइल शीट में Unicode कोड पॉइंट से एक वर्ण सम्मिलित करने के लिए \ नोटेशन का उपयोग करता है। उदाहरण के लिए, .heart::before { content: "\2665"; } ♥ सम्मिलित करता है।
Unicode का संक्षिप्त इतिहास
Unicode से पहले, हर region का अपना incompatible character encoding था: English के लिए ASCII, European languages के लिए ISO 8859 family (8859-1 Latin-1, 8859-5 Cyrillic, 8859-6 Arabic), Windows code pages 1252 / 1251 / 1253-1258, East Asian languages के लिए multibyte sets (Japanese के लिए Shift-JIS, Traditional Chinese के लिए Big5, Simplified Chinese के लिए GB2312, Korean के लिए EUC-KR)। Mismatched encodings garbled text produce करती थीं जिसे Japanese term mojibake (文字化け, «character transformation») कहा जाता है, Japanese page को wrong encoding में खोलने पर question marks या random Latin-1 letters की rows मिलती थीं।
Joe Becker ने 1987 में Xerox में Apple के Lee Collins और Mark Davis के साथ एक ऐसे single universal character set की investigation शुरू की जो पूरे patchwork को replace कर सके। Becker का August 1988 draft proposal, «Unicode 88,» बताता था: «'Unicode' name unique, unified, universal encoding suggest करने के लिए intended है।» Unicode Consortium January 1991 में incorporated हुआ और उसी साल October में Unicode 1.0 ship किया जिसमें 24 scripts में लगभग 7,100 characters थे।
Unicode 17.0 (released 9 September 2025) तक standard में 172 scripts में लगभग 159,801 characters हैं, 1,112,064 valid code points के लिए code space allocated है, मतलब Unicode ने अपने possible space का roughly 14% assign किया है और decades का headroom बाकी है। Major recent milestones: Unicode 6.0 (2010) पहला version था जिसने officially emoji encode किए (722, Japanese carriers से); Unicode 17.0 ने चार नए scripts (Sidetic, Tolong Siki, Beria Erfe, Tai Yo) add किए और total CJK ideograph count 100,000 से अधिक कर दिया।
Code points, planes, और encodings
एक code point बस एक number है, hexadecimal में U+ prefix के साथ लिखा जाता है, जैसे ♥ के लिए U+2665। Code points को 65,536 code points के 17 planes में group किया जाता है। आपने जो कुछ भी read किया है उसका almost सब कुछ Plane 0, Basic Multilingual Plane (BMP, U+0000 से U+FFFF) पर live करता है। Plane 1 (Supplementary Multilingual Plane) historical scripts (Linear B, Egyptian hieroglyphs, Cuneiform), musical notation, और almost all emoji hold करता है। Planes 2 और 3 CJK ideograph extensions हैं। Planes 4-13 unassigned हैं, future के लिए reserved। Plane 14 variation selectors और emoji modifiers carry करता है। Planes 15 और 16 private-use areas हैं जहां fonts और apps अपने meanings assign करते हैं।
Code point बस एक number है; encoding वह है कि वह number bytes के रूप में कैसे store होता है। Unicode तीन define करता है:
- UTF-8: variable width, 1 से 4 bytes per character। Ken Thompson और Rob Pike ने 1992 में Bell Labs पर design किया (New Jersey के एक diner के placemat पर sketched)। पहले 128 code points (ASCII) exactly 1 byte लेते हैं ASCII के same binary value के साथ, इसलिए pure-ASCII file already एक valid UTF-8 file है। January 2026 तक, UTF-8 roughly 98.9% websites द्वारा use होती है, WHATWG-recommended encoding और नए text protocols के लिए default।
- UTF-16: variable width, 2 या 4 bytes। BMP characters 2 bytes लेते हैं; supplementary planes में characters surrogate pairs (U+D800-U+DBFF high surrogate plus U+DC00-U+DFFF low surrogate) के through 4 bytes लेते हैं। Windows APIs, Java, JavaScript (string
.lengthUTF-16 code units count करता है, इसलिए emoji often «counts as 2»), और Qt द्वारा internally use होती है। 0.004% से कम public web pages इसे transport के लिए use करते हैं। - UTF-32: fixed width, 4 bytes per code point। Index करना simple है लेकिन space-inefficient है। Direct code-point indexing के लिए कुछ Unix runtimes द्वारा internally use होती है; disk या wire पर rare है।
25 invisible whitespace characters
Unicode formally exactly 25 characters को White_Space=yes property के साथ tag करता है: regular space (U+0020), tab, line feed, carriage return, no-break space (U+00A0, वह famous एक जो regular space जैसा identical दिखता है लेकिन lines में break नहीं होता), U+2000-U+200A में typographic widths, line / paragraph separators (U+2028 / U+2029), French typography में common narrow no-break space (U+202F), medium mathematical space (U+205F), और CJK text में use होने वाला full-width ideographic space (U+3000)।
कई characters invisible दिखते हैं लेकिन whitespace के रूप में not classified हैं और regular space से differently behave करते हैं:
- U+200B Zero-Width Space: बिना visible gap के line break allow करता है; Unicode classification के हिसाब से whitespace नहीं।
- U+200D Zero-Width Joiner: multi-character emoji जैसे family या profession sequences के अंदर की glue।
- U+200C Zero-Width Non-Joiner: ligature joining control करता है।
- U+00AD Soft Hyphen: तब तक invisible जब तक renderer line break न करे।
- U+FEFF Byte Order Mark: file की शुरुआत में endianness declare करता है; बीच में, एक invisible no-break space। Excel के UTF-8 CSV exports एक prepend करते हैं, जो अक्सर downstream tools में first column header पर unexpected leading character के रूप में show होता है।
ये invisible characters routinely «why won't this string match?» debugging sessions का कारण होते हैं, character map के search में कोई भी character paste करें और यह आपको actual code point बता देगा, ताकि आप confirm कर सकें कि आप straight quote के रूप में masquerade करता smart quote देख रहे हैं, या regular space की जगह NBSP।
उपयोगी character ranges
| Block | Range | उदाहरण |
|---|---|---|
| Latin-1 पूरक | U+0080-U+00FF | à ñ ü © ® ¥ § ° ¶ |
| Greek | U+0370-U+03FF | α β γ π Σ Ω |
| Cyrillic | U+0400-U+04FF | Russian / Ukrainian / Bulgarian आदि |
| सामान्य विरामचिह्न | U+2000-U+206F | -, … " " ' ' • † NBSP ZWSP |
| मुद्रा प्रतीक | U+20A0-U+20CF | € £ ¥ ₩ ₽ ₹ ₿ |
| अक्षर-जैसे प्रतीक | U+2100-U+214F | ™ ℠ № ℃ ℉ ℗ |
| Arrows | U+2190-U+21FF | ← → ↑ ↓ ↔ ⇒ ⇐ |
| गणितीय Operators | U+2200-U+22FF | ∑ ∫ ∞ √ ≠ ≤ ≥ ± ∂ ∇ ∈ ∪ ∩ |
| बॉक्स Drawing | U+2500-U+257F | ─ │ ┌ ┐ └ ┘ ├ ┤ ┬ ┴ ┼ ═ ║ ╔ ╗ |
| गणितीय Alphanumerics | U+1D400-U+1D7FF | «Fancy text» generators (𝓗𝓮𝓵𝓵𝓸) यहां से draw करते हैं। |
रोज़मर्रा की writing में Special characters
«I just need to type one symbol» use case, यह tool दो clicks में जो deliver करने के लिए exist करता है उसका quick reference:
- Em dash - U+2014 (
—), sentence-level break। - En dash - U+2013 (
–)) ranges (1950-1975) और pairings (Boston-Hartford)। - Ellipsis … U+2026 (
…), तीन dots एक single character के रूप में। - Smart quotes: opening (U+201C), closing (U+201D), opening (U+2018), closing (U+2019)।
- Non-breaking space U+00A0 (
), «100 km» को together रखता है। - Copyright © U+00A9, Registered ® U+00AE, Trademark ™ U+2122।
- Section § U+00A7, Pilcrow ¶ U+00B6, Degree ° U+00B0।
- Multiplication × U+00D7, Division ÷ U+00F7, न तो letter
xहै न slash।
Character map कब Use करें
- सही keyboard layout के बिना accented letters type करना: résumé, jalapeño, fiancée, naïve।
- Math और science: equation editor launch किए बिना ∑, ∫, ≠, π, ±, ∞, μ, Ω को doc में paste करना।
- Currency: जो symbol आपको चाहिए वह आपके keyboard पर rarely होता है। Euro €, yen ¥, peso ₱, rupee ₹।
- Legal और academic writing में Punctuation: em dashes, smart quotes, section sign §, dagger †।
- Social-media bios और branding के लिए Fancy display text: Mathematical Alphanumeric Symbols (U+1D400-U+1D7FF) आपको image use किए बिना text stylise करने देते हैं।
- CLI और TUI design: ASCII-art borders, ncurses programs, और README diagrams के लिए Box Drawing characters।
- Encoding bugs debug करना: character paste करें actual code point देखने के लिए और confirm करें कि आपके पास straight quote के रूप में masquerade करता smart quote है या नहीं।
Security: Homograph Problem
कई Unicode characters scripts में identical दिखते हैं। Cyrillic lowercase «а» (U+0430) Latin «a» (U+0061) से visually indistinguishable है। Attackers internationalised domain names register करते हैं जो legitimate जैसे दिखते हैं (जैसे एक «apple.com» में Latin a की जगह Cyrillic а के साथ) और उन्हें phishing के लिए use करते हैं। adoḅe.com पर 2017 के attack ने malware deliver करने के लिए dotted-below ḅ (U+1E05) use किया। Modern browsers restrictive script-mixing rules से इसे mitigate करते हैं, domain में scripts mix होने पर ASCII Punycode form (xn--…) पर fall back करते हैं; Safari particularly conservative है। वही lookalike property जो Unicode को human writing के लिए rich बनाती है domains में dangerous बनाती है, और character map हर character का actual code point एक नज़र में confirm करने का एक तरीका है।
अधिक Questions
Character और glyph में क्या अंतर है?
एक character वह abstract unit है जो Unicode encode करता है, typeface की परवाह किए बिना letter A। एक glyph किसी particular font में उस character की specific drawing है: Helvetica में A, Garamond में A, Comic Sans में A सभी same character हैं लेकिन तीन अलग glyphs। Unicode characters encode करता है; fonts glyphs ship करते हैं।
«1.0» में 7,000 characters क्यों हैं लेकिन «17.0» में 160,000?
Unicode 1.0 ने 24 scripts cover किए, तब regular computing use में दुनिया के अधिकांश living writing systems। तब से growth तीन जगहों से आई है: CJK ideograph coverage hugely expand (historical Chinese characters और rare regional variants pull करते हुए, Extension J ने अकेले version 17.0 में 4,298 add किए), historical scripts formally encode (Linear B, Cuneiform, Egyptian hieroglyphs, Phoenician), और 2010 से emoji standardise।
HTML entity क्या है?
HTML के अंदर special escape syntax using character encode करने का एक तरीका। Common characters के लिए named entities होते हैं (© for ©, — for -) और किसी भी code point के लिए numeric entities (♥ या ♥ for ♥)। ये useful होते हैं जब character directly type करना awkward हो, जैसे mixed encodings वाले source code में, या ऐसे system में जो non-ASCII strip करता हो।
CSS escapes के बारे में क्या?
CSS backslash plus hex code point use करता है: .heart::before { content: "\2665"; } ♥ insert करता है। ::before / ::after generated content के अंदर, CSS counter styles में, और किसी भी जगह जहां source file की encoding पर rely नहीं किया जा सकता, useful है।
क्या कुछ server पर भेजा जाता है?
नहीं। Character data page के साथ bundled है; search और category filtering JavaScript में locally run होती है; Copy browser के Clipboard API use करता है। आपके device से कुछ नहीं निकलता, और page एक बार load होने के बाद offline काम करता है।