Công cụ Đếm Từ & Ký Tự Trực Tuyến Miễn Phí
Dán hoặc nhập văn bản bên dưới để xem ngay số từ, số ký tự, số câu, số đoạn và thời gian đọc ước tính.
Giới thiệu về công cụ này
Bộ đếm từ miễn phí này hoàn hảo cho học sinh, nhà văn, blogger và người quản lý mạng xã hội. Đếm từ ngay lập tức cho bài luận, tweet, chú thích Instagram và nhiều hơn nữa. Thời gian đọc dựa trên tốc độ đọc trung bình 200 từ mỗi phút.
Giới hạn số từ phổ biến
Biết các giới hạn phổ biến giúp bạn đạt được mục tiêu:
- Bài đăng Twitter/X · 280 ký tự
- Chú thích Instagram · 2.200 ký tự
- Mô tả meta (SEO) · 155-160 ký tự
- Bài luận đại học · thường 250-650 từ
- Bài đăng blog (SEO) · 1.500-2.500 từ để xếp hạng
- Truyện ngắn · 1.000-7.500 từ
Câu hỏi thường gặp
Thời gian đọc được tính như thế nào?
Chúng tôi sử dụng mức trung bình tiêu chuẩn là 200 từ mỗi phút. Đây là mức trung bình được chấp nhận rộng rãi cho tốc độ đọc của người trưởng thành với nội dung phi kỹ thuật.
Điều gì được tính là một từ?
Bất kỳ chuỗi ký tự nào được phân tách bằng khoảng trắng đều được tính là một từ. Các từ có dấu gạch nối như "well-known" được tính là một từ. Số và chữ viết tắt cũng được tính.
Văn bản của tôi có được lưu ở đâu không?
Không. Mọi thứ đều diễn ra trong trình duyệt của bạn. Văn bản của bạn không bao giờ được gửi đến bất kỳ máy chủ nào hay được lưu trữ ở đâu. Đóng tab và nó sẽ biến mất.
Cái gì chính xác được tính là một từ?
Microsoft Word, Google Docs, Pages, lệnh Unix wc và hầu hết các bộ đếm dựa trên trình duyệt đều đồng ý trên một quy tắc duy nhất: một từ là một chuỗi tối đa các ký tự không phải khoảng trắng được phân tách khỏi các chuỗi lân cận bằng khoảng trắng. Tiêu chuẩn POSIX cho wc định nghĩa một từ là một chuỗi không-độ-dài-không của các ký tự có thể in được phân tách bằng khoảng trắng, cùng một quy tắc mà một triển khai JavaScript bốn dòng (text.trim().split(/\s+/).length) tạo ra. Nó hoàn toàn cơ học: nó không hiểu hình thái học, dấu chấm câu hoặc ngôn ngữ. "Hello world" là hai từ; "Hello,world" không có khoảng trắng là một. "Don't" là một từ; "do n't" là hai.
Một nhà ngôn ngữ học sẽ phản đối. Oxford English Dictionary phân biệt giữa từ chữ viết (một chuỗi các chữ cái được giới hạn bởi khoảng trắng) và lexeme (một mục từ điển trừu tượng). Hai cái phân kỳ trong các trường hợp phổ biến:
- Từ ghép có dấu gạch ngang. "State-of-the-art" là một từ, không có khoảng trắng bên trong token. Microsoft Word, Google Docs và bộ đếm này đều đồng ý.
- Viết tắt. "Don't," "won't," "it's," "you'd've" đều được tính là một từ mỗi cái. Dấu nháy đơn được coi là một phần của token, phù hợp với cách sử dụng tiếng Anh tiêu chuẩn.
- Số và số thập phân. "3,14" là một; "3 , 14" là ba. "1.000.000" là một; "1 000 000" (quy ước châu Âu) là ba.
- Từ viết tắt. "U.S.A." là một từ; "U S A" là ba. "NATO" là một. "Ph.D." là một.
- URL và email. "https://absolutool.com/tools" là một từ trong bất kỳ bộ đếm chia tách khoảng trắng nào.
Đối với văn xuôi thông thường, sự không đồng ý giữa quy tắc này và một bộ đếm con người cẩn thận thường dưới một phần trăm. Đối với văn bản rất ghép, có dấu gạch ngang hoặc số, nó có thể đạt 5-15%. Vượt qua quy tắc khoảng trắng, Unicode xuất bản một thuật toán Word Boundary chính thức (UAX #29), một máy trạng thái 14 quy tắc nhận diện ranh giới từ dựa trên các danh mục ký tự. JavaScript hiển thị nó thông qua Intl.Segmenter với {granularity: 'word'}, và đó là con đường chính xác duy nhất để đếm từ trong tiếng Trung, Nhật, Thái hoặc Khmer mà không có từ điển.
Các ngôn ngữ không sử dụng khoảng trắng
Tiếng Trung, tiếng Nhật (trong kanji thuần túy hoặc kanji + hiragana), tiếng Thái, Lào, Khmer, Miến Điện và Tây Tạng viết mà không có khoảng trắng giữa các từ, quy ước được gọi là scriptio continua. Một bộ tokenize-khoảng-trắng chạy trên một đoạn văn tiếng Trung trả về 1, toàn bộ đoạn văn như một "từ" duy nhất. Đối với các tập lệnh này, chỉ số có ý nghĩa là số đếm ký tự, không phải số đếm từ.
Trong dịch thuật chuyên nghiệp, quy tắc kinh nghiệm là khoảng một ký tự tiếng Trung ≈ 1,5-2,0 từ tiếng Anh; hai ký tự tiếng Nhật ≈ một từ tiếng Anh; một ký tự tiếng Hàn ≈ 0,55 từ tiếng Anh. Các dịch giả Trung-Anh thường tính phí theo số đếm ký tự nguồn cho nửa Trung Quốc và số đếm từ đích cho nửa Anh. Tiếng Hàn, độc đáo trong các tập lệnh Đông Á, sử dụng khoảng cách giữa các từ (띄어쓰기, ttuieosseugi), vì vậy tokenize khoảng trắng hoạt động, nhưng các quy tắc khoảng cách nổi tiếng là khó và ngay cả người bản ngữ cũng bất đồng về các trường hợp biên.
Một lịch sử ngắn về việc trả công nhà văn theo từ
Thanh toán theo từ bắt nguồn từ các tạp chí phát hành đại chúng cuối thế kỷ 19. Vào những năm 1920 và 1930 các tạp chí pulp, Black Mask, Weird Tales, Astounding, Argosy, trả theo từ với mức từ một phần tư cent đến hai cent. Raymond Chandler nổi tiếng nhận một xu mỗi từ từ Black Mask trong những năm 1930. Mô hình tồn tại đến ngày nay: các nhà máy nội dung penny-stock trả $0,01-$0,05 mỗi từ, tạp chí thương mại tầm trung trả $0,30-$0,75, và các tạp chí bóng bẩy hàng đầu của Mỹ (The New Yorker, The Atlantic, Wired, Harper's) trả $1-$3 mỗi từ, thỉnh thoảng cao hơn cho các bài đặc trưng nổi bật.
Vì giới hạn là theo hợp đồng, biết số đếm từ chính xác là thu nhập. Một bài đặc trưng 1.500 từ ở mức $1 mỗi từ là $1.500; ở 1.400 nó là $1.400. Các biên tập viên thực thi giới hạn, một ủy thác 2.000 từ có nghĩa là 1.950-2.050, không phải 2.400, và bỏ lỡ giới hạn có thể có nghĩa là cắt giảm tỷ lệ phẳng hoặc một khoản phí kill.
Số đếm từ tiểu thuyết và thói quen từ hàng ngày
Xuất bản có số đếm từ mục tiêu nhất quán đáng kể cho tiểu thuyết người lớn. Tiểu thuyết văn học người lớn đáp xuống 80.000-100.000 từ; thriller thương mại, bí ẩn và lãng mạn ở 70.000-90.000; fantasy sử thi và khoa học viễn tưởng ở 100.000-120.000 (thỉnh thoảng 150.000+). Young Adult là 50.000-80.000, Middle Grade 25.000-55.000, sách tranh 100-500, novella 17.500-40.000, truyện ngắn 1.000-7.500, flash fiction dưới 1.000. Các đại diện sẽ từ chối truy vấn cho tiểu thuyết đầu tay xa nhiều ngoài các phạm vi này bất kể chất lượng, các phạm vi thông thường mã hóa sự kỳ vọng của người đọc và kinh tế máy in.
National Novel Writing Month, được thành lập vào năm 1999 bởi Chris Baty, đặt một mục tiêu 50.000 từ cho tháng 11, khoảng độ dài của The Great Gatsby (50.061) và Slaughterhouse-Five (49.459). Điều đó tương đương 1.667 từ một ngày trong ba mươi ngày. Stephen King khuyến nghị 2.000 từ một ngày trong On Writing; Anthony Trollope viết 3.000 một ngày trước khi đi làm bưu điện; Graham Greene được báo cáo dừng chính xác ở 500 từ một ngày; Mark Twain nhắm tới 1.400. Một thói quen từ hàng ngày là điều biến "Tôi có một ý tưởng" thành "Tôi sẽ hoàn thành trong N ngày." Một cuốn tiểu thuyết 90.000 từ ở 1.000 từ một ngày là 90 ngày.
Số đếm từ học thuật và tạp chí
Đối với giáo dục đại học Hoa Kỳ và Anh, độ dài bài tập điển hình là: bài luận trung học 300-1.000 từ; bài luận đại học (nhân văn) 1.500-3.000; bài luận học kỳ 3.000-6.000; luận án danh dự 12.000-20.000; luận án thạc sĩ 20.000-40.000; luận án tiến sĩ 80.000-100.000 trong nhân văn (thường ngắn hơn, 40.000-60.000, trong khoa học). Bài luận cá nhân Common App được giới hạn ở 650 từ, cổng đăng ký thực thi nó. Tuyên bố cá nhân UCAS ở Anh được giới hạn ở 4.000 ký tự hoặc 47 dòng, tùy theo cái nào ngắn hơn. Hầu hết các trường đại học thực thi giới hạn bài luận với dung sai ±10%.
Bài báo tạp chí dao động từ một bức thư 500-1.500 từ, một bản tóm tắt 1.500-3.000 từ, một bài báo nghiên cứu tiêu chuẩn 4.000-8.000 từ, đến một tổng quan 6.000-12.000 từ. Nature Letters giới hạn ở 3.000 từ; JAMA Original Investigation ở 3.000 với tóm tắt ba đoạn; PNAS Direct Submission ở sáu trang in, khoảng 6.000 từ.
Giới hạn ký tự mạng xã hội đáng nhớ
- Bài đăng X/Twitter: 280 ký tự (ban đầu 140 khi ra mắt vào tháng 3 năm 2006; tăng gấp đôi lên 280 vào tháng 11 năm 2017). Người đăng ký X Premium có thể đăng tới 25.000 ký tự kể từ tháng 2 năm 2023. URL luôn được tính là 23 ký tự bất kể độ dài cơ bản, biểu tượng cảm xúc được tính là 2, các ký tự CJK được tính là 2.
- Bluesky: 300 ký tự.
- Threads (Meta): 500 ký tự.
- Bài đăng LinkedIn: 3.000 ký tự; ~210 đầu tiên (máy tính) hoặc ~140 (di động) hiển thị trước "xem thêm."
- Chú thích Instagram: 2.200 ký tự với xem trước 125 ký tự.
- Chú thích TikTok: 4.000 ký tự.
- SMS GSM-7: 160 ký tự mỗi đoạn; UCS-2 (cho bảng chữ cái không phải Latin) giảm xuống 70.
- Meta description Google: khoảng 155-160 ký tự trước khi cắt ngắn trên máy tính, ~120 trên di động.
- Thẻ tiêu đề Google: khoảng 50-60 ký tự hoặc khoảng 600 pixel trên máy tính.
Phân đoạn câu khó hơn việc chia trên một dấu chấm
Quy tắc ngây thơ, chia trên ., !, ?, thất bại trên mỗi văn bản tiếng Anh thực tế trong đoạn đầu tiên. "Dr. Smith met Mr. Jones at U.S. Steel" là một câu; chia ngây thơ trả về bốn. "J. R. R. Tolkien wrote The Hobbit" là một; ngây thơ trả về bốn. "The pH of 7.4 is normal" là một; ngây thơ trả về hai. Tên miền ("Visit absolutool.com.") và email tạo ra dương tính giả; dấu ba chấm ("Wait...what?") tạo ra âm tính giả.
Phân đoạn mạnh mẽ cần hoặc một danh sách chữ viết tắt được tuyển chọn (cách tiếp cận được sử dụng bởi bộ phân đoạn Punkt của NLTK, mà bài báo của Kiss và Strunk năm 2006 đã huấn luyện trên một kho ngữ liệu một triệu từ ở F1 ≈ 0,97) hoặc một mô hình thống kê. Đối với một bộ đếm dựa trên trình duyệt, sự thỏa hiệp thực tế là chia trên [.!?]+ theo sau là khoảng trắng và một chữ cái viết hoa, với một danh sách đen chữ viết tắt nhỏ (Mr|Mrs|Dr|Prof|Sr|Jr|St|Inc|Ltd|U.S|e.g|i.e|etc|vs). Ngay cả với điều đó, độ chính xác trên văn bản nhiễu nó đạt khoảng 90%. Xem số đếm câu là gần đúng.
Các công thức khả năng đọc trong một đoạn mỗi
Flesch Reading Ease (1948). Công thức của Rudolf Flesch: 206,835 − 1,015 × (từ/câu) − 84,6 × (âm tiết/từ). Cao hơn có nghĩa là dễ hơn. 0-30 là "rất khó, tốt nghiệp đại học"; 60-70 là "tiếng Anh thông thường, lớp tám đến lớp chín"; 90-100 là "rất dễ, lớp năm." Reader's Digest nhắm tới ~65; Time nhắm tới ~52; Harvard Law Review chạy quanh 30.
Flesch-Kincaid Grade Level (1975). Được Hải quân Hoa Kỳ ủy quyền từ J. Peter Kincaid cho khả năng đọc tài liệu kỹ thuật: 0,39 × (từ/câu) + 11,8 × (âm tiết/từ) − 15,59. Đầu ra là cấp lớp Hoa Kỳ (8,0 = lớp tám). Hiện được nhúng vào kiểm tra chính tả của Microsoft Word và là chỉ số khả năng đọc được trích dẫn nhiều nhất trong copywriting.
SMOG (1969). "Simple Measure of Gobbledygook" của Harry McLaughlin chỉ đếm các từ có ba âm tiết trở lên trong mười câu liên tiếp từ đầu, giữa và cuối văn bản. Được Viện Y tế Quốc gia Hoa Kỳ ưu tiên cho các tờ rơi bệnh nhân chăm sóc sức khỏe vì nó tương quan tốt hơn Flesch-Kincaid với sự hiểu biết thực tế trên văn bản y tế.
Gunning Fog (1952). Chỉ số của Robert Gunning: 0,4 × ((từ/câu) + 100 × (từ_phức/từ)). Wall Street Journal nhắm tới Fog ~11; Times của Luân Đôn ~14. Lập luận của Gunning là bất kỳ văn viết kinh doanh nào trên Fog 12 sẽ mất độc giả.
Thời gian đọc và nói, các số liệu đến từ đâu
Bộ đếm này hiển thị thời gian đọc ở 200 từ mỗi phút và thời gian nói ở 130 từ mỗi phút. Con số 200 wpm là bảo thủ so với phân tích meta năm 2019 của Marc Brysbaert về 190 nghiên cứu, hội tụ ở 238 wpm cho phi hư cấu và 260 wpm cho hư cấu (Journal of Memory and Language). Sai sót hơi nghiêng về phía chậm là sự lựa chọn thân thiện với người dùng, tốt hơn là một "đọc năm phút" là một đọc bốn phút hơn là một đọc bảy phút. Tốc độ nói 130 wpm phù hợp với lời nói đàm thoại; các bài phát biểu chính thức trung bình 100-130 wpm. Một bài keynote hai mươi phút khoảng 2.600 từ được nói. Tính năng "X min read" của Medium, được giới thiệu vào năm 2014 bởi Mike Sall, ban đầu được hiệu chỉnh ở 275 wpm.
Tại sao số đếm của bạn khác với của Word
Ba nguyên nhân phổ biến: (1) Microsoft Word và Google Docs xử lý từ có dấu gạch ngang như một (phù hợp với bộ đếm này), nhưng một số bộ đếm dựa trên PHP chia trên mỗi ký tự không phải chữ và trả về hai cho "well-known." (2) Dán từ Word mang theo các ký tự vô hình, dấu nháy cong, khoảng trắng không-ngắt (U+00A0), dấu gạch ngang mềm (U+00AD), có thể phân mảnh hoặc hợp nhất các token tùy thuộc vào công cụ. (3) Số đếm từ duy nhất là phân biệt chữ hoa-thường theo mặc định, vì vậy "The" và "the" được tính là hai từ duy nhất riêng biệt; loại bỏ chữ hoa-thường và stemming ("running" → "run") sẽ giảm số đếm duy nhất khoảng 15% trên văn xuôi điển hình.
Nếu văn bản tiếng Trung hoặc tiếng Nhật của bạn hiển thị không (hoặc một) từ, đó là bộ tokenize-khoảng-trắng đang làm những gì nó được yêu cầu, hãy chuyển sự chú ý của bạn sang số đếm ký tự, đó là chỉ số có ý nghĩa cho các tập lệnh đó. Nếu "3.000" được tính là một từ thì đó là vì dấu phẩy là không-khoảng-trắng và token là liền nhau; đó là hành vi đúng và khớp với Word.
Câu hỏi khác
Điểm khả năng đọc chính xác đến mức nào?
Các công thức khả năng đọc ước tính độ phức tạp từ từ-mỗi-câu và âm-tiết-mỗi-từ, chúng không thực sự hiểu liệu văn xuôi của bạn có tốt hay không. Điểm "lớp 8" có nghĩa là một hồ sơ độ dài câu và mật độ âm tiết điển hình của tài liệu đọc lớp tám; nó không chứng nhận sự rõ ràng. Sử dụng điểm như một kiểm tra tính lành mạnh, không phải một phán quyết. Hemingway ghi khoảng lớp 4; King James Bible khoảng lớp 8; Wall Street Journal khoảng lớp 11.
Bộ đếm này có xử lý Markdown hoặc HTML không?
Nó đếm mọi thứ trong textarea theo nghĩa đen, bao gồm **bold**, các tiêu đề # và các thẻ HTML như <p>. Nếu bạn muốn chỉ đếm văn bản đã được render, hãy dán nội dung của bạn vào một bộ xem trước Markdown hoặc Reader View của trình duyệt trước, sau đó sao chép văn bản đã được làm sạch vào đây. Hugo, Jekyll và 11ty đều loại bỏ front-matter và Markdown trước khi tính số đếm từ trên các trang đã xây dựng.
Lời khuyên tốt nhất để đạt được số đếm từ chính xác là gì?
Viết vượt mục tiêu của bạn 10-15%, sau đó cắt. Cắt dễ hơn nhiều so với độn, và các cắt gần như luôn làm cho văn xuôi mạnh hơn, vì những thứ dễ loại bỏ nhất là yếu nhất. Lời khuyên truyền thống của biên tập viên ("giết những người yêu của bạn") chỉ có ý nghĩa nếu bạn có những người yêu để giết, có nghĩa là bạn đã viết chúng ngay từ đầu.
Tôi có thể sử dụng cái này cho các bản tóm tắt pháp lý và hồ sơ tòa án không?
Có để kiểm tra tính lành mạnh, Tòa án Tối cao Hoa Kỳ giới hạn các bản tóm tắt của người kiến nghị ở 13.000 từ và Federal Rule 32(a)(7)(B) giới hạn các bản tóm tắt phúc thẩm ở 13.000 từ, cả hai đều được đếm bằng khoảng trắng. Đối với số đếm từ được chứng nhận yêu cầu khi nộp hồ sơ, hãy sử dụng số đếm của Microsoft Word (mà các tòa án chấp nhận theo tên) và xem công cụ này như là kiểm tra bản thảo thô.