免费在线单词和字符计数器
在下方粘贴或输入文本,即可立即查看单词数、字符数、句子数、段落数和预计阅读时间。
关于此工具
此免费单词计数器非常适合学生、作家、博主和社交媒体经理。可立即统计论文、推文、Instagram 标题等的单词数。阅读时间基于每分钟 200 个单词的平均阅读速度。
常见字数限制
了解常见限制有助于您达到目标:
- Twitter/X 帖子 · 280 字符
- Instagram 标题 · 2,200 字符
- Meta 描述(SEO) · 155-160 字符
- 大学论文 · 通常 250-650 字
- 博客文章(SEO) · 1,500-2,500 字以获得排名
- 短篇故事 · 1,000-7,500 字
常见问题
阅读时间是如何计算的?
我们使用每分钟 200 个单词的标准平均值。这是成人阅读非技术内容时广泛接受的平均速度。
什么算作一个单词?
任何由空白字符分隔的字符序列都算作一个单词。像 "well-known" 这样的连字符单词算作一个单词。数字和缩写也计入。
我的文本会被保存吗?
不会。一切都在您的浏览器中进行。您的文本绝不会发送到任何服务器或存储在任何地方。关闭标签页后文本即消失。
到底什么算一个词?
Microsoft Word、Google Docs、Pages、Unix 的 wc 命令以及几乎每一个浏览器内的计数器,都遵循同一条规则:一个词就是一连串非空白字符的最大序列,与相邻序列由空白分隔。wc 的 POSIX 标准把词定义为「由空白分隔的、长度非零的可打印字符序列」,这跟一段四行的 JavaScript 实现(text.trim().split(/\s+/).length)产生的规则相同。它纯粹是机械的:它不懂词法、不懂标点、不懂语言。「Hello world」是两个词;没有空格的「Hello,world」是一个。「Don't」是一个词;「do n't」是两个。
语言学家会反驳。Oxford English Dictionary 区分书写词(graphemic word)(由空格界定的字母序列)和词位(lexeme)(抽象的词典词条)。两者在常见情况下会分歧:
- 带连字符的复合词。「State-of-the-art」是一个词,词内没有空白。Microsoft Word、Google Docs 和本计数器全都同意。
- 缩写形式。「Don't」、「won't」、「it's」、「you'd've」每个都算一个词。撇号被当作词的一部分,与标准英语用法一致。
- 数字与小数。「3.14」是一;「3 . 14」是三。「1,000,000」是一;「1 000 000」(欧式记法)是三。
- 缩略语。「U.S.A.」是一个词;「U S A」是三。「NATO」是一。「Ph.D.」是一。
- URL 与电子邮件。「https://absolutool.com/tools」在任何按空白切分的计数器里都算一个词。
对普通散文,这条规则与一个细心人工计数之间的分歧通常在百分之一以下。对于高度复合、连字符密集或数字密集的文本,可达到 5-15%。在空白规则之上,Unicode 还发布了一份正式的词边界算法(UAX #29),基于字符类别识别词边界的 14 条规则状态机。JavaScript 通过 Intl.Segmenter 加 {granularity: 'word'} 暴露它,这是在没有词典的情况下,正确数中文、日文、泰文或高棉文词数的唯一办法。
不使用空格的语言
中文、日文(纯汉字或汉字 + 平假名)、泰文、老挝文、高棉文、缅甸文和藏文写作时都不在词与词之间加空格,这种约定叫 scriptio continua。把以空白做分词的工具用在一段中文上,会返回 1,把整段当作一个「词」。对这些文字,有意义的指标是字符数,而不是词数。
在专业翻译里,经验法则大致是一个汉字 ≈ 1.5-2.0 个英语单词;两个日文字符 ≈ 一个英语单词;一个韩文字符 ≈ 0.55 个英语单词。中译英译者通常按中文那边的源字符数和英文那边的目标词数计费。韩文是东亚文字中独特的一支,它确实使用词与词之间的空格(띄어쓰기,ttuieosseugi),所以按空白分词是有效的,只不过分词规则出了名地难,连母语者在边界情况上也会有分歧。
按词付酬作家的简史
按词付酬起源于十九世纪末的大众发行杂志。到 1920 和 1930 年代,廉价杂志,Black Mask、Weird Tales、Astounding、Argosy,按词付酬,稿酬从每词四分之一美分到二美分不等。Raymond Chandler 在 1930 年代从 Black Mask 拿到的著名稿酬是每词一美分。这种模式延续至今:廉价内容工厂每词付 0.01-0.05 美元,中档行业杂志付 0.30-0.75 美元,顶级美国铜版纸杂志(The New Yorker、The Atlantic、Wired、Harper's)付每词 1-3 美元,重头特稿偶尔更高。
因为字数上限是合同性的,知道精确的词数就是收入。一篇 1 500 词的特稿按每词 1 美元算就是 1 500 美元;1 400 词就是 1 400 美元。编辑会执行字数上限,委托 2 000 词的稿件意味着 1 950-2 050,而不是 2 400,超过上限可能意味着按固定费率削减或拿一笔毙稿费。
长篇小说字数与每日字数习惯
出版业对成人长篇小说的目标字数惊人地一致。成人文学小说落在 80 000-100 000 词;商业惊悚、悬疑和爱情在 70 000-90 000;史诗奇幻和科幻在 100 000-120 000(偶尔 150 000+)。Young Adult 是 50 000-80 000,Middle Grade 25 000-55 000,绘本 100-500,中篇 17 500-40 000,短篇 1 000-7 500,闪小说不到 1 000。经纪人会拒绝那些字数严重偏离这些区间的处女作小说投稿,无论质量如何,因为这些约定字数编码了读者期望和印刷成本。
国家小说写作月(NaNoWriMo)由 Chris Baty 于 1999 年创立,把十一月的目标定为 50 000 词,大约相当于《了不起的盖茨比》(50 061)和《第五号屠场》(49 459)的长度。这相当于三十天里每天 1 667 词。Stephen King 在《写作这回事》中建议每天 2 000 词;Anthony Trollope 在去邮局上班前每天写 3 000;据说 Graham Greene 每天严格停在 500 词;Mark Twain 的目标是 1 400。每日字数习惯就是把「我有个想法」变成「我会在 N 天内写完」的东西。一部 90 000 词的小说,按每天 1 000 词,就是 90 天。
学术与期刊字数
对美国和英国的高等教育,典型作业长度大致为:高中作文 300-1 000 词;大学(人文)论文 1 500-3 000;期末论文 3 000-6 000;荣誉学位论文 12 000-20 000;硕士论文 20 000-40 000;博士论文人文方向 80 000-100 000(理工科常更短,40 000-60 000)。Common App 个人陈述上限 650 词,申请门户会强制执行。UCAS 个人陈述(英国)上限 4 000 字符或 47 行,二者中较短者。多数大学对作业字数限制实行 ±10% 的容差。
期刊文章从 500-1 500 词的 letter,到 1 500-3 000 词的 brief,再到 4 000-8 000 词的标准研究论文,以及 6 000-12 000 词的综述。Nature Letters 上限 3 000 词;JAMA Original Investigation 3 000 词加上三段式摘要;PNAS Direct Submission 限六个印刷页,大约 6 000 词。
值得记住的社交媒体字符上限
- X/Twitter 帖子:280 字符(2006 年 3 月上线时原本是 140;2017 年 11 月翻倍为 280)。X Premium 用户自 2023 年 2 月起可发布最多 25 000 字符。URL 不论实际长度始终算 23 字符,emoji 算 2,CJK 字符算 2。
- Bluesky:300 字符。
- Threads(Meta):500 字符。
- LinkedIn 帖子:3 000 字符;桌面端约前 210 / 移动端约前 140 显示在「展开」之前。
- Instagram 标题:2 200 字符,有 125 字符的预览。
- TikTok 标题:4 000 字符。
- SMS GSM-7:每段 160 字符;UCS-2(用于非拉丁字母)降到 70。
- Google meta description:桌面端约 155-160 字符后被截断,移动端约 120。
- Google title 标签:桌面端约 50-60 字符或约 600 像素。
句子分割比按句号切难得多
天真规则,按 .、!、? 切分,在第一段就会失败于任何真实英语文本。「Dr. Smith met Mr. Jones at U.S. Steel」是一个句子;天真切分会返回四个。「J. R. R. Tolkien wrote The Hobbit」是一个;天真返回四。「The pH of 7.4 is normal」是一;天真返回二。域名(「Visit absolutool.com.」)和电子邮件造成假阳性;省略号(「Wait...what?」)造成假阴性。
稳健的分割要么需要一份精心筛选的缩写列表(NLTK 的 Punkt 分割器采用的方法,Kiss 与 Strunk 2006 年的论文用一百万词语料训练,F1 ≈ 0.97),要么需要一个统计模型。对浏览器内计数器,实用折衷是:按 [.!?]+ 后接空白和大写字母切分,加上一个小型缩写黑名单(Mr|Mrs|Dr|Prof|Sr|Jr|St|Inc|Ltd|U.S|e.g|i.e|etc|vs)。即使这样,在嘈杂文本上的准确率也封顶在大约 90%。请把句子数视为近似值。
可读性公式,每个一段
Flesch Reading Ease(1948)。Rudolf Flesch 的公式:206.835 − 1.015 × (词数/句数) − 84.6 × (音节数/词数)。越高越易读。0-30 是「非常困难,大学毕业生」;60-70 是「平实英语,八到九年级」;90-100 是「非常容易,五年级」。Reader's Digest 目标 ~65;Time 目标 ~52;Harvard Law Review 在 30 上下。
Flesch-Kincaid Grade Level(1975)。由美国海军委托 J. Peter Kincaid 为技术手册可读性而开发:0.39 × (词数/句数) + 11.8 × (音节数/词数) − 15.59。输出是美国学年级别(8.0 = 八年级)。如今嵌入 Microsoft Word 的拼写检查中,是文案领域被引用最多的可读性指标。
SMOG(1969)。Harry McLaughlin 的「Simple Measure of Gobbledygook」只统计文本开头、中间、末尾各取的连续十句中三音节及以上的词。美国国立卫生研究院在面向患者的医疗手册上偏好它,因为在医疗文本上它与实际理解度的相关性比 Flesch-Kincaid 更高。
Gunning Fog(1952)。Robert Gunning 的指数:0.4 × ((词数/句数) + 100 × (复杂词数/词数))。The Wall Street Journal 目标 Fog ~11;伦敦《Times》~14。Gunning 的论点是,任何商业写作 Fog 超过 12 都会失去读者。
阅读时间和讲话时间,数字从哪里来
本计数器以每分钟 200 词显示阅读时间,以每分钟 130 词显示讲话时间。200 wpm 这个数字相对于 Marc Brysbaert 2019 年对 190 项研究的元分析是偏保守的,他的元分析在非虚构上收敛到 238 wpm,在虚构上 260 wpm(Journal of Memory and Language)。略偏慢的一侧是用户友好的选择,「五分钟阅读」实际上是四分钟,要好过实际是七分钟。130 wpm 的讲话速度对应日常对话;正式演讲平均 100-130 wpm。一场二十分钟的主旨演讲大约相当于 2 600 个口语词。Medium 的「X min read」功能由 Mike Sall 于 2014 年引入,最初按 275 wpm 校准。
为什么你的字数与 Word 的不同
三个常见原因:(1)Microsoft Word 和 Google Docs 把带连字符的词当作一个(与本计数器一致),但有些 PHP 计数器会按所有非字母字符切分,把「well-known」算成两个。(2)从 Word 粘贴会带来不可见字符,弯引号、不间断空格(U+00A0)、软连字符(U+00AD),会按工具的不同把词碎裂或合并。(3)默认情况下,unique-word 计数对大小写敏感,因此「The」和「the」算两个不同的唯一词;去除大小写并做词干化处理(「running」→「run」)会把唯一词数在典型散文上降低约 15%。
如果你的中文或日文文本显示零(或一)个词,那是按空白分词器在按它被告知的方式工作,把注意力转向字符数,那才是这些文字的有意义指标。如果「3,000」算一个词,那是因为逗号是非空白字符,而 token 是连续的;这是正确行为,与 Word 一致。
更多问题
可读性分数有多准确?
可读性公式从「每句词数」和「每词音节数」估算复杂度,它们其实不理解你的文笔好不好。「八年级」分数意味着句长和音节密度典型于八年级阅读材料;它不证明清晰度。把分数当作健全检查,而不是判决。Hemingway 的得分大约在四年级;King James Bible 大约八年级;The Wall Street Journal 大约十一年级。
本计数器处理 Markdown 或 HTML 吗?
它把文本框里的所有内容原封不动地计入,包括 **粗体**、# 标题以及像 <p> 这样的 HTML 标签。如果你只想数渲染后的文本,先把内容粘到 Markdown 预览器或浏览器的阅读视图里,再把清理后的文本拷过来。Hugo、Jekyll 和 11ty 在为构建好的页面计算字数前,都会去掉 front-matter 和 Markdown。
命中精确字数的最佳建议是什么?
把目标多写出 10-15%,然后裁剪。裁剪比注水容易得多,而且裁剪几乎总能让文章更有力,因为最容易删掉的就是最弱的。编辑老话「杀死你的宝贝」只在你有宝贝可杀的时候才有意义,这就要求你先把它们写出来。
我可以把它用于法律摘要和法庭文件吗?
作为健全检查可以,美国最高法院将申诉人 brief 上限设为 13 000 词,联邦规则 32(a)(7)(B) 将上诉 brief 上限设为 13 000 词,均按空白计数。提交时所需的认证字数,请使用 Microsoft Word 的计数(法院按名称接受),把本工具当作初稿检查。