免费在线单词和字符计数器

在下方粘贴或输入文本,即可立即查看单词数、字符数、句子数、段落数和预计阅读时间。

0
单词
0
字符
0
字符(不含空格)
0
句子
0
段落
0s
阅读时间
0s
朗读时间
0
不重复单词
-
可读性

关于此工具

此免费单词计数器非常适合学生、作家、博主和社交媒体经理。可立即统计论文、推文、Instagram 标题等的单词数。阅读时间基于每分钟 200 个单词的平均阅读速度。

常见字数限制

了解常见限制有助于您达到目标:

常见问题

阅读时间是如何计算的?

我们使用每分钟 200 个单词的标准平均值。这是成人阅读非技术内容时广泛接受的平均速度。

什么算作一个单词?

任何由空白字符分隔的字符序列都算作一个单词。像 "well-known" 这样的连字符单词算作一个单词。数字和缩写也计入。

我的文本会被保存吗?

不会。一切都在您的浏览器中进行。您的文本绝不会发送到任何服务器或存储在任何地方。关闭标签页后文本即消失。

到底什么算一个词?

Microsoft Word、Google Docs、Pages、Unix 的 wc 命令以及几乎每一个浏览器内的计数器,都遵循同一条规则:一个词就是一连串非空白字符的最大序列,与相邻序列由空白分隔。wc 的 POSIX 标准把词定义为「由空白分隔的、长度非零的可打印字符序列」,这跟一段四行的 JavaScript 实现(text.trim().split(/\s+/).length)产生的规则相同。它纯粹是机械的:它不懂词法、不懂标点、不懂语言。「Hello world」是两个词;没有空格的「Hello,world」是一个。「Don't」是一个词;「do n't」是两个。

语言学家会反驳。Oxford English Dictionary 区分书写词(graphemic word)(由空格界定的字母序列)和词位(lexeme)(抽象的词典词条)。两者在常见情况下会分歧:

对普通散文,这条规则与一个细心人工计数之间的分歧通常在百分之一以下。对于高度复合、连字符密集或数字密集的文本,可达到 5-15%。在空白规则之上,Unicode 还发布了一份正式的词边界算法(UAX #29),基于字符类别识别词边界的 14 条规则状态机。JavaScript 通过 Intl.Segmenter{granularity: 'word'} 暴露它,这是在没有词典的情况下,正确数中文、日文、泰文或高棉文词数的唯一办法。

不使用空格的语言

中文、日文(纯汉字或汉字 + 平假名)、泰文、老挝文、高棉文、缅甸文和藏文写作时都不在词与词之间加空格,这种约定叫 scriptio continua。把以空白做分词的工具用在一段中文上,会返回 1,把整段当作一个「词」。对这些文字,有意义的指标是字符数,而不是词数。

在专业翻译里,经验法则大致是一个汉字 ≈ 1.5-2.0 个英语单词;两个日文字符 ≈ 一个英语单词;一个韩文字符 ≈ 0.55 个英语单词。中译英译者通常按中文那边的源字符数和英文那边的目标词数计费。韩文是东亚文字中独特的一支,它确实使用词与词之间的空格(띄어쓰기,ttuieosseugi),所以按空白分词是有效的,只不过分词规则出了名地难,连母语者在边界情况上也会有分歧。

按词付酬作家的简史

按词付酬起源于十九世纪末的大众发行杂志。到 1920 和 1930 年代,廉价杂志,Black MaskWeird TalesAstoundingArgosy,按词付酬,稿酬从每词四分之一美分到二美分不等。Raymond Chandler 在 1930 年代从 Black Mask 拿到的著名稿酬是每词一美分。这种模式延续至今:廉价内容工厂每词付 0.01-0.05 美元,中档行业杂志付 0.30-0.75 美元,顶级美国铜版纸杂志(The New YorkerThe AtlanticWiredHarper's)付每词 1-3 美元,重头特稿偶尔更高。

因为字数上限是合同性的,知道精确的词数就是收入。一篇 1 500 词的特稿按每词 1 美元算就是 1 500 美元;1 400 词就是 1 400 美元。编辑会执行字数上限,委托 2 000 词的稿件意味着 1 950-2 050,而不是 2 400,超过上限可能意味着按固定费率削减或拿一笔毙稿费。

长篇小说字数与每日字数习惯

出版业对成人长篇小说的目标字数惊人地一致。成人文学小说落在 80 000-100 000 词;商业惊悚、悬疑和爱情在 70 000-90 000;史诗奇幻和科幻在 100 000-120 000(偶尔 150 000+)。Young Adult 是 50 000-80 000,Middle Grade 25 000-55 000,绘本 100-500,中篇 17 500-40 000,短篇 1 000-7 500,闪小说不到 1 000。经纪人会拒绝那些字数严重偏离这些区间的处女作小说投稿,无论质量如何,因为这些约定字数编码了读者期望和印刷成本。

国家小说写作月(NaNoWriMo)由 Chris Baty 于 1999 年创立,把十一月的目标定为 50 000 词,大约相当于《了不起的盖茨比》(50 061)和《第五号屠场》(49 459)的长度。这相当于三十天里每天 1 667 词。Stephen King 在《写作这回事》中建议每天 2 000 词;Anthony Trollope 在去邮局上班前每天写 3 000;据说 Graham Greene 每天严格停在 500 词;Mark Twain 的目标是 1 400。每日字数习惯就是把「我有个想法」变成「我会在 N 天内写完」的东西。一部 90 000 词的小说,按每天 1 000 词,就是 90 天。

学术与期刊字数

对美国和英国的高等教育,典型作业长度大致为:高中作文 300-1 000 词;大学(人文)论文 1 500-3 000;期末论文 3 000-6 000;荣誉学位论文 12 000-20 000;硕士论文 20 000-40 000;博士论文人文方向 80 000-100 000(理工科常更短,40 000-60 000)。Common App 个人陈述上限 650 词,申请门户会强制执行。UCAS 个人陈述(英国)上限 4 000 字符或 47 行,二者中较短者。多数大学对作业字数限制实行 ±10% 的容差。

期刊文章从 500-1 500 词的 letter,到 1 500-3 000 词的 brief,再到 4 000-8 000 词的标准研究论文,以及 6 000-12 000 词的综述。Nature Letters 上限 3 000 词;JAMA Original Investigation 3 000 词加上三段式摘要;PNAS Direct Submission 限六个印刷页,大约 6 000 词。

值得记住的社交媒体字符上限

句子分割比按句号切难得多

天真规则,按 .!? 切分,在第一段就会失败于任何真实英语文本。「Dr. Smith met Mr. Jones at U.S. Steel」是一个句子;天真切分会返回四个。「J. R. R. Tolkien wrote The Hobbit」是一个;天真返回四。「The pH of 7.4 is normal」是一;天真返回二。域名(「Visit absolutool.com.」)和电子邮件造成假阳性;省略号(「Wait...what?」)造成假阴性。

稳健的分割要么需要一份精心筛选的缩写列表(NLTK 的 Punkt 分割器采用的方法,Kiss 与 Strunk 2006 年的论文用一百万词语料训练,F1 ≈ 0.97),要么需要一个统计模型。对浏览器内计数器,实用折衷是:按 [.!?]+ 后接空白和大写字母切分,加上一个小型缩写黑名单(Mr|Mrs|Dr|Prof|Sr|Jr|St|Inc|Ltd|U.S|e.g|i.e|etc|vs)。即使这样,在嘈杂文本上的准确率也封顶在大约 90%。请把句子数视为近似值。

可读性公式,每个一段

Flesch Reading Ease(1948)。Rudolf Flesch 的公式:206.835 − 1.015 × (词数/句数) − 84.6 × (音节数/词数)。越高越易读。0-30 是「非常困难,大学毕业生」;60-70 是「平实英语,八到九年级」;90-100 是「非常容易,五年级」。Reader's Digest 目标 ~65;Time 目标 ~52;Harvard Law Review 在 30 上下。

Flesch-Kincaid Grade Level(1975)。由美国海军委托 J. Peter Kincaid 为技术手册可读性而开发:0.39 × (词数/句数) + 11.8 × (音节数/词数) − 15.59。输出是美国学年级别(8.0 = 八年级)。如今嵌入 Microsoft Word 的拼写检查中,是文案领域被引用最多的可读性指标。

SMOG(1969)。Harry McLaughlin 的「Simple Measure of Gobbledygook」只统计文本开头、中间、末尾各取的连续十句中三音节及以上的词。美国国立卫生研究院在面向患者的医疗手册上偏好它,因为在医疗文本上它与实际理解度的相关性比 Flesch-Kincaid 更高。

Gunning Fog(1952)。Robert Gunning 的指数:0.4 × ((词数/句数) + 100 × (复杂词数/词数))The Wall Street Journal 目标 Fog ~11;伦敦《Times》~14。Gunning 的论点是,任何商业写作 Fog 超过 12 都会失去读者。

阅读时间和讲话时间,数字从哪里来

本计数器以每分钟 200 词显示阅读时间,以每分钟 130 词显示讲话时间。200 wpm 这个数字相对于 Marc Brysbaert 2019 年对 190 项研究的元分析是偏保守的,他的元分析在非虚构上收敛到 238 wpm,在虚构上 260 wpm(Journal of Memory and Language)。略偏慢的一侧是用户友好的选择,「五分钟阅读」实际上是四分钟,要好过实际是七分钟。130 wpm 的讲话速度对应日常对话;正式演讲平均 100-130 wpm。一场二十分钟的主旨演讲大约相当于 2 600 个口语词。Medium 的「X min read」功能由 Mike Sall 于 2014 年引入,最初按 275 wpm 校准。

为什么你的字数与 Word 的不同

三个常见原因:(1)Microsoft Word 和 Google Docs 把带连字符的词当作一个(与本计数器一致),但有些 PHP 计数器会按所有非字母字符切分,把「well-known」算成两个。(2)从 Word 粘贴会带来不可见字符,弯引号、不间断空格(U+00A0)、软连字符(U+00AD),会按工具的不同把词碎裂或合并。(3)默认情况下,unique-word 计数对大小写敏感,因此「The」和「the」算两个不同的唯一词;去除大小写并做词干化处理(「running」→「run」)会把唯一词数在典型散文上降低约 15%。

如果你的中文或日文文本显示零(或一)个词,那是按空白分词器在按它被告知的方式工作,把注意力转向字符数,那才是这些文字的有意义指标。如果「3,000」算一个词,那是因为逗号是非空白字符,而 token 是连续的;这是正确行为,与 Word 一致。

更多问题

可读性分数有多准确?

可读性公式从「每句词数」和「每词音节数」估算复杂度,它们其实不理解你的文笔好不好。「八年级」分数意味着句长和音节密度典型于八年级阅读材料;它不证明清晰度。把分数当作健全检查,而不是判决。Hemingway 的得分大约在四年级;King James Bible 大约八年级;The Wall Street Journal 大约十一年级。

本计数器处理 Markdown 或 HTML 吗?

它把文本框里的所有内容原封不动地计入,包括 **粗体**# 标题以及像 <p> 这样的 HTML 标签。如果你只想数渲染后的文本,先把内容粘到 Markdown 预览器或浏览器的阅读视图里,再把清理后的文本拷过来。Hugo、Jekyll 和 11ty 在为构建好的页面计算字数前,都会去掉 front-matter 和 Markdown。

命中精确字数的最佳建议是什么?

把目标多写出 10-15%,然后裁剪。裁剪比注水容易得多,而且裁剪几乎总能让文章更有力,因为最容易删掉的就是最弱的。编辑老话「杀死你的宝贝」只在你有宝贝可杀的时候才有意义,这就要求你先把它们写出来。

我可以把它用于法律摘要和法庭文件吗?

作为健全检查可以,美国最高法院将申诉人 brief 上限设为 13 000 词,联邦规则 32(a)(7)(B) 将上诉 brief 上限设为 13 000 词,均按空白计数。提交时所需的认证字数,请使用 Microsoft Word 的计数(法院按名称接受),把本工具当作初稿检查。

相关工具