书面语严谨工整,口语却充满断句、绕回、改口与"嗯…啊…"。这不是谁不够聪明——而是大脑在实时、单通道、不可回退的压力下被迫做的取舍。我们顺着语言学、认知科学(含侯世达的类比理论),一直追到大语言模型,看它究竟是怎么回事。
很多人下意识觉得:书面语才是"标准",口语是它的劣化版。语言学界早就推翻了这个直觉。
语言学家 Wallace Chafe 在 1980 年代做了一项经典实证:让 20 位研究生和大学教授,每人产出四种语料——餐桌闲聊课堂讲座私人信件学术论文,然后逐项统计它们的结构特征。结论很反直觉:口语和书面语沿着两个维度系统性地分开。
维度一 · 碎片化(Fragmentation)↔ 整合(Integration):口语把话切成一小节一小节,节与节之间用 "and / but / so"("然后…就…所以…")松松地串起来;书面语则把同样的信息压缩、嵌套进一个复杂长句。
维度二 · 参与(Involvement)↔ 抽离(Detachment):口语黏着说话人和现场(大量"我觉得""你看"),书面语刻意抽离(把人藏到被动句和抽象名词背后)。
光说"口语单元更短"还不够。真正分开两套系统的,是单元与单元之间怎么连接。Chafe 给了一个很锋利的判断:口语靠 串联(chaining)把一节一节平铺着接起来,书面语靠 整合(integration)把它们嵌套、压缩进一个精心雕刻的长句。下面全部是他论文里的真实转写(每行=一个语调单元,.. / ... 表示停顿的长短)。
▸ 口语:用 "and / and then" 把单元一节节"焊"成长链(Chafe 例 24,一段露营见闻):
▸ 书面语:把同样多的信息,整合("雕刻")进一个嵌套长句(Chafe 例 26,一句学术散文):
书面语具体靠哪几样工具把单元"撑长"? Chafe 把它拆成可统计的语法手段,下表是每千词出现次数(数字越往右越高=越偏书面整合):
| 整合手段(让一个单元装下更多信息) | 对话 🗣️ | 讲座 🎤 | 信件 ✉️ | 论文 📄 |
|---|---|---|---|---|
| 名词化 把动词压成名词 represent → representation | 27 | 56 | 55 | 92 |
| 前置定语 形容词/名词修饰 target categories | 23 | 56 | 55 | 77 |
| "and" 连接成分 把两元素并成复合短语 suffering and illness | 8 | 12 | 18 | 24 |
| 分词 现在/过去分词作修饰 activity originating in… | 5 | 6 | 11 | 24 |
| 并列串联 单元以 and/but/so 开头(口语特征) | 34 | 21 | 12 | 4 |
读这张表的窍门:前四行(整合手段)从左到右一路升高,最后一行(口语串联)反过来一路降低。同一个意思,口语选择"多起几节、用 and 接住",书面语选择"少起几节、用名词化和嵌套把它们压进一句"。这就是"碎片化 ↔ 整合"这条维度最硬核的证据。
注意:这条"6.2→9.3"的曲线并非"口语 vs 书面"的二分,而是一个连续谱。讲座(口语却正式)比闲聊整合,信件(书面却随意)比论文碎片。真正起作用的不是"嘴还是笔",而是"实时压力 + 正式度"。这点对后面理解大模型很关键——重点从来不是模态,而是有没有时间回头改。
如果口语本就是另一套语法,那它为什么偏偏选择了"碎片化"?答案在大脑的实时加工约束里。
心理语言学家 Willem Levelt(马普所)把"说话"拆成四个加工组件。关键在于它们不是排好队一个做完再做下一个,而是层层叠压地并行推进。
检索相关信息、把脑中并行的念头排成一条说话的顺序、编成命题。
为每个概念找到合适的词,并搭出句法框架。
取出每个词的读音,算出怎么发音。
真正把声音发出去——一旦出口,不可撤销。
我越来越觉得:书面语的"逻辑严谨",很大程度上是"时间"买来的,不是"智力"买来的。写字时你拥有三样口语没有的奢侈品——无限的规划时间、可回退的删除键、可见的全局上下文。把这三样还给说话人(让他念稿、或慢慢想),口语的"逻辑漏洞"会立刻收敛。这也解释了为什么"提词器"和"打腹稿"如此有效:它们本质是把书面语的三件奢侈品偷渡进了口语场景。
如果说 Levelt 解释了"实时压力下的机制",那么 Douglas Hofstadter(侯世达)则给了一个更激进、也更深刻的解释:口语里的逻辑跳跃,根本就是思维本来的样子。
侯世达(《集异璧 GEB》作者)与心理学家桑德尔在 《表象与本质》(Surfaces and Essences, 2013)里提出一个"简单却离经叛道"的主张:
"类比是一切思考的核心。" —— 我们并非偶尔做类比,而是每一秒、每一个念头都在把当前情境往过往经验上"靠"。
在他看来,所谓"理解一个东西",就是不自觉地把它归到某个心理范畴里;而每个范畴(概念)都不是僵硬的标签,而是多年来一长串类比堆出来的、流动的、会变形的实体。说话时选哪个词、用哪个比方,全是这种高速类比的产物。
侯世达特别点名了一类口误——词汇混搭(lexical blend),并说它"出奇地常见,却极少被说话人或听者察觉"。它指的是:脑中同时激活了两个意思相近的词或表达,结果脱口而出的是它俩"焊"在一起的混合体。
比如中文里想说"差不多"又想说"大概",冒出来"差概";英文里把 "close" 和 "near" 混成奇怪的说法。这种错不是发音失误,而是概念检索阶段两条类比通道"撞车"了。
把 Chafe、Levelt、侯世达叠在一起看,会发现一条漂亮的递进:Chafe 描述了现象(口语碎片化),Levelt 解释了为什么(实时单通道、来不及打磨),侯世达则把它拔到了本体论高度——他说,别急着把口语的跳跃当"缺陷"来修,因为那些跳跃、混搭、改口,正是人类思维"以类比为引擎"的真实指纹。书面语之所以"干净",不是因为思维本身干净,而是因为我们用大量离线时间,把思维的毛边一遍遍磨平了。口语,才是思维的原始录像。
把前三节落到具体手段上——这是 Chafe 实证里最锋利的部分。
| 维度 | 口语(实时 · 不可回退) | 书面语(离线 · 可回退) |
|---|---|---|
| 基本单元 | 语调单元 短、一节一节喷 | 复杂句 长、嵌套 |
| 连接方式 | 松散并列:"然后…就…所以…" | 紧密从属:从句、关系代词嵌入 |
| 增加信息量靠 | 再起一节(碎片化) | 名词化、介词短语层叠、前置定语(整合) |
| 典型例子 | "我昨天去那个…就那个店,买了个东西" | "昨日于该店购得一物"(名词化+省略主语) |
| 说话人在场感 | 强:大量第一人称"我/我们" | 弱:被动句、名词化把人藏起来 |
| 错误/修改 | 全程暴露:犹豫、假开头、重复、自我修正、词汇混搭 | 全部隐藏在最终稿之外 |
| 不流畅率 | 约 6% 的词带有不流畅(Kasl & Mahl 1965) | ≈ 0(终稿已清洗) |
"约 6% 的词带有 不流畅(disfluency)"——这里的"不流畅"专指填充停顿(嗯/啊)、重复("about about")、自我修正("八天,我是说八个月")等表层断点,不等于"逻辑错误"。这是口语研究里被反复引用的经验数字(Kasl & Mahl 1965、Fox Tree 1995 等),不同语料、语种会有出入,正式场合更低、紧张/即兴更高。但它和"逻辑感受到的混乱"高度相关——下一节我们就用大模型把这层关系量化出来。
"6%"听起来抽象,但 Kasl & Mahl(1965,沿用 Mahl 1956 的编码体系)把它拆成了可逐条数出来的八个类别。他们的做法是:把自然对话逐字转写,凡出现下列任意一种"断点"就记一次,再除以总词数。下面每一类都配了原始论文风格的真实例子(断点用 琥珀色标出):
| # | 类别(Mahl 原始命名) | 它在录音里听起来是什么样 | 例子 |
|---|---|---|---|
| 1 | "Ah" 填充停顿 filled pause | 用 "ah / uh / 嗯 / 那个" 占住说话权、为后面争取规划时间 | I went to the ah store |
| 2 | Sentence Change 改口 / 自我修正 | 话说到一半,推翻刚才的措辞,换一个说法重来 | We were— I mean they were late |
| 3 | Repetition 重复 | 把一个(或几个)词原样再说一遍,常是为下一个难词拖时间 | It was about about ten |
| 4 | Stutter 结巴 | 卡在一个词的开头音上,反复弹 | b- b- because of that |
| 5 | Omission 省略 / 吞音 | 词没说完就吞掉、或漏掉一部分 | I was talk— speaking to her |
| 6 | Sentence Incompletion 未完句 | 整句话半道掐断、彻底不接了,直接跳去说别的 | If you— … well, never mind |
| 7 | Tongue Slip 口误 / 说漏嘴 | 说出非本意的词、音节倒置、两词混搭(即侯世达说的 lexical blend) | our queer dean(本想说 dear queen) |
| 8 | Intruding Incoherent Sound 插入的无意义音 | 突然蹦出一个不成词的杂音,既非填充词也非要说的内容 | and then [kh-] we left |
Kasl & Mahl 1965 真正的贡献,不只是数出"6%",而是发现 第 1 类"Ah"和其余 7 类在功能上根本不是一回事。他们让被试在不同焦虑水平下说话,结果:
于是他们提出了沿用至今的两个指标:Ah Ratio = ah 次数 / 总词数 与 Non-Ah Ratio = 其余七类之和 / 总词数。把"嗯啊"和"改口结巴"分开计量,正是因为前者反映认知负荷、后者反映情绪状态——这个二分直到今天的语音情感识别、ASR 不流畅检测里仍在用。
几点要交代清楚:(1)"6%"是量级而非定数——Mahl 原始研究是临床访谈语料,不同语料库(电话对话、即兴演讲、二语者)实测从 ~2% 到 10%+ 都有;(2)这八类是"表层不流畅",刻意不含"逻辑断裂、答非所问"这类语义层问题,那是另一套体系;(3)第 7 类 Tongue Slip 恰好和上一节侯世达的"词汇混搭"对上了——同一个现象,Mahl 当作"要数的紊乱",侯世达当作"思维滑移的窗口",立场不同但指的是同一件事。
这是本报告我最想讲的一段。认知科学一个几十年的老假设,竟然被大语言模型给"测量"出来了。
早在 1954 年,语言学家 Lounsbury 就猜测:"一个词在上下文里越出乎意料,说话人在它之前越可能出现不流畅。"翻译成认知科学的话:不可预测 = 认知负荷高 = 大脑要多花时间,于是用"嗯…"或重复来争取规划时间。他当年没法量化"出乎意料",所以这只是假设。
2020 年,Sun 等人用 OpenAI 的 GPT-2 把"出乎意料"直接量化成了困惑度,然后在 Switchboard 口语语料(一个大型真实电话对话录音转写库)上做了检验:
的口语不流畅,出现在 GPT-2 困惑度最高、次高、或离最高点一个词以内的位置——远非随机分布。
不流畅之后紧跟的那个词,困惑度显著高于流畅语境——说明"嗯…"真的出现在"难词"之前。
这条证据链对我冲击很大:人脑"卡壳"的地方,和一个纯文本训练的语言模型"觉得难预测"的地方,高度重合。这意味着困惑度不只是个工程指标,它在某种程度上测到了人类语言加工的真实认知负荷。它甚至和侯世达对上了——困惑度高的地方,往往就是"类比不顺、要现做新连接"的地方。
反过来看也很有启发:我们今天的 LLM 几乎全部在清洗过的书面语(网页、书、代码)上训练,它学到的是 Chafe 说的"整合型语法"。所以当它遇到真实口语——那些碎片化、自我修正、"逻辑直播"的输入——它的困惑度天然会飙高。这正是语音助手、会议纪要、客服 ASR 后处理反复踩坑的根源:模型不是听不懂内容,而是它的"语言直觉"是书面语调教出来的。
既然口语失序会拉高困惑度、干扰下游任务,工业界的第一反应是先做"不流畅清洗"。2025 年的 DRES 基准,把这件事的难度量化了。
德州农工大学团队(Teleki et al., 2025)构建了 DRES(Disfluency Removal Evaluation Suite,不流畅清除评测套件)——基于人工标注的 Switchboard 转写,把"清洗口语"从"语音识别错误"里剥离出来,纯测模型在文本层面识别并删除"嗯/啊、插入语、自我修正"的能力。横评大量开闭源模型后,结论很有看头:
哪怕是长上下文模型,把转写切成小段再处理,性能也一致提升——长上下文≠会用上下文。
reasoning 型模型倾向过度删除流畅的词——把人正常说的话当噪声删了,矫枉过正。
针对性微调能逼近 SOTA 精确率/召回,但明显伤害通用能力(GSM8K/MMLU 掉点)。
GPT-4o 系列比最好的开源模型高 10–15 个点,作者归因于其训练见过大量 Whisper 转写的语音数据。
②③两条特别耐人寻味:"删过头"说明模型对"什么是失序、什么是说话人风格"边界不清——而这恰恰是人类自我监控环每天在做、且做得很微妙的判断;"微调损泛化"说明"听懂口语"和"通用智能"在当前架构里存在张力,不是免费午餐。换句话说,口语理解不是一个可以"外挂"解决的小问题,它牵动模型的核心语言表征。
清洗只是治标。更要命的问题是:当口语化、噪声、闲话直接进入大模型时,它的逻辑推理能力会被显著削弱——这正好呼应了你最初的直觉。2025 年有两组研究把它量化得很清楚。
一项多语言鲁棒性研究(MulTypo, 2025)按真实键盘布局和打字习惯,给输入注入类人错字与扰动,然后在 18 个开源模型、5 类任务上横评。核心发现:
口语转写本质上就是一种高噪声、非规范输入。这条结论直接说明:口语化越严重,越是在"推理"这种你最需要它靠谱的地方,模型越容易崩。
另一项研究(GSM-DC, 2025)专门构造数学推理题,往里精准注入无关干扰句,再看模型表现。结论很硬:
无关上下文不仅拉低最终算术准确率,还会改变模型选择的推理路径——它会忍不住去"理会"那句闲话。
好消息:用带强干扰的样本去训练,能显著提升模型对无关信息的抵抗力——说明这是可缓解的。
把 05/06/07 串起来,主线就完整了:口语失序源于人脑实时约束(Levelt)、是思维类比机制的指纹(侯世达)→ 表层等价于"高困惑度"(GPT-2 证据)→ 而只吃书面语的 LLM 天生不擅长这种输入 → 不仅要费劲清洗(DRES),口语里的噪声和闲话还会直接拖垮它的推理(MulTypo / GSM-DC)。
对真正想做好语音 / 对话 Agent 的人,我的判断是:"先清洗、再推理"的两段式流水线,长期看是个妥协而非答案。因为清洗会损泛化、会删过头,而真正的口语理解需要模型像人一样——一边听一边在线区分"哪些是信息、哪些是说话人的犹豫与闲话"。可行的方向有两条:① 在预训练/后训练数据里就掺入真实口语转写(带失序、带自我修正、带闲话),让"碎片型语法"也进入模型的语言直觉;② 像 GSM-DC 那样主动用带干扰的样本做鲁棒性训练,让模型学会"听人把话说完、自动滤掉绕回去的部分"。这,才是从根上对齐人类口语认知的路子。
回到你最初的问题——"为什么口语逻辑/语法问题这么多?"答案不是"人懒"或"没文化",而是几个领域异口同声指向的同一件事:
语言的"严谨",是用 时间、删除键、全局视野 换来的;
口语把这三样都拿走了,于是大脑改用 碎片化 + 实时类比 + 边说边改 这套更省力、也更真实的语法。
下次你听见自己说话"绕回去、改口、嗯啊半天",可以这么想:你不是逻辑差,你只是在没有删除键的情况下,把思考过程直播给了世界。而这——把一团流动的、靠类比驱动的思维,实时压成一根线吐出来——恰恰是机器到今天都还没完全学会理解的东西。