认知科学 · 语言学 · 大模型

为什么我们一开口,逻辑就"漏"了?

书面语严谨工整,口语却充满断句、绕回、改口与"嗯…啊…"。这不是谁不够聪明——而是大脑在实时、单通道、不可回退的压力下被迫做的取舍。我们顺着语言学、认知科学(含侯世达的类比理论),一直追到大语言模型,看它究竟是怎么回事。

深度研究报告 · 科学发现专栏 · 含个人见解
~ 8000 字 · 含实证数据、机制拆解与术语注解 ~

⚡ 一分钟抓重点

01先破一个误会:口语不是"坏掉的书面语"

很多人下意识觉得:书面语才是"标准",口语是它的劣化版。语言学界早就推翻了这个直觉。

两套语法,而非一套语法的优劣

语言学家 Wallace Chafe 在 1980 年代做了一项经典实证:让 20 位研究生和大学教授,每人产出四种语料——餐桌闲聊课堂讲座私人信件学术论文,然后逐项统计它们的结构特征。结论很反直觉:口语和书面语沿着两个维度系统性地分开。

语调单元 intonation unit口语不是一句一句"造句"出来的,而是一小节一小节"喷"出来的。每一节有完整的语调轮廓(一口气说完、前后有停顿),通常对应一个简单子句——这就是语调单元。你可以把它理解成大脑一次能规划并吐出的"语言块"的大小。它越短,说明说话人越是"想一点说一点"。

维度一 · 碎片化(Fragmentation)↔ 整合(Integration):口语把话切成一小节一小节,节与节之间用 "and / but / so"("然后…就…所以…")松松地串起来;书面语则把同样的信息压缩、嵌套进一个复杂长句。

维度二 · 参与(Involvement)↔ 抽离(Detachment):口语黏着说话人和现场(大量"我觉得""你看"),书面语刻意抽离(把人藏到被动句和抽象名词背后)。

📏 每个语调单元的平均词数(Chafe & Danielwicz, 1987)——越往下越"整合":

对话 🗣️
6.2
最碎
讲座 🎤
7.3
信件 ✉️
8.4
学术论文 📄
9.3
最整合

那么,语调单元是怎么"拼成一句话"的?——两套截然不同的组合术

光说"口语单元更短"还不够。真正分开两套系统的,是单元与单元之间怎么连接。Chafe 给了一个很锋利的判断:口语靠 串联(chaining)把一节一节平铺着接起来,书面语靠 整合(integration)把它们嵌套、压缩进一个精心雕刻的长句。下面全部是他论文里的真实转写(每行=一个语调单元,.. / ... 表示停顿的长短)。

▸ 口语:用 "and / and then" 把单元一节节"焊"成长链(Chafe 例 24,一段露营见闻):

... And there was two women, hiking up ahead of us, ... and you sort of got to a rise, and then the lake was kind of right there where we were gonna ... camp. ... And the two of them, .. got to the rise, and the next minute, ... they just ... fell over, totally.⮑ 注意:几乎每个新单元都顶着一个 and / and then 开头。这不是啰嗦,而是口语的"默认黏合剂"——它最省脑力,说话人不用提前盘算整句的逻辑骨架,想到一节、接一节即可。Chafe 统计:对话里 34% 的语调单元都以这类并列连词开头,学术论文里只有 4%

▸ 书面语:把同样多的信息,整合("雕刻")进一个嵌套长句(Chafe 例 26,一句学术散文):

A novelist's insistence on the referential function of her work's language is, at least in part, always necessarily divided against itself (as the deconstructionist critics show) because that insistence stems, paradoxically, from an awareness of the novel's fictionality.⮑ 一整段信息被"焊死"进一个句子:主句 + 让步插入语(at least in part)+ 括号补充(as the critics show)+ 原因从句(because…)。读者要靠标点和缩进在脑中还原层级——这种活儿只有"有时间回头改"的书面语才做得出来。

书面语具体靠哪几样工具把单元"撑长"? Chafe 把它拆成可统计的语法手段,下表是每千词出现次数(数字越往右越高=越偏书面整合):

整合手段(让一个单元装下更多信息)对话 🗣️讲座 🎤信件 ✉️论文 📄
名词化 把动词压成名词 represent → representation27565592
前置定语 形容词/名词修饰 target categories23565577
"and" 连接成分 把两元素并成复合短语 suffering and illness8121824
分词 现在/过去分词作修饰 activity originating in…561124
并列串联 单元以 and/but/so 开头(口语特征)3421124

读这张表的窍门:前四行(整合手段)从左到右一路升高最后一行(口语串联)反过来一路降低。同一个意思,口语选择"多起几节、用 and 接住",书面语选择"少起几节、用名词化和嵌套把它们压进一句"。这就是"碎片化 ↔ 整合"这条维度最硬核的证据。

⚖️ 严谨一点

注意:这条"6.2→9.3"的曲线并非"口语 vs 书面"的二分,而是一个连续谱。讲座(口语却正式)比闲聊整合,信件(书面却随意)比论文碎片。真正起作用的不是"嘴还是笔",而是"实时压力 + 正式度"。这点对后面理解大模型很关键——重点从来不是模态,而是有没有时间回头改

02认知科学:大脑为什么"管不住嘴"

如果口语本就是另一套语法,那它为什么偏偏选择了"碎片化"?答案在大脑的实时加工约束里。

Levelt 言语产出模型:从念头到声音的四级流水线

心理语言学家 Willem Levelt(马普所)把"说话"拆成四个加工组件。关键在于它们不是排好队一个做完再做下一个,而是层层叠压地并行推进

增量加工 incremental processingLevelt 把它比作"铺屋瓦":前一片瓦还没铺完,下一片已经搭上来。落到说话上就是——前半句还在嘴里往外吐,后半句已经在脑子里现编。正因为是边想边说、而不是想完再说,所以一旦后面没跟上,前面已经出口、收不回来了,于是只能靠"嗯…""那个…"或者改口来补救。
1
概念化 Conceptualization|想说什么

检索相关信息、把脑中并行的念头排成一条说话的顺序、编成命题。

瓶颈:念头是网状的,话却只能一根线吐出来 → 这里就埋下"逻辑跳跃"的种子
2
语法编码 Grammatical Encoding|选词搭句

为每个概念找到合适的词,并搭出句法框架。

瓶颈:词没及时取到 → 卡壳、"那个那个"、临时换一种说法
3
音系编码 Phonological Encoding|配音

取出每个词的读音,算出怎么发音。

瓶颈:算得慢 → 填充停顿"嗯…"为后面争取时间
4
发声 Articulation|说出口

真正把声音发出去——一旦出口,不可撤销

这是与书面语最本质的差异:没有删除键
自我监控 + 自我修正 self-monitoring / self-repair大脑里有个"质检员":你一边说,一边在听自己说(甚至话还没出口、在"内部默念"阶段就开始听)。一旦发现不对,就走三步——① 发现问题 → ② 打断当前话流 → ③ 重启来改。我们听到的"我觉得这个方案…啊不,我是说那个旧方案"就是它在工作。书面语里这套"打断—重改"全发生在纸面之外(你删了重写,读者看不到);口语里它全程被直播。
💡 我的看法

我越来越觉得:书面语的"逻辑严谨",很大程度上是"时间"买来的,不是"智力"买来的。写字时你拥有三样口语没有的奢侈品——无限的规划时间、可回退的删除键、可见的全局上下文。把这三样还给说话人(让他念稿、或慢慢想),口语的"逻辑漏洞"会立刻收敛。这也解释了为什么"提词器"和"打腹稿"如此有效:它们本质是把书面语的三件奢侈品偷渡进了口语场景。

03侯世达:口语的"乱",恰恰暴露了思维的真面目

如果说 Levelt 解释了"实时压力下的机制",那么 Douglas Hofstadter(侯世达)则给了一个更激进、也更深刻的解释:口语里的逻辑跳跃,根本就是思维本来的样子

一个颠覆性的前提:类比是一切思考的核心

侯世达(《集异璧 GEB》作者)与心理学家桑德尔在 《表象与本质》(Surfaces and Essences, 2013)里提出一个"简单却离经叛道"的主张:

"类比是一切思考的核心。" —— 我们并非偶尔做类比,而是每一秒、每一个念头都在把当前情境往过往经验上"靠"。

在他看来,所谓"理解一个东西",就是不自觉地把它归到某个心理范畴里;而每个范畴(概念)都不是僵硬的标签,而是多年来一长串类比堆出来的、流动的、会变形的实体。说话时选哪个词、用哪个比方,全是这种高速类比的产物。

心理范畴是"流体的" categories are fluid侯世达的意思是:你脑子里的"概念"不像字典词条那样边界清晰、固定不变,而更像会随情境变形的水。每次你把一个新东西归进某个范畴,因为没有哪两个实例完全一样,就一定会发生一点"滑移"(slippage)。这点滑移在书面语里被反复打磨掉了,在口语里却原样保留——所以口语听起来才那么"跳"。

词汇混搭:思维滑移的"现行犯"

侯世达特别点名了一类口误——词汇混搭(lexical blend),并说它"出奇地常见,却极少被说话人或听者察觉"。它指的是:脑中同时激活了两个意思相近的词或表达,结果脱口而出的是它俩"焊"在一起的混合体。

比如中文里想说"差不多"又想说"大概",冒出来"差概";英文里把 "close" 和 "near" 混成奇怪的说法。这种错不是发音失误,而是概念检索阶段两条类比通道"撞车"了

侯世达的洞见在于:这类"错误"恰恰是窗口——它让我们窥见了平时被流畅表面掩盖的、思维真实的内部运作:概念不是被精确调用的符号,而是一团团相互竞争、彼此渗透的类比束。
💡 我的看法(三家其实在讲同一件事)

把 Chafe、Levelt、侯世达叠在一起看,会发现一条漂亮的递进:Chafe 描述了现象(口语碎片化),Levelt 解释了为什么(实时单通道、来不及打磨),侯世达则把它拔到了本体论高度——他说,别急着把口语的跳跃当"缺陷"来修,因为那些跳跃、混搭、改口,正是人类思维"以类比为引擎"的真实指纹。书面语之所以"干净",不是因为思维本身干净,而是因为我们用大量离线时间,把思维的毛边一遍遍磨平了。口语,才是思维的原始录像。

04对照表:同一个意思,两套系统怎么分头处理

把前三节落到具体手段上——这是 Chafe 实证里最锋利的部分。

名词化 nominalization把一个动词/形容词"压"成名词来用。比如把"这个系统表现得很好"改写成"该系统的优异表现"——动作"表现"被压成了名词。书面语靠它把一整句话塞进一个名词短语里,从而在一个长句里堆更多信息。这是"整合型语法"最典型的工具,口语里几乎不用。
维度口语(实时 · 不可回退)书面语(离线 · 可回退)
基本单元语调单元 短、一节一节喷复杂句 长、嵌套
连接方式松散并列:"然后…就…所以…"紧密从属:从句、关系代词嵌入
增加信息量靠再起一节(碎片化)名词化、介词短语层叠、前置定语(整合)
典型例子"我昨天去那个…就那个店,买了个东西""昨日于该店购得一物"(名词化+省略主语)
说话人在场感强:大量第一人称"我/我们"弱:被动句、名词化把人藏起来
错误/修改全程暴露:犹豫、假开头、重复、自我修正、词汇混搭全部隐藏在最终稿之外
不流畅率6% 的词带有不流畅(Kasl & Mahl 1965)≈ 0(终稿已清洗)
⚖️ 严谨一点

"约 6% 的词带有 不流畅(disfluency)"——这里的"不流畅"专指填充停顿(嗯/啊)、重复("about about")、自我修正("八天,我是说八个月")等表层断点,不等于"逻辑错误"。这是口语研究里被反复引用的经验数字(Kasl & Mahl 1965、Fox Tree 1995 等),不同语料、语种会有出入,正式场合更低、紧张/即兴更高。但它和"逻辑感受到的混乱"高度相关——下一节我们就用大模型把这层关系量化出来。

这 6% 到底长什么样?——Mahl / Kasl & Mahl 的"言语紊乱八类"

"6%"听起来抽象,但 Kasl & Mahl(1965,沿用 Mahl 1956 的编码体系)把它拆成了可逐条数出来的八个类别。他们的做法是:把自然对话逐字转写,凡出现下列任意一种"断点"就记一次,再除以总词数。下面每一类都配了原始论文风格的真实例子(断点用 琥珀色标出):

#类别(Mahl 原始命名)它在录音里听起来是什么样例子
1"Ah"
填充停顿 filled pause
用 "ah / uh / 嗯 / 那个" 占住说话权、为后面争取规划时间I went to the ah store
2Sentence Change
改口 / 自我修正
话说到一半,推翻刚才的措辞,换一个说法重来We were— I mean they were late
3Repetition
重复
把一个(或几个)词原样再说一遍,常是为下一个难词拖时间It was about about ten
4Stutter
结巴
卡在一个词的开头音上,反复弹b- b- because of that
5Omission
省略 / 吞音
词没说完就吞掉、或漏掉一部分I was talk speaking to her
6Sentence Incompletion
未完句
整句话半道掐断、彻底不接了,直接跳去说别的If you— well, never mind
7Tongue Slip
口误 / 说漏嘴
说出非本意的词、音节倒置、两词混搭(即侯世达说的 lexical blend)our queer dean(本想说 dear queen)
8Intruding Incoherent Sound
插入的无意义音
突然蹦出一个不成词的杂音,既非填充词也非要说的内容and then [kh-] we left
🔬 这篇论文最关键的发现:把第 1 类单独拎出来

Kasl & Mahl 1965 真正的贡献,不只是数出"6%",而是发现 第 1 类"Ah"和其余 7 类在功能上根本不是一回事。他们让被试在不同焦虑水平下说话,结果:

  • "Ah"(填充停顿)与焦虑无关——它随的是认知规划负荷:内容越难组织、要想的越多,"嗯…啊…"越多。它是大脑在说"我还在编下一句,别打断我"。
  • 其余 7 类(合称 "Non-Ah")与焦虑正相关——人一紧张,改口、重复、结巴、说漏嘴就显著增多。

于是他们提出了沿用至今的两个指标:Ah Ratio = ah 次数 / 总词数Non-Ah Ratio = 其余七类之和 / 总词数。把"嗯啊"和"改口结巴"分开计量,正是因为前者反映认知负荷、后者反映情绪状态——这个二分直到今天的语音情感识别、ASR 不流畅检测里仍在用。

⚖️ 严谨一点

几点要交代清楚:(1)"6%"是量级而非定数——Mahl 原始研究是临床访谈语料,不同语料库(电话对话、即兴演讲、二语者)实测从 ~2% 到 10%+ 都有;(2)这八类是"表层不流畅",刻意不含"逻辑断裂、答非所问"这类语义层问题,那是另一套体系;(3)第 7 类 Tongue Slip 恰好和上一节侯世达的"词汇混搭"对上了——同一个现象,Mahl 当作"要数的紊乱",侯世达当作"思维滑移的窗口",立场不同但指的是同一件事。

05意外的桥梁:口语"卡壳"=语言模型的"高困惑度"

这是本报告我最想讲的一段。认知科学一个几十年的老假设,竟然被大语言模型给"测量"出来了。

困惑度 perplexity衡量"一个语言模型对下一个词有多意外"的指标。模型读到上文后,会给每个可能的下一个词打一个概率;如果真实出现的那个词,模型本来觉得概率很低(很意外),困惑度就高。可以粗略理解成"模型被这个词惊到的程度"——困惑度高 = 这里很难预测 = 信息量大 / 不合常规。

1954 年的猜想,2020 年用 GPT-2 验证

早在 1954 年,语言学家 Lounsbury 就猜测:"一个词在上下文里越出乎意料,说话人在它之前越可能出现不流畅。"翻译成认知科学的话:不可预测 = 认知负荷高 = 大脑要多花时间,于是用"嗯…"或重复来争取规划时间。他当年没法量化"出乎意料",所以这只是假设。

2020 年,Sun 等人用 OpenAI 的 GPT-2 把"出乎意料"直接量化成了困惑度,然后在 Switchboard 口语语料(一个大型真实电话对话录音转写库)上做了检验:

51%

的口语不流畅,出现在 GPT-2 困惑度最高、次高、或离最高点一个词以内的位置——远非随机分布。

显著更高

不流畅之后紧跟的那个词,困惑度显著高于流畅语境——说明"嗯…"真的出现在"难词"之前。

💡 我的看法(为什么这对做大模型的人重要)

这条证据链对我冲击很大:人脑"卡壳"的地方,和一个纯文本训练的语言模型"觉得难预测"的地方,高度重合。这意味着困惑度不只是个工程指标,它在某种程度上测到了人类语言加工的真实认知负荷。它甚至和侯世达对上了——困惑度高的地方,往往就是"类比不顺、要现做新连接"的地方。

反过来看也很有启发:我们今天的 LLM 几乎全部在清洗过的书面语(网页、书、代码)上训练,它学到的是 Chafe 说的"整合型语法"。所以当它遇到真实口语——那些碎片化、自我修正、"逻辑直播"的输入——它的困惑度天然会飙高。这正是语音助手、会议纪要、客服 ASR 后处理反复踩坑的根源:模型不是听不懂内容,而是它的"语言直觉"是书面语调教出来的。

06大模型实战 · 上:让 AI 学会"听人话",没那么简单

既然口语失序会拉高困惑度、干扰下游任务,工业界的第一反应是先做"不流畅清洗"。2025 年的 DRES 基准,把这件事的难度量化了。

DRES:给大模型"清洗口语"的能力打分

德州农工大学团队(Teleki et al., 2025)构建了 DRES(Disfluency Removal Evaluation Suite,不流畅清除评测套件)——基于人工标注的 Switchboard 转写,把"清洗口语"从"语音识别错误"里剥离出来,纯测模型在文本层面识别并删除"嗯/啊、插入语、自我修正"的能力。横评大量开闭源模型后,结论很有看头:

① 先分段,普遍更好

哪怕是长上下文模型,把转写切成小段再处理,性能也一致提升——长上下文≠会用上下文。

② 推理模型会"删过头"

reasoning 型模型倾向过度删除流畅的词——把人正常说的话当噪声删了,矫枉过正。

③ 微调提精度,损泛化

针对性微调能逼近 SOTA 精确率/召回,但明显伤害通用能力(GSM8K/MMLU 掉点)。

④ 闭源领先 10–15 分

GPT-4o 系列比最好的开源模型高 10–15 个点,作者归因于其训练见过大量 Whisper 转写的语音数据。

🔬 这意味着什么

②③两条特别耐人寻味:"删过头"说明模型对"什么是失序、什么是说话人风格"边界不清——而这恰恰是人类自我监控环每天在做、且做得很微妙的判断;"微调损泛化"说明"听懂口语"和"通用智能"在当前架构里存在张力,不是免费午餐。换句话说,口语理解不是一个可以"外挂"解决的小问题,它牵动模型的核心语言表征。

07大模型实战 · 下:口语化会实打实地拖垮推理

清洗只是治标。更要命的问题是:当口语化、噪声、闲话直接进入大模型时,它的逻辑推理能力会被显著削弱——这正好呼应了你最初的直觉。2025 年有两组研究把它量化得很清楚。

证据一:噪声/口误,对"需要推理的任务"伤害最大

一项多语言鲁棒性研究(MulTypo, 2025)按真实键盘布局和打字习惯,给输入注入类人错字与扰动,然后在 18 个开源模型、5 类任务上横评。核心发现:

  • 错字/噪声一致地降低性能,且在生成类、尤其是需要推理的任务上掉得最狠;相对简单的"判断两句话是否矛盾"这类任务则更抗造。
  • 更反直觉的是:指令微调(instruction tuning)虽然抬高了"干净输入"下的成绩,却可能让模型在噪声下更脆——越是被精调得"听话",越经不起现实里的乱。

口语转写本质上就是一种高噪声、非规范输入。这条结论直接说明:口语化越严重,越是在"推理"这种你最需要它靠谱的地方,模型越容易崩。

无关上下文 irrelevant context, IC题目里那些对求解毫无帮助、却被顺手塞进来的信息。口语里这东西无处不在——"我昨天,哦对那天还下雨,反正我买了 3 斤苹果,啊我表妹也爱吃苹果,然后又买了 2 斤……一共几斤?"那两句"下雨""表妹"就是无关上下文。人类会自动忽略,但模型不一定。

证据二:哪怕只是"塞了句闲话",也会带偏推理

另一项研究(GSM-DC, 2025)专门构造数学推理题,往里精准注入无关干扰句,再看模型表现。结论很硬:

推理路径被带偏

无关上下文不仅拉低最终算术准确率,还会改变模型选择的推理路径——它会忍不住去"理会"那句闲话。

可以训练抗干扰

好消息:用带强干扰的样本去训练,能显著提升模型对无关信息的抵抗力——说明这是可缓解的。

💡 我的看法(这才是问题的下半场)

把 05/06/07 串起来,主线就完整了:口语失序源于人脑实时约束(Levelt)、是思维类比机制的指纹(侯世达)→ 表层等价于"高困惑度"(GPT-2 证据)→ 而只吃书面语的 LLM 天生不擅长这种输入 → 不仅要费劲清洗(DRES),口语里的噪声和闲话还会直接拖垮它的推理(MulTypo / GSM-DC)。

对真正想做好语音 / 对话 Agent 的人,我的判断是:"先清洗、再推理"的两段式流水线,长期看是个妥协而非答案。因为清洗会损泛化、会删过头,而真正的口语理解需要模型像人一样——一边听一边在线区分"哪些是信息、哪些是说话人的犹豫与闲话"。可行的方向有两条:① 在预训练/后训练数据里就掺入真实口语转写(带失序、带自我修正、带闲话),让"碎片型语法"也进入模型的语言直觉;② 像 GSM-DC 那样主动用带干扰的样本做鲁棒性训练,让模型学会"听人把话说完、自动滤掉绕回去的部分"。这,才是从根上对齐人类口语认知的路子。

08收束:三个领域,一个共同的真相

回到你最初的问题——"为什么口语逻辑/语法问题这么多?"答案不是"人懒"或"没文化",而是几个领域异口同声指向的同一件事:

语言的"严谨",是用 时间、删除键、全局视野 换来的;
口语把这三样都拿走了,于是大脑改用 碎片化 + 实时类比 + 边说边改 这套更省力、也更真实的语法。

  • 语言学(Chafe):这是两套语法,不是一套的优劣——口语"碎"是设计,不是缺陷。
  • 认知科学(Levelt):碎片化与自我修正,是实时单通道加工的必然产物,犹豫即规划。
  • 认知哲学(侯世达):口语的跳跃与混搭,是思维以"类比"为引擎运转时留下的真实指纹。
  • 大模型(perplexity / DRES / MulTypo / GSM-DC):人脑卡壳处=模型困惑度峰值处;而只吃书面语的 LLM,恰恰最不擅长这种输入,口语化还会直接拖垮它的推理。

下次你听见自己说话"绕回去、改口、嗯啊半天",可以这么想:你不是逻辑差,你只是在没有删除键的情况下,把思考过程直播给了世界。而这——把一团流动的、靠类比驱动的思维,实时压成一根线吐出来——恰恰是机器到今天都还没完全学会理解的东西。