有一首影视插曲叫《不可说》。不可说,是语言学知识得以建立的压舱石。但是不可说与否也有诸多细节,说出来都是坑。要想找到正确的打开方式,不可不察。
1、最小二元对立(minimal pairs)
“最小二元对立”指的是除了一个地方有差异以外,其他地方完全相同的两个例句。而恰恰是这个差异,导致人们对两个例句做出完全不同的解读,或者做出完全不同的反应。比如:
(1a)看了三天就腻了。
(1b)看了三天就忘了。
此处,两句唯一的差别就是“腻”和“忘”,它们决定了 “看了三天”的时间起算点的差别:(1a)是从“看”的动作开始起计算三天,而(1b)则是从“看”的动作结束起计算三天。这样的方法,可以在问题的驱动下,迅速把焦点集中到有差异之处,从而揭示出差异背后的原因所在。
再比如:
(2a)我要求你离开。
(2b)我答应你离开。
这里,两句唯一的差别就是“要求”和“答应”,它们都是双宾语动词,它们的直接宾语都是谓词性成分。而正是它们的差异,决定了“离开”的主体是“你”还是“我”:“要求”是兼语式双宾动词,其间接宾语是直接宾语的逻辑主语;“答应”是穿透式双宾动词,其逻辑主语是直接宾语的逻辑主语。
“最小二元对立”的方法,在语言学研究中被广泛采用。很多设计精妙的最小二元对立例句,不仅具有学术价值,而且具有欣赏价值。
“最小二元对立”方法涉及到的一对例句,不仅有可能是上面那种“都可说”但“意义结构有明显差别”,还有可能是“一个可说,另一个不可说”(按照语言学文献的惯例,不可说的例句前标记星号“*”)。比如:
(3a)他死了。
(3b)*他死着。
通过两个例句的比对,可以发现谓语动词对于时态助词、进而对时态本身有一种选择性。其背后的原因是,依据谓语动词所描述的事件在时间结构上的不同,其与时态之间的兼容性也不相同。当二者不兼容时,动词与时态助词之间的结合就受到排斥。在上面的例句中,事件“死”的内在时间结构是“一种持续状态的结束”,因此和表示“状态持续”的时态助词“着”在语义上互斥,因此例句(E003b)在语感上处于“不可说”的境地。
所谓“可说”或“不可说”,细究起来涉及到的约束有多种情况。有的是“合语法性”、有的是“可接受性”、有的是“现实性”,还有的是“可流通性”。它们之间在语感上似乎只有微妙的区别,甚至非专业人士都不一定注意得到,但考察语言现象的维度却完全不同。
违背“合语法性(grammaticality)”约束,指的是“不存在这种句法结构”。比如在汉语中,副词修饰名词就是一种不存在的句法结构。例如“*马上山洞”、“*不飞机”就是这种情况(“真孙子”可以说,但这时“孙子”已经不再是名词,而是临时转化成了形容词)。
违背“可接受性(acceptability)”约束,指的是“存在这种组合类型,但不存在这种具体搭配”。·比如在汉语中,“数词+量词+名词”是一种合语法的组合类型,但“一匹猪”就是这种组合类型的一个不可接受的搭配实例,要说“一口猪”或“一头猪”才可接受。这些约束,不是规则或词类层面的约束,而是实例或句法次范畴乃至语义层面的约束,其中有的约束甚至显得有些不讲道理。这体现了实际自然语言的边界复杂性,也可以为复杂句子的解析带来便利。比如在分析句子“这碗猪都不喝的汤你还是倒了吧”时,我们就可以通过量词与名词之间的搭配约束,直接排除“这碗猪”结合的可能性,从而更高效精准地捕捉“碗”与“汤”搭配带来的正确句法结构。
违背“现实性(Reality)”约束,指的是语句虽然合法,但其所描述的场景不具有现实性。比如乔姆斯基的著名例句“Thecolorless green ideas sleep furiously. (无色的绿色的思想在狂暴地睡觉。)” 这里就有多处语义组合不具有现实性,甚至有的互相矛盾。一般来说,语言表达的内容现实与否,不是一个语言学问题。但是当面临歧义选择的时候,具有现实性的语义组合相较于不具有现实性的语义组合,就会显现出一定的优势。请看下例:
(4) 馒头吃光了。
(4a) 馒头(主)吃(谓)光(宾)了。
(4b) 馒头(宾)吃(谓)光(补)了。
解读4a要强迫性地把“馒头”想象为一种具有消化功能的生物,把“光”这种看得见但摸不着的物理对象想象为一种食物,这就属于不具有现实性的解读。而解读4b很自然地把“光”理解成“吃”的补语,说明食物“馒头”通过“吃”这一行为达到了一种“没有剩余”的状态,这就属于一种具有现实性的解读。两种解读实力不对称地较量下来,我们看到解读4a已经完败,不被认为是例句4的歧义,而被认为是一种可以被排除的“伪歧义”。
上面的例句说明:一个孤立而且形式上没有歧义的句子,语义上即使不具有现实性,也跟语言没有关系,你尽可以理解成科幻、童话、玄幻、荒诞或别的什么不靠谱的表述好了。但是,如果是一个形式上有歧义的句子,对它的两个不同解读分别对应了具有现实性和不具有现实性的语义组合,那么具有现实性的语义组合就会表现出某种显著的优先性,从而把不具有现实性的语义组合对应的解读压制住、排除掉。由此可见,现实性不构成对语言是否“可说”的硬性约束,但构成对歧义消解的软性约束。
我们要讨论的最后一个跟语言的“可说”与否相关的概念是“可流通性”。可流通性本是一个金融概念,指的是发生价值交换的频繁程度。这一概念借用到语言中来,用以说明某种语言组合在现实语言交流中被使用的频繁程度。以“二字形容词+一字名词”格式为例。像“*好吃饼”、“*奢侈包”这种组合,一般来说在韵律上给人一种头重脚轻的感觉,所以可流通性较差,属于一种语言学上“不推荐”的语言格式。这可以在搜索引擎中通过全文检索得到印证。但是,少数经过刻意包装的这种格式的组合,也能在语言交流中广泛传播开来,比如“犀利哥”、“厉害国”等等。它们不仅没有任何违和感,而且在修辞上还能收到奇效。但这种有效组合,多属写手的神来之笔,也与时代和社会风尚息息相关,刻意模仿不得。事实上,这种“不推荐”的韵律格式,大部分可流通度很低,极少部分则火爆流行,几乎不存在中间状态。
通过上面的具体拆解,可以看到,对语言的“可说”与否的判断,其实是一个大杂烩,背后有语法规范的因素、习惯搭配的因素、逻辑与现实的因素以及韵律与流通的因素等。不同因素导致的二元对立都有自身起作用的限定范围。如果用“可说”与否来分析处理最小二元对立,一定要进行仔细甄别这些限定范围,否则就会被不适用的因素所干扰。
回到语言学知识体系的建立上来。我们知道,语言学知识的正确性取决于语言事实的正确性。而关于语法的负面语言事实,即反例,就是利用“不可说”来构成的。所以,不可说与否的判断,是构筑语言学知识体系最重要的环节之一。
但通过上面的分析,我们发现,“不可说”不是一个刚性的标准,而是一个在执行中有很大自由裁量权的标准,更是一个可以细分并根据细分情形的不同各有适用范围的标准。
我们更看到,实际语料,特别是网上的短文本,如微博、微信、推特等发言,具有很严重的随意性。一个后果就是:很多语言学家认为“不可说”的,都被人说真实地说了出来而且完全能够正常理解,没人认为不妥。
反过来,要是一个对话机器人在跟人对话的时候这么随意,马上就会有人抗议说质量怎么这么差。好像对于语言理解像亲妈,犯什么错误都是可以容忍的,对于语言生成像后妈,有错就要必究。
这就尴尬了。在商业上和工程上厚此薄彼没什么,在学术上这就意味着理解用的可说性标准和生成用的可说性标准根本是两套标准,背后有两套不同的语法!
其实,语言的真正边界也许可以描绘成一条“毛毛虫”。理解用的语法刻画的是它的一个“外包络”,里面包括了所有的“可说”,但出于宽容也容纳了相当部分的“不可说”;生成用的语法刻画的是它的一个“内包络”,说出来的都很有把握属于“可说”,但出于保险没说出来的也有相当部分的“可说”。对别人宽容为上,对自己保险为上,这是语言学混NLP江湖的秘籍。