科研进展

心理所研究阐明句子语境影响中文阅读词切分的认知机理

发布时间:2021-03-12 作者:中国科学院行为科学重点实验室 李兴珊研究组 黄林洁琼

  去年国庆长假后,一则标题为《旺盛内需潜力不断释放 广东省长假“成绩单”亮眼》通讯报道引发了网友的围观。网友讨论的热点在于 “广东省长假‘成绩单’亮眼”这部分应该如何断句,是“广东省/长假成绩单”还是“广东/省长/假成绩单”呢?虽然在阅读完整篇通讯报道后,读者可以明确地知道这是一份国庆长假的成绩单,但是具有歧义性的文章标题引发了不小的关注和讨论。 

  上述这种歧义现象在中文阅读中十分常见。不同于拼音文字(如英语),中文文本由连续的汉字组成,没有明显的空格将不同的词分开;并且,中文词的词长变异性大,包含单字词、两字词和多字词。因此一些情况下,中文文本的词汇边界是有歧义的,相同的文本可能有多种切分的方式。例如,“省长假”中左侧词“省长”和右侧词“长假”都是词,“省长假”既可以被切分为左侧词结构“省长/假”,也可以被切分为右侧词结构“省/长假”。“省长假”这种三字字段被称为重叠歧义字段。重叠歧义字段的切分问题是中文阅读词切分面临的挑战之一,也是计算机领域提高中文分词系统的准确率需要解决的重要问题。 

  为了正确地理解文本,中文读者需要明确重叠歧义字段的哪种切分结构是正确的,如“省长假”的正确切分到底是“省长/假”还是“省/长假”。在缺少低水平的视觉线索(如词间空格)的情况下,中文读者需要利用其他信息或线索进行词切分。由于自然阅读过程中,汉字和词都是嵌入在句子中的,因此句子语境对于中文阅读词切分十分重要。 

  那么,句子语境如何影响中文阅读词切分?主要有两种可能性:中文读者在词切分的过程中利用句子语境信息,因此最初得到的切分结果受到句子语境的影响;中文读者基于其他信息得到最初的切分结果后,再利用句子语境信息评估初始切分是否正确。 

  为了考察前文语境是否影响中文词切分的初始切分结果,中国科学院行为科学重点实验室李兴珊研究组的科研人员操纵重叠歧义字段的右侧词对于前文语境的合理性程度。例如,对于重叠歧义字段“东西装”的右侧词“西装”而言,当前文语境是“他把不要的”时,“西装”在语境中是高合理的;但是当前文语境是“他把要吃的”时,“西装”是低合理的。而重叠歧义字段的左侧词对于前文语境总是合理的,并且句子的最终切分结构为左侧词结构。例如,“他把不要的东西装了满满一箱子”和“他把要吃的东西装了满满一袋子”这两个句子中,“东西”对于前文语境都是合理的,并且句子最终被切分为“东西/装”。 

  研究结果表明,和低合理条件相比,当右侧词对于前文语境是高合理的条件下,重叠歧义字段的第一遍阅读时间显著更长,读者的眼睛也会更多地回视到这个位置。该结果提示,前文语境能够影响中文阅读中词切分的早期词汇竞争阶段。在高合理条件下,由于得到了前文语境的支持,右侧词的激活水平增加,能够与左侧词激烈地相互竞争。右侧词与左侧词之间较强的竞争导致读者需要花费更多的时间决出胜利者,因此重叠歧义字段上第一遍阅读时间更长。并且这种情况下,由于右侧词的活跃,读者有时候错误地将重叠歧义字段切分为右侧词结构,使得他们在读到后文内容后意识到自己切分错误,从而发出回视到重叠歧义字段对切分结果进行修正。 

  综上所述,该研究证实了词在语境中的合理性对中文阅读的词切分过程有较强且较早的影响,表明中文读者能够利用前文语境信息进行初始切分,而不仅仅只是利用句子语境信息检查和评估初始切分结果是否正确。该研究成果有助于深入理解中文阅读的认知机理,为计算模型提供科学依据,以及为进一步提高人工智能领域的自然语言加工能力提供借鉴。 

  上述研究受国家自然科学基金31970992)、国际(地区)合作与交流项目(62061136001)的资助。

  相关成果已在线发表于Journal of Memory and Language,第一作者为心理所博士研究生黄林洁琼,通讯作者为李兴珊研究员。 

    

  论文信息: 

  Huang, L.#, Staub, A., & Li, X*. (2021). Prior context influences lexical competition when segmenting Chinese overlapping ambiguous strings. Journal of Memory and Language, 118, 104218. https://doi.org/10.1016/j.jml.2021.104218 

    

  相关文章: 

  Huang, L.#, & Li, X.* (2020). Early, but not overwhelming: The effect of prior context on segmenting overlapping ambiguous strings when reading Chinese. Quarterly Journal of Experimental Psychology, 73(9), 13821395. https://doi.org/10.1177/1747021820926012  

  Zhou, J.#, & Li, X.* (2021). On the segmentation of Chinese incremental words. Journal of Experimental Psychology: Learning, Memory, and Cognition. Advance online publication. https://doi.org/10.1037/xlm0000984 

 


附件下载: