科研进展

心理所与自动化所合作建立大规模词汇语义维度评分数据库

发布时间:2023-03-09 作者:中国科学院行为科学重点实验室 李兴珊研究组 林楠

  如何对语义信息进行量化表示一直是认知科学的一大难题。近年来,人工智能领域出现的分布式语义模型在这方面取得了重大的成功。但是,这一类语义模型的底层维度的心理现实性较低,阻碍了其在心理、教育、认知神经科学等领域的一些应用。另一方面,心理学和认知神经科学揭示出了大脑中支持语义表征的主要系统,提出了与这些系统相对应的经验语义维度,进而开发出了相应的主观评分方法来对其进行量化。这一类语义维度具有较高的心理和神经现实性。有研究发现,基于此类主观语义评分所构建的语义模型相比常用的分布式语义模型能够更好地拟合和解释大脑中的神经活动。

  目前,围绕上述两类量化语义维度的研究都在如火如荼地展开,但各自都难以对大量自然语言进行可解释化的量化语义分析:分布式语义模型虽然能够量化表示所有词的语义信息,但其语义维度的心理现实性不足;经验语义维度的可解释性高,但评分成本也高,难以覆盖所有词,不能满足对任意自然文本进行分析的需求。为了解决上述问题,中国科学院行为科学重点实验室李兴珊课题组的林楠副研究员与中科院自动化所王少楠副研究员组织各自所在研究团队成员开展跨学科合作,结合心理学和人工智能两大学科的优势,构建了大规模词汇语义维度评分数据库——六维语义数据库。

  研究者首先围绕心理学和认知神经科学所揭示出的六个主要语义维度,即视觉、动作、社会、情感、时间、空间,针对17940个常用中文词,开展了大规模的主观语义评分实验。进而,研究者结合评分实验的结果和分布式语义模型,对约143万中文词和152万英文词的六维语义评分进行了估算。最后,研究者结合本实验的数据以及其他已发表的多个中、英文语义评分数据库,对所获得的主观语义评分和估算语义评分进行了多项信度和效度检验。结果显示六维语义数据库所包含的主观评分和计算估计评分都具备较高的信效度。

图1:17940个中文词在各个语义维度的主观评分结果分布

  横轴表示结果的分数段,纵轴表示该分数段上的词汇数量。其中情感维度的原始评分范围是-6到6,分别代表极端消极和积极的情感,为了衡量词汇绝对情感性的高低,研究者额外提供了这一评分的绝对值加1的分数作为另一个情感语义维度测量

图2:17940个中文词在各个语义维度的评分结果见的相关系数

  六维语义数据库的发布将助力相关领域研究者对自然语言的语义信息进行高效、大规模、可解释地量化分析,有力地推动心理学、脑科学、人工智能等相关领域的研究。

  该数据库已共享在OSF repository(https://doi.org/10.17605/OSF.IO/N5VKE),并通过心理科学数据银行发布(https://cstr.cn/31253.11.sciencedb.psych.00107)。

  该研究受国家自然科学基金(62036001, 31871105, 31871108)和中国科学院心理研究所自主部署项目(E2CX3625CX)资助,发表在Nature旗下数据类期刊Scientific Data。论文第一作者为中科院自动化所王少楠副研究员,通讯作者为中科院心理所林楠副研究员。

  论文信息:

  Wang, S., Zhang, Y., Shi, W., Zhang, G., Zhang, J., Lin, N.*, & Zong, C. (2023) A large dataset of semantic ratings and its computational extension. Scientific Data, 10, 106. https://doi.org/10.1038/s41597-023-01995-6


附件下载: