相关研究


基于义原的词表示学习


Improved Word Representation Learning with Sememes
词向量的学习是自然语言处理中一项非常重要而有意义的任务,这项研究探索将义原信息融入词表示学习模型中来提高词向量的效果,核心思想是利用中心词所标注的义原来更准确地捕捉到在当前上下文中,中心词所表现出来的语义。具体而言,这项研究基于Skip-gram模型,同时学习词、义项和义原向量,采用注意力机制来检测中心词在不同上下文中的义项。在词相似度和词类比实验中,这项研究提出的模型实现了比其他词向量表示学习模型更好的性能。这项研究表明通过采用注意力机制,义原信息可以更好地融入词向量中,提高词向量学习效果。

该研究成果作为长文发表在ACL 2017。

论文与开源项目: [论文链接]  [开源项目链接]

基于义原的语言模型


Language Modeling with Sparse Product of Sememe Experts
传统语言模型在编码输入序列后直接在词层面或字层面进行预测,而这项研究希望通过引入知网中“义原-词义-单词”的结构关系,层次化这样的预测过程,进而提高语言模型的性能和可解释性。这样的语言模型称为义原驱动的语言模型(SDLM)。义原驱动的解码器以循环神经网络输出的上下文向量作为输入,输出预测下一个单词的概率,其结构包括以下三个层次化的模块:A、给定循环神经网络最后生成的上下文向量,预测每个义原将在下个词中出现的概率;B、使用上下文向量和A中的预测,给出每个词义出现的概率;C、将B中的词义出现的概率边缘化得到每个单词的概率。中文语言模型数据集上的实验结果证明了SDLM模型相比较传统语言模型和之前使用层次化解码器的语言模型在性能上的优势。

该研究成果作为长文发表在EMNLP 2018。

论文与开源项目: [论文链接]  [开源项目链接]

新词的义原推荐


Lexical Sememe Prediction via Word Embeddings and Matrix Factorization
人工标注义原、构造义原数据集费时费力,并且会有较大的不一致性和噪声。这项研究工作首次提出利用词向量来为新词自动进行义原标注,采用了推荐系统中的协同过滤和矩阵分解的方法,相应地提出了两个模型SPWE和SPSE。在实验中,两个模型,以及两个模型的集成模型在义原预测任务上表现出较好的效果。这项研究将对现有义原标注的准确性和和一致性检验以及新词的义原标注有重要意义。

该研究成果作为长文发表在IJCAI 2017。

论文与开源项目: [论文链接]  [开源项目链接]

Incorporating Chinese Characters of Words for Lexical Sememe Prediction
现有的义原自动标注方法,都只利用了大规模文本信息(即外部信息),对于低频词的推荐效果很差。针对这个问题,这项研究提出了一个新颖的框架,充分利用词的内部汉字信息和外部上下文信息进行义原推荐,并提出了两种方法:基于词-字过滤的方法以及基于字符和义原向量的方法对内部信息进行利用。基于词-字过滤的方法将词分为前中后,并统计每个字符对应的义原概率。而基于字符和义原向量的方法预先学习字符向量,并使用矩阵分解的方法学习义原向量。在表示义原和词的距离时,使用距离义原向量最近的字来表示一个词。实验结果表明本文中两种方法的集成模型在不同频率的词表上表现均比现有最好方法有显著提升,特别是在低频词上呈现出更加鲁棒的性能。

该研究成果作为长文发表在ACL 2018。

论文与开源项目: [论文链接]  [开源项目链接]

跨语言词的义原推荐


Cross-lingual Lexical Sememe Prediction
知网(HowNet)仅仅为中英双语词标注了义原,对于大多数其他语言,尤其是低资源语言,没有像知网这样的义原知识库,这在一定程度上阻碍了将义原用于这些语言的自然语言处理任务中去。通过机器学习的方法,将现有知网中的义原知识迁移到其他语言中,相比于从头构建其他语言义原知识库,无疑是一种省时省力的方法。因此这项研究提出了跨语言词的义原推荐这一任务,并且设计了基于融合义原信息的双语词表示和协同过滤的框架,实现了较好的跨语言词义原推荐效果。

该研究成果作为长文发表在EMNLP 2018。

论文与开源项目: [论文链接]  [开源项目链接]