论文:https://arxiv.org/pdf/2403.01972.pdf
代码:https://github.com/quqxui/MPIKGC
知识图谱就像一个大数据库,里面有很多关于不同事物的信息,这些信息是以三元组的形式存在的,比如(人物,关系,事物),如(Ian Bryce,制片,变形金刚:月黑之时)。
知识图谱补全的任务有两个:判断给定的三元组是否正确(三元组分类),以及预测缺失的部分,例如找出缺失的实体或关系(链接预测)。
为了解决这些问题,我们提出了一个新型的技术框架MPIKGC,该框架通过利用大型语言模型(LLMs)生成辅助文本来提升KGC模型的性能。
具体解法可以拆解为以下几个子解法:
实体信息补全:
关系模糊消除:
图连接稀疏问题:
在研究和改进知识图谱(一种存储实体及其相互关系的数据库)的过程中,存在两个主要方法:基于结构的方法和基于描述的方法。
基于描述的知识图谱补全(KGC)方法主要使用文本描述来提高对实体和关系的理解,通过如下方式:
大型语言模型(LLMs)在知识图谱中的应用:
基于描述的KGC方法通过分析文本描述来理解实体和关系,而大型语言模型则为这些方法提供了一个强大的工具,可以深入挖掘文本中的知识,帮助填补知识图谱中的缺口。
上图描绘了一个名为MPIKGC的框架,这是一个旨在通过从实体、关系和结构的角度改进知识图谱的模型。
这个框架通过LLM查询来生成额外的描述和结构,使得知识图谱更完整、信息更丰富。
MPIKGC框架包含以下三个主要部分:
假设我们有一个简单的医学知识图谱,它包含实体(如疾病、症状、药物)和它们之间的关系。
在这个知识图谱中,我们可能有如下三元组:
但是,知识图谱可能不完整,缺少某些关键信息,例如糖尿病的其他症状或与阿司匹林相关的副作用。
为了补全这些信息,我们可以使用下面的方法:
描述扩展:我们询问一个大型语言模型,比如GPT-4,关于糖尿病的更多信息。
模型可能会告诉我们,除了高血糖,糖尿病还可能导致视力模糊和疲劳。
现在我们可以在知识图谱中添加新的三元组,如(糖尿病, 关联症状, 视力模糊)和(糖尿病, 关联症状, 疲劳)。
关系理解:如果知识图谱只是简单地标记了阿司匹林“用于治疗”发热,我们可能会用提示策略让语言模型提供更多上下文,比如阿司匹林还能“减少炎症”或“预防血栓”。
这样我们就能在知识图谱中添加更准确的关系描述,比如(阿司匹林, 用于预防, 血栓)。
结构提取:对于长尾实体,比如一个不太为人知的罕见疾病,我们可以让语言模型提取该疾病的特征或相关信息。
如果模型提供了与其他疾病相似的症状,我们可以创建新的链接,显示这些疾病之间的相似性,从而丰富知识图谱的结构。
以一种罕见疾病“多发性硬化症”作为例子来说明结构提取的过程。
在我们的知识图谱中,“多发性硬化症”可能与几个症状相关联,例如肌肉无力和视觉问题。
但是,我们的图谱可能没有完全覆盖这个疾病的所有相关信息。
我们现在使用一个大型语言模型来提取更多信息。
关键词提取:语言模型可能会从医学文献或数据库中提取出“多发性硬化症”通常与“认知功能障碍”和“步态不稳”这些症状相关联的信息。
新的链接创建:有了这些新提取的关键词,我们可以在知识图谱中创建新的三元组,如:
结构丰富:进一步地,如果语言模型指出“系统性红斑狼疮”也与“认知功能障碍”有关,我们可以在这两种疾病之间添加一个“相似症状”类型的链接,以显示它们之间的相似性。
新的结构模式形成:通过这样的操作,我们不仅补充了单个疾病的信息,还在不同疾病之间创建了新的联系,有助于揭示它们之间可能的共同生物学机制或治疗方法的对比。
这增加了知识图谱的丰富性,使得研究者能够看到不同疾病间的联系,这些联系以前可能未被注意到。例如:
这个过程有助于研究人员理解不同疾病间的潜在联系,为疾病诊断和治疗提供更多线索。
通过这种方式,知识图谱变得更加完整,能够支持更复杂的查询和分析,最终提升医疗保健领域的知识发现和决策支持。
更多【语言模型-MPIKGC:大语言模型改进知识图谱补全】相关视频教程:www.yxfzedu.com