知识图谱本质上是事实
KELM 是知识增强语言模型预训练的缩写。像 BERT 这样的自然语言处理模型通常是在网络和其他文档上进行训练的。 KELM建议在语言模型预训练中添加可信的事实内容(知识增强),以提高事实准确性并减少偏差。 KELM 背景 自然语言文本通常包含偏见和事实上不准确的信息。然而,知识图等替代数据源包含结构化数据。知识图谱本质上是事实,因为信息通常是从更可信的来源提取的,并且后处理过滤器和人工编辑器确保删除不适当和不正确的内容。因此,任何可以包含这些内容的自然语言模型都具有事实准确性和减少偏见的优点。然而,这些数据的结构化 电报数据 性质使得它们难以合并到自然语言模型中。 在语言模型的KELM预训练中,谷歌尝试了一种将KG数据转换为自然语言的方法,以创建合成语料库。 然后,他们利用 REALM(一种基于合成语料库的检索语言模型)作为预训练中集成自然语言语料库和知识图谱的方法。 将 KG 转换为自然语言文本 让我们通过一个简单的例子来理解这一点。 知识图谱由以结构化格式明确表示的事实信息组成,通常采用[主体实体、关系、客体实体]三元组的形式,例如。一组相关的三元组称为实体子图。
https://zh-cn.baleads.com/wp-content/uploads/2024/04/电报数据.png
基于前面的三元组示例构建的实体子图的示例是 { , },如下图所示。 KG 可以被视为互连的实体子图。 来源:谷歌人工智能博客 将实体子图转换为自然语言是标准数据到文本处理任务。然而,将整个 KG 转换为有意义的文本还有其他挑战。 此外,现实世界的 KG 比基准 KG 更细粒度和更广泛。此外,对于基准数据集,它们还预定义了可以形成有意义的句子的子图。对于整个知识图谱,还需要创建实体子图的分割。
頁:
[1]