大家好,欢迎来到IT知识分享网。
GNN学习笔记(二)表征学习基本介绍
一、表征学习(Representation Learning)
1.什么是表征学习
机器学习技术不仅依赖于算法本身的设计,好的数据表达(特点)集合也非常重要。表征学习的目的是从数据中提取足够且最小化的信息,用于后续处理。传统的表征学习通常基于先验知识和领域专家的意见,这种传统的表征学习被称为特征工程(feature engineering)。特征工程是一种利用人类创造力和先验知识,以从数据中提取和组织用于机器学习任务的判别信息的技术。
2.传统表征学习(特征工程)的局限性
3.表征学习的分类
表征学习是在特征工程的基础上发展起来的。本书主要研究基于深度学习的表征学习。基于深度学习的表征学习主要可以分为三类:
(1)监督学习:训练模型的数据都含有对应标签
(2)无监督学习(包含自监督学习):使用没有对应标签的数据进行训练,旨在了解数据潜在的固有结构和分布。
(3)迁移学习
4.如何判断表征学习效果
表征学习通常用于提取数据的特征,使后续构建分类器时更加简单有效。因此,表征学习的评估要考虑其下游任务,根据下游任务的需要确定什么样的表征是优秀的。同时,好的表征方式可能具有一些一般性质,例如:平滑性(smoothness)、线性性(linearity)、捕捉多个解释性和偶然性因素(capturing multiple explanatory and casual factors)、在不同任务中保持共享因素和简单因素的依赖性(holding shared factors across different tasks and simple factor dependencies)。
5.表征学习的应用领域
本书总结了表征学习可以应用的四个不同的代表性领域:
(1)图像处理
(2)语音识别
(3)自然语言处理
(4)网络分析
具体应用参照书P37-46
二、图表征学习(Graph Representation Learning)
图表征学习旨在将图中的节点分配到低维表达中,并有效保留图的结构。
1.图的传统表达方式存在的问题
图的传统表达方式是用点集和图集表示的。即G=(N,E)。对于大规模图来说,可能存在数以万计个节点,因此在图的处理和分析过程中会存在一些问题:
(1)计算复杂度高:传统表达方式中各节点之间的关系由边集E编码表示,最常见的一种方法是用两节点之间的最短路径或平均路径表示两节点之间的距离,这就需要找到两节点间所有可能的路径,是一个组合问题,可见在图规模大时计算复杂度非常高。
(2)并行性差:图的传统表示方式给并行和分布式算法的设计造成了困难。主要的瓶颈一张图中的节点由边集E显式耦合,如果在分布式服务器中分布有关联的节点,会导致服务器之间通信成本过高,且阻碍了加速比。
(3)机器学习方法不适用:对于用传统方法表示的图,现成的机器学习方法可能不适用。因为多数机器学习模型都假设数据样本可以用向量空间中的独立向量表示。但是图数据(即节点)在某种程度上是由边决定的。虽然我们可以简单的用邻接矩阵表示图,但是对于大规模图,邻接矩阵的维度极高,给后续处理和分析造成了困难。
基于上述传统图表征方式存在的问题,研究新的图表征方式显得格外重要。
2.图表征学习的两大目标
3.图表征学习的分类
图表征学习方法主要可以分为三类:传统图嵌入,现代图嵌入,图神经网络。
3.1传统图嵌入(traditional graph embedding)
传统图嵌入起初是作为一种降维技术研究的,它专注的任务主要是图表征学习的目标(1),即图重构。传统图嵌入技术主要适用于由特征表示的数据集构造的图,边缘权重编码的节点之间的邻接性在原始特征空间中得到了很好的定义。
3.2现代图嵌入(modern graph embedding)
3.3图神经网络(graph neural network):
研究图神经网络的困难主要可以总结为:
(1)图不寻常的结构: 不像文本、图像、音频,图的结构不寻常,导致一些基础数学操作在图上很难定义。这导致卷积神经网络中的寻常操作,如池化、卷积等在图上难以直接进行。
(2)图的异构性与多样性
(3)大规模图
(4)与其他领域知识结合
总结
第二章主要介绍了表征学习的基本定义、分类、应用。第三章先介绍了传统的图的表达方式存在的一些问题,然后分类介绍了图表征方式。引出了GNN,并介绍了GNN的一些研究难点。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/146632.html