Deli Chen, et al., “Measuring and Relieving the Over-smoothing Problem for Graph Neural Networks from the Topological View”, AAAI 2020
以后大多数和我工作“不太相关”的文章我懒的时候,都将是这样简短的篇幅呈现了,只要能做到 ① 方便回忆 ② 记录思考 就足够了
- 姓名:-
- 机构:语言所,孙栩
- 动机:研究 GCN 的过平滑问题
- 方法:设计了两个指标,得到了一些结论:
- MAD:量化图的平滑度,即节点表示之间的相似性。大致算法:MAD 计算 target 和邻居的相似度,聚合归一;MAD^global 加权整张图的 MAD,计算整张图的平滑度
- MADGap:量化图的过平滑度,即不同类节点表示之间的相似性。MADGap = MAD^remote – MAD^neighbour,其中两项表示 >7 跳和 <4 跳的邻居(可能就是 mask 矩阵按照距离分成两部分),发现模型的 acc 与 MADGap 有非常大的相关性
- 最后得到结论:过平滑是因为噪音大,噪音是指不同类节点之间信息传递导致的(所以,可能这之后才有了 FAGCN 的想法?)
- 减小图的过平滑性:
- MADReg:直接用 MADGap 作为惩罚项,放到 loss 里面
- AdaEdge:随着图的节点分类的预测,拆掉不同类节点之间的边,增加相同类节点之间的边,再 retrain
- 思考:
- GNN 利用图的拓扑结构时,只是有一个邻接矩阵,但却没有指明边的类型,这是不够的,所以有了 RGCN;但是 RGCN 边的类型是预定义好的,能不能更进一步,边的类型根据预测出的两端节点的类型而变,每对 node 对应的边的 weight 也是 learnable,这样有没有价值呢?
- 另一个改进的角度就是 FAGCN 的角度了,求同存异的“对比学习”想法
- 不过现在看 GCN 越多,越感觉在 RE 上用 GCN 就是笑话。节点有 entity mention 等等,这互相之间的 GCN 上的信息传递,相当于 attention aggregation,所以可能也无所谓要不要求同存异;inference 的过程感觉更是没什么道理,感觉也只是因为平滑,从而相似度 attn score 变大了,每一步都拓展一个平滑,就这样产生了一个 attn score 都很大的“推理路径”