Measuring and Relieving the Over-smoothing Problem for Graph Neural Networks from the Topological View

Deli Chen, et al., “Measuring and Relieving the Over-smoothing Problem for Graph Neural Networks from the Topological View”, AAAI 2020

以后大多数和我工作“不太相关”的文章我懒的时候,都将是这样简短的篇幅呈现了,只要能做到 ① 方便回忆 ② 记录思考 就足够了

  • 姓名:-
  • 机构:语言所,孙栩
  • 动机:研究 GCN 的过平滑问题
  • 方法:设计了两个指标,得到了一些结论:
    • MAD:量化图的平滑度,即节点表示之间的相似性。大致算法:MAD 计算 target 和邻居的相似度,聚合归一;MAD^global 加权整张图的 MAD,计算整张图的平滑度
    • MADGap:量化图的过平滑度,即不同类节点表示之间的相似性。MADGap = MAD^remote – MAD^neighbour,其中两项表示 >7 跳和 <4 跳的邻居(可能就是 mask 矩阵按照距离分成两部分),发现模型的 acc 与 MADGap 有非常大的相关性
    • 最后得到结论:过平滑是因为噪音大,噪音是指不同类节点之间信息传递导致的(所以,可能这之后才有了 FAGCN 的想法?)
    • 减小图的过平滑性:
      • MADReg:直接用 MADGap 作为惩罚项,放到 loss 里面
      • AdaEdge:随着图的节点分类的预测,拆掉不同类节点之间的边,增加相同类节点之间的边,再 retrain
  • 思考:
    • GNN 利用图的拓扑结构时,只是有一个邻接矩阵,但却没有指明边的类型,这是不够的,所以有了 RGCN;但是 RGCN 边的类型是预定义好的,能不能更进一步,边的类型根据预测出的两端节点的类型而变,每对 node 对应的边的 weight 也是 learnable,这样有没有价值呢?
    • 另一个改进的角度就是 FAGCN 的角度了,求同存异的“对比学习”想法
    • 不过现在看 GCN 越多,越感觉在 RE 上用 GCN 就是笑话。节点有 entity mention 等等,这互相之间的 GCN 上的信息传递,相当于 attention aggregation,所以可能也无所谓要不要求同存异;inference 的过程感觉更是没什么道理,感觉也只是因为平滑,从而相似度 attn score 变大了,每一步都拓展一个平滑,就这样产生了一个 attn score 都很大的“推理路径”

发表评论