TextRank算法要点

  • 这个图可以是有向图,也可以是无向图。在有向图中,方向为语料中的行文方向,也可是这个方向的反方向(在刘知远老师的博士论文中,是这样构建有向图的:在每个滑动窗口中,将该窗口中的第一个词指向剩余的其他词);在无向图中,节点入度等于出度,所以公式中链接到V(i)的点集就是与V(i)相连的点,V(j)链接出去的点集就是V(j)与相连的点。
  • 图中的边可以有权值,也可以没有权值。没有权值的话,和PageRank公式基本一致了;如果有权值,这个权值可以是两个候选词共现的次数,也可以是两个候选词的相关度,总之可以自己定义。
  • 滑动窗口不是越大越好。在算法提出者论文展示的实验中,滑动窗口为2时的无向图,效果最好。
  • 所谓收敛,就是有一个阈值,节点权重更新大小(原值与更新后值的差)不超过这个阈值时就是收敛状态,整个图收敛就是所有点都达到收敛状态。