论文解读(LINE)《LINE: Large-scale Information Network Embedding》

2021年11月22日 阅读数:2
这篇文章主要向大家介绍论文解读(LINE)《LINE: Large-scale Information Network Embedding》,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

论文题目:《LINE: Large-scale Information Network Embedding》
发表时间:  KDD 2015
论文做者:  Jian Tang, Meng Qu , Mingzhe Wang, Ming Zhang, Jun Yan, Qiaozhu Mei
论文地址:  Download算法

前言

  大规模信息网络 (large-scale information Network) 不管在存取性,使用性上比起普通的信息处理方式更加复杂,更加多变,例如航空公司网络,出版物网络,社会和通讯网络以及万维网。大多数现有的图嵌入方法都不能用于一般包含数百万个节点的真实信息网络。本文提出的 LINE 模型致力于将这种大型的信息网络嵌入到低维的向量空间中,且该模型适用于任何类型(有向、无向亦或是有权重)的信息网络。该方法优化了一个精心设计的目标函数,同时保持了局部和全局网络结构。针对经典随机梯度降低的局限性,提出了一种边缘采样算法(edge-sampling algorithm),实验证实了该网络在各类真实世界的信息网络上的有效性,包括语言网络、社交网络和引文网络。该算法很是高效,可以在一台典型的单一机器上,在几个小时内学习嵌入具备数百万个顶点和数十亿条边的网络。且可用于可视化,节点分类以及关系预测等方面。网络

关键词:信息网络嵌入;可扩展性;特征学习;降维。dom


1 Introduction

  举例:事实上,有许多共同朋友的人可能有一样的兴趣成为朋友,与许多类似单词一块儿使用的单词可能有类似的含义。异步

    

  Figure 1 给出了一个说明性的例子。因为顶点 6 和 7 之间的边的权重很大,即 6 和 7 的一阶(first-order)接近,所以在嵌入空间中应紧密表示。另外一方面,虽然顶点 5 和顶 6 之间没有联系,但它们共享许多共同的邻居,即它们具备很高的二阶接近性,所以也应相互紧密地表示。咱们指望对二阶接近度的考虑可以有效地补充一阶接近度的稀疏性,并更好地保持网络的全局结构。在本文中,咱们将提出精心设计的目标,以保持一阶和二阶的接近性。ide

  即便找到一个合理的目标,为一个很是大的网络优化它也是一项挑战。近年来引发人们注意的一种方法是利用随机梯度降低法进行优化。然而,咱们证实直接部署随机梯度降低对现实世界的信息网络有问题。这是由于在许多网络中,边是加权的,权值一般呈现出高方差。考虑一个单词共现网络,其中单词对的权值(共现)可能从1到数十万不等。这些边缘的权重将被乘以梯度,致使梯度的爆炸,从而影响性能。为了解决这一问题,咱们提出了一种新的边缘采样(edge-sampling)方法,它提升了推理的有效性和效率。咱们对几率与其权值成正比的边进行采样,而后将采样的边做为二进制边进行模型更新。函数

  Line Model 是具备通用性的,它适用于有向无向加权非加权图。咱们评估了各类真实世界的信息网络的连接性能,包括语言网络社交网络引文网络。在多个单词类比、文本分类和节点分类等数据挖掘任务中,评估了学习到的嵌入的有效性。结果代表,Line 模型在有效性和效率方面都优于其余竞争基线。性能

  综上所述,咱们有如下贡献:学习

    • 咱们提出了一种新的网络嵌入模型,它适合任意类型的信息网络,而且很容易扩展到数百万个节点。它有一个精心设计的目标函数,同时保持了一阶和二阶近点。
    • 咱们提出了一种优化目标的边缘采样算法。该算法解决了经典随机梯度的局限性,提升了推理的有效性和效率。
    • 咱们在真实世界的信息网络上进行了普遍的实验。实验结果证实了该 Line Model 的有效性和有效性。

2 Related Work

  咱们的工做与经典的图嵌入或降维方法有关,如 MDSIsoMapLLE拉普拉斯特征映射Laplacian Eigenmap)。这些方法一般首先使用数据点的特征向量来构造亲和图( Affinity graph),例如,数据的 K-nearest 图,而后将亲和图嵌入到一个低维空间中。然而,这些算法一般依赖于求解亲和矩阵的主要特征向量,其复杂度至少是节点数的二次型,使得它们对大规模网络的处理效率低下。优化

  还有 图分解(Graph factorization)的技术。经过矩阵分解获得了一个大图的低维嵌入,并利用随机梯度降低法进行了优化。这是可能的,由于一个图能够表示为一个 Affinity  matrix。然而,矩阵分解的目标并非为网络设计的,所以不必定能保持全局网络结构。直观地说,图分解指望具备高一阶接近的节点被紧密表示。相反,LINE 使用了一个专门为网络设计的目标,它同时保留了一阶(first-order)和二阶(second-order)近似性。实际上,Graph factorization 方法只适用于无向图而 Line Model 同时适用于无向图和有向图。ui

  与咱们相关的最新工做是 DeepWalk ,它部署了一个 截断随机行走(truncated random walk)来得到 representation。虽然在经验上颇有效,但 DeepWalk 并无提供一个明确的目标来明确保留了哪些网络属性。直观地说,DeepWalk 指望具备高二阶接近度的节点产生类似的低维表示,而 LINE 同时保持了一阶和二阶接近度。DeepWalk 使用随机游走来扩展顶点的邻域(相似于深度优先搜索)。LINE 使用宽度优先搜索策略,这是一种更合理的处理二阶接近的方法。实际上,DeepWalk只适用于未加权网络,而咱们的模型同时适用于具备加权边和非加权边的网络


3 Problem definition

  咱们利用一阶和二阶近似性正式定义了大规模信息网络嵌入的问题。

  首先定义了一个信息网络以下:

  定义1:Information Network

    • 定义为 $G=(V,E)$ ,其中 $V$ 是顶点集,每一个顶点表示一个数据对象,$E$ 是顶点之间的边集,每一个边表示两个数据对象之间的关系。每条边都是一个有序的对 $e=( u,v)$,与权重 $w_{uv}>0$ 相关联,表示关系的强度。若是 $G$ 是无向的,咱们有 $(u,v)≡(v,u)$ 和 $w_{uv}≡w_{vu}$ ,若是 $G$ 有向,咱们有 $(u, v) \not \equiv(v, u)$ 和 $w_{u v} \not \equiv w_{v u} $。

  在实践中,信息网络能够是定向的(例如引文网络),也能够是无定向的(例如Facebook中的用户社交网络)。边的权值能够是二进制的,也能够取任何实值。请注意,虽然负边权值是可能的,但在本研究中,咱们只考虑非负边权值。例如,在引文网络和社交网络中,$w_{uv}$ 取二进制值;在不一样对象之间的共现网络中,$w_{uv}$ 能够取任何非负值。在某些网络中,边缘的权值可能会发散,由于一些物体会屡次同时出现,而另外一些物体可能只是同时出现几回。

  定义2:First-order Proximity

    • 定义为:网络中的一阶接近度是两个顶点之间的局部成对接近度。对于每一条由边 $(u,v)$ 链接的每对顶点,该边上的权值$w_{uv}$ 表示 $u$ 和 $v$ 之间的第一阶接近程度。若是在 $u$ 和 $v$ 之间没有边,它们的一阶接近度为 $0$ 。
    • 如 Figure 1 ,6 和 7 之间存在直连边,且边权较大,则认为二者类似且 1 阶类似度较高,而 5 和 6 之间不存在直连边,则二者间1  阶类似度为 0。

  一阶接近一般意味着真实网络中两个节点的类似性。因为这一重要性,许多现有的图嵌入算法,如 $IsoMap$、$LLE$、拉普拉斯特征映射和图分解,都具备保持一阶接近性的目标。

  然而,在真实世界的信息网络中,观察到的连接比例很小,其余许多连接缺乏。缺失链路上的一对节点的一阶接近度为零,尽管它们在本质上很是类似。所以,仅凭一阶接近并不足以保持网络结构,而寻找另外一种解决稀疏性问题的接近概念是很重要的。一种天然的直觉是,共享类似邻居的顶点每每彼此类似。例如,在社交网络中,拥有类似朋友的人每每有类似的兴趣,所以成为朋友;在单词共现网络中,老是与同一组单词同时出现的单词每每具备类似的含义。所以,咱们定义了二阶接近,它补充了一阶接近,并保持了网络结构。

  定义3:Second-order Proximity

  • 定义为:网络中一对顶点 $(u、v)$ 之间的二阶接近性是它们的邻域网络结构之间的类似性。数学上,让$p_{u}=\left(w_{u, 1}, \ldots, w_{u,|V|}\right)$ 表示 $u$ 与全部其余顶点的一阶接近,那么$u$ 和 $v$ 之间的二阶接近由 $p_u$ 和 $p_v$ 之间的类似性决定。若是没有顶点从 $u$ 和 $v$ 同时相连,则 $u$ 和 $v$ 之间的二阶接近度为 $0$。
  • 如 Figure 1 ,虽然 5 和 6 之间不存在直连边,可是他们有不少相同的邻居顶点 $(1,2,3,4)$,这其实也能够代表5和6是类似的,而 $2$ 阶类似度就是用来描述这种关系的。

  定义4:Large-scale Information Network Embedding  

  • 定义为:给定大网络 $G=(V,E)$,大规模信息网络嵌入问题的目的是将每一个顶点 $v∈V$ 表示为低维空间向量。即学习函数 $f_G:V→R^d$,其中 $d \ll|V|$。在空间 $R^d$ 中,保留了顶点之间的一阶接近和二阶接近度。

4. LINE: LARGE-SCALE INFORMATION NETWORK EMBEDDING

  Embedding 模型必须知足几个要求:
  1. 它必须可以保持顶点之间的一阶接近和二阶接近;
  2. 它必须扩展到很是大的网络,好比数百万个顶点和数十亿条边;
  3. 它能够处理具备任意类型边的网络:有向、无向和/或加权。

4.1 Model Description

  咱们分别描述了保持一阶接近度和二阶接近度的 LINE 模型,而后引入了一种简单的方法来结合这两种接近度。

4.1.1 LINE with First-order Proximity

  一阶接近是指网络中顶点之间的局部成对几率。

  对于每条无向边 $(i、j)$,咱们对顶点 $v_i$ 和 $v_j$ 之间的联合几率进行了细化以下:

    ${\large p_{1}\left(v_{i}, v_{j}\right)=\frac{1}{1+\exp \left(-\vec{u}_{i}^{T} \cdot \vec{u}_{j}\right)}} $

  其中 $\vec{u}_{i} \in R^{d}$  为顶点  $v_i$  的低维向量表示。上述公式定义了空间  $V×V$  上的分布  $p(·,·)$ 。

  其经验几率能够定义为  $\hat{p}_{1}(i, j)=\frac{w_{i j}}{W} $ ,其中  $W=\sum_{(i, j) \in E} w_{i j}$  。

  优化目标以下:

    $O_{1}=d\left(\hat{p}_{1}(\cdot, \cdot), p_{1}(\cdot, \cdot)\right)$

  其中 $d(·,·)$ 为两个分布之间的距离。经常使用的衡量两个几率分布差别的指标为 KL 散度,使用 KL 散度并忽略常数项后有

    $O_{1}=-\sum_{(i, j) \in E} w_{i j} \log p_{1}\left(v_{i}, v_{j}\right)$

  请注意,一阶接近只适用于无向图,而不适用于有向图。经过找到 $\left\{\vec{u}_{i}\right\}_{i=1 . .|V|}$ ,最小化目标上述式子。咱们能够表示 $d$ 维空间中的每一个顶点。

4.1.2 LINE with Second-order Proximity

  二阶接近性适用于有向图和无向图。

  给定一个网络,在不丧失通常性的状况下,咱们假设它是有向的(一条无向边能够看做是两条方向相反、权值相等的有向边)。二阶接近性假设与其余顶点共享许多链接的顶点彼此之间是类似的。在这种状况下,每一个顶点也被视为一个特定的 “上下文”,而且假设在“上下文”上分布类似的顶点是类似的。

  所以,每一个顶点扮演两个角色:顶点自己和其余顶点的特定 “上下文”。咱们引入了两个向量 $ \vec{u}_{i}$ 和 $\vec{u}_{i}^{\prime} $,其中 $ \vec{u}_{i}$ 在被视为顶点时是 $v_i$ 的表示,而 $\vec{u}_{i}^{\prime} $ 在被视为特定的“上下文”时是 $v_i$ 的表示。对于每一个有向边 $(i、j)$,咱们首先将顶点 $v_i$ 生成的“上下文” $v_j$ 的几率定义为:

    ${\large p_{2}\left(v_{j} \mid v_{i}\right)=\frac{\exp \left(\vec{u}_{j}^{T} \cdot \vec{u}_{i}\right)}{\sum_{k=1}^{|V|} \exp \left(\vec{u}_{k}^{\prime T} \cdot \vec{u}_{i}\right)}} $

  其中,$|V|$ 是顶点或“上下文”的数量。对于每一个顶点 $v_i$。上述式子实际上在上下文上定义了一个条件分布 $p_2(·|v_i)$ ,即网络中的整个顶点集。

  如上所述,二阶接近性假定在上下文上具备类似分布的顶点彼此类似。为了保持二阶接近性,咱们应该使低维表示所指定的上下文 $ p_2(·|v_i)$ 的条件分布接近于经验分布 $\hat{p}_{2}\left(\cdot \mid v_{i}\right)$。

  最小化如下目标函数:

    $O_{2}=\sum \limits _{i \in V} \lambda_{i} d\left(\hat{p}_{2}\left(\cdot \mid v_{i}\right), p_{2}\left(\cdot \mid v_{i}\right)\right)$

  其中 $d(·,·)$ 为两个分布之间的距离。因为网络中顶点的重要性可能不一样,咱们在目标函数中引入 $λ_i$ 来表示网络中顶点 $i$ 在网络中的声望,这能够经过度来衡量,也能够经过 PageRank 等算法来估计。

  经验分布 $\hat{p}_{2}\left(v_{j} \mid v_{i}\right)$ 定义为 

     $\hat{p}_{2}\left(v_{j} \mid v_{i}\right)=\frac{w_{i j}}{d_{i}}$

  其中  $w_{ij} $  是边  $(i,j)$ 的权重,$d_i$  是顶点  $i$  的出度,即  $d_{i}=\sum _{k \in N(i)} w_{i k}$ ,其中  $N(i)$  是  $v_i$  的外邻集合。为了简单起见,咱们将  $λ_i$  设为顶点 $i$ 的度,即 $λ_i=d_i$,这里咱们也采用 KL 散度 $\hat{p}_{2}\left(v_{j} \mid v_{i}\right)=\frac{w_{i j}}{d_{i}}$ 做为距离函数。用 kl 散度替换 $d(·,·)$ ,设置 $λ_i=d_i$ 并省略一些常数,咱们有:

    $O_{2}=-\sum \limits _{(i, j) \in E} w_{i j} \log p_{2}\left(v_{j} \mid v_{i}\right)$

  经过学习 $\left\{\vec{u}_{i}\right\}_{i=1 . .|V|} $ 和 $\left\{\vec{u}_{i}^{\prime}\right\}_{i=1 . .|V|} $ 最小化这个目标,咱们可以用 $d$ 维向量 $\vec{u}_{i} $ 来表示每一个顶点 $v_{i}$。

4.1.3 Combining fifirst-order and second-order proximities

  为了经过保持一阶和二阶接近来嵌入网络,咱们在实践中发现的一种简单有效的方法是训练分别保持一阶接近和二阶接近的直线模型,而后对每一个顶点的两种方法训练的嵌入链接起来。将这两种接近性结合起来的一种更有原则的方法是联合训练目标函数 $O_1$ 和 $O_2$,咱们将其做为将来的工做。

4.2 Model Optimization

  优化目标 $O_2$ 的计算代价很高,须要在计算条件几率 $p_2(·|v_i)$ 时须要对整个顶点集合进行总和。为了解决这一问题,咱们采用了中提出的负采样方法,根据每条边 $(i、j)$ 的必定的噪声分布,对多个负边进行采样。更具体地说,它为每条边 $(i、j)$ 指定了如下目标函数:

    $\log \sigma\left(\vec{u}_{j}^{T} \cdot \vec{u}_{i}\right)+\sum \limits _{i=1}^{K} E_{v_{n} \sim P_{n}(v)}\left[\log \sigma\left(-\vec{u}_{n}^{\prime T} \cdot \vec{u}_{i}\right)\right]$

  其中 $σ(x)=1/(1+exp(−x))$ 为 Sigmoid 函数。第一项表示观测到的边,第二项表示由噪声分布获得的负边,$K$ 是负边的个数。咱们将 $P_{n}(v) \propto d_{v}^{3 / 4}$ 设置为中提出的 $3/4$,其中 $d_v$ 是顶点 $v$ 的出度。

  对于目标函数,存在一个简单的解:$u_{i k}=\infty$,对于 $i=1,……,|V|$ 和 $k=1,……,d$ 。为了不这个简单的解决方案,咱们仍然能够利用负采样方法,只将 $ \vec{u}_{j}^{\prime}$ 更改成 $\vec{u}_{j}^{T}$。

  采用异步随机梯度算法(ASGD)进行优化。在每一步中,ASGD算法对一批边缘进行采样,而后更新模型参数。若是对一条边 $(i、j)$ 进行采样,则采用梯度w.r.t.顶点 $i$ 的嵌入向量 $\vec{u}_{i}$ 将计算为:

    $\frac{\partial O_{2}}{\partial \vec{u}_{i}}=w_{i j} \cdot \frac{\partial \log p_{2}\left(v_{j} \mid v_{i}\right)}{\partial \vec{u}_{i}}$

  请注意,梯度将乘以边的权重。当边的权值具备高方差时,这就会成为问题。例如,在一个单词共发生网络中,一些单词同时出现不少次(例如,数万个),而有些单词只同时出现几回。在这样的网络中,梯度的尺度会发散,很难找到一个好的学习率。若是根据权值小的边选择较大的学习率,权值大的边上的梯度会爆炸,而若是根据权值大的边选择学习率,梯度会过小。

4.2.1 Optimization via Edge Sampling

  解决上述问题的直觉是,若是全部边的权重都相等(例如,具备二进制的网络边缘),那么选择合适的学习率就不会有问题。 一个简单的处理是这样展开一条带权重的边变成多条二元边,例如一条边权重 $w$ 被展开成 $w$ 个二元边。 这会解决问题但会显着增长内存要求,特别是当边的权重为很大。 为了解决这个问题,能够从原始边缘采样并将采样的边缘视为二进制边缘,用 与原始边成正比的采样几率重量。 经过这种边缘采样处理,总体目标函数保持不变。 问题归结起来 如何根据权重对边缘进行采样。

  令 $W = (w_1, w_2, ... , w_{|E|}) $ 表示边的权重。 首先能够简单地计算权重总和 $w_{sum} = = \sum_{i=1}^{|E|}w_{i}$ ,而后对进行采样 $[0, w_{sum}]$ 范围内的随机值,以查看随机值属于 $[\sum_{j=0}^{i-1}w_{j}, \sum_{j=0}^{i}w_{j})$  哪一个区间 。 这个 方法须要 $O(|E|) $ 时间来抽取样本,当边数 $|E| $ 很大这是昂贵的咱们使用别名表 方法根据权重抽取样本边,重复绘制时只须要 $O(1) $ 时间来自相同离散分布的样本。

  从别名表中采样一条边须要恒定的时间 $O(1) $ ,而使用负采样的优化须要 $O(d(K+1))$ 时间,其中 $K$ 为负样本的数量。所以,整体上,每一个步骤都须要 $O(dK)$ 时间。在实践中,咱们发现用于优化的步骤数一般与边数 $O(|E|)$ 成正比。所以,直线的整体时间复杂度为 $O(dK|E|)$ ,它与边数 $|E|$ 呈线性关系,而不依赖于顶点数 $|V|$ 。边缘采样处理提升了随机梯度降低的有效性,而不下降了效率。

4.3 Discussion

  咱们讨论了直线模型的几个实际问题:

  • Low degree vertices

  一个实际的问题是如何准确地嵌入小度的顶点。因为这种节点的邻居数量很是少,很难准确地推断出其表示,特别是基于二阶接近的方法,它严重依赖于 “上下文” 的数量。一个直观的解决方案是经过添加更高阶的邻居来扩展这些顶点的邻居,好比邻居的邻居。在本文中,咱们只考虑向每一个顶点添加二阶邻居,即邻居的邻居。顶点 $i$ 与其二阶邻域 $j$ 之间的权重被测量为

    $w_{i j}=\sum \limits _{k \in N(i)} w_{i k} \frac{w_{k j}}{d_{k}}$

  在实践中,只能添加一个顶点集 ${j}$,它们具备最大的顶点子集。

  • New vertices

  另外一个实际的问题是如何找到新到达的顶点的表示。对于一个新的顶点 $i$,若是它与现有顶点的链接已知,咱们能够获得现有顶点上的经验分布 $\hat{p}_{1}\left(\cdot, v_{i}\right)$ 和 $\hat{p}_{2}\left(\cdot \mid v_{i}\right)$。根据目标函数 $O_1$ 或者 $O_2$,获得新顶点的嵌入。一种简单的方法是最小化如下目标函数之一

    $-\sum \limits _{j \in N(i)} w_{j i} \log p_{1}\left(v_{j}, v_{i}\right), \text { or }-\sum \limits_{j \in N(i)} w_{j i} \log p_{2}\left(v_{j} \mid v_{i}\right)$

  经过更新新顶点的嵌入和保持现有顶点的嵌入。若是没有观察到新顶点和现有顶点之间的链接,咱们必须求助于其余信息,如顶点的文本信息,并将其留给咱们将来的工做。

5. EXPERIMENTS

  咱们将该方法应用于不一样类型的几个大型现实世界网络,包括语言网络,两个社交网络和两个引用网络。

数据集:

  (1)语言网络:整个英文维基百科页面构建了一个词共同网络

  (2)社交网络:Flickr和Youtube

  (3)引用网络:做者引文网和论文引文网

  以上网络的详细统计数据总结在表1中,表明一系列信息网络(有向或无向、加权或否);每一个网络包含至少50万个节点和数百万个边。

算法比较:将LINE模型与一些常见的图嵌入算法进行比较,包括GF算法,Deep Walk算法,LINE-SGD,LINE算法等。

   数据集表一:

    

  参数设置:

  对于全部方法,随机梯度降低的小批量大小设置为1;以起始值 $\rho_{0}=0.025$ 和 $\rho_{t}=\rho_{0}(1-t / T)$ 设定学习速度,$T$ 是小批量或边缘样品的总数;为了公平比较,语言网络嵌入的维度被设置为 $200$;而其余网络中,默认设置为 $128$;其余的默认参数设置包括:LINE的负采样 $K=5$,样本总数 $T = 100$ 亿(LINE),$T=200$ 亿(GF),窗口大小 $win = 10$,步行长度 $t = 40$,对于 Deep Walk,每顶点行走 $\gamma=40$;全部的嵌入向量最终经过设置$\|w\|_{2}=1$ 进行归一化。

定量结果:

  1.语言网络:

  两个应用程序用于评估学习嵌入的有效性:词类比和文档分类。

    

  词类比:给定一个单词对 $(a,b) $ 和一个单词 $c$,该任务旨在找到一个单词 $d$ ,使得  $c$和 $d$ 之间的关系相似于 $a$ 和 $b$ 之间的关系,或表示为:$a: b \rightarrow c: ?$ ; 表2 使用在维基百科语料库或维基百科词汇网络上学习的词汇的嵌入来报告单词类比的结果,对于图分解,每对单词之间的权重被定义为同时出现次数的对数,这致使比共同出现的原始值更好的性能。对于DeepWalk,尝试不一样的截止阈值将语言网络转换为二进制网络,而且当全部边缘保留在网络中时,实现最佳性能。同时与与最早进的词嵌入模式SkipGram进行比较。直接从原始维基百科页面学习嵌入词,也隐含地是矩阵分解法。

    

  2.社交网络:

  与语言网络相比,社交网络更加稀缺;将每一个节点分配到一个或多个社区的多标签分类任务来评估顶点嵌入;随机抽取不一样百分比的顶点进行训练,其他用于评估。结果在10次不一样运行中进行平均。

    

  引用网络:

  经过GF和LINE两种方法对引用网络进行评估。还经过多标签分类任务评估顶点嵌入。 咱们选择7个流行会议,包括AAAI,CIKM,ICML,KDD,NIPS,SIGIR和WWW做为分类类别。

  DBLP(AuthorCitation) Network:

    

  DBLP(PaperCitation) Network :

    

  训练结果:

    

6. 总结

  LINE模型具备精心设计的客观功能,保留了一阶和二阶接近度,相互互补。并提出了一种有效和有效的边缘抽样方法进行模型推理;解决了加权边缘随机梯度降低的限制,而不影响效率。此外,除一阶和二阶以外更高的类似度也是LINE模型算法在将来可以更加拓宽的方面。异构网络的嵌入,也是研究的方向之一。

 

参考博客

https://zhuanlan.zhihu.com/p/56478167

https://zhuanlan.zhihu.com/p/27037042

https://zhuanlan.zhihu.com/p/74746503
View Code

『总结不易,加个关注呗!』