python基于Node2Vec实现节点分类及其可视化示例详解

2025-01-14 07:45:53

简介

Node2vec是一种用于图嵌入（Graph Embedding）的方法，可用于节点分类、社区发现和连接预测等任务。

实现过程

加载数据集

首先，让我们加载所需的Python库并执行以下代码以加载Cora数据集：

import networkx as nx
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.manifold import TSNE
from node2vec import Node2Vec
# 加载Cora数据集
cora = pd.read_csv('cora/cora.content', sep='\t', header=None)
cited_in = pd.read_csv('cora/cora.cites', sep='\t', header=None,
                       names=['target', 'source'])
nodes, features = cora.iloc[:, :-1], cora.iloc[:, -1]

其中 cora.content 包含了所有节点特征信息，一共具有2708个节点和1433个特征；而 cora.cites 通过引文映射分别针对所述每个节点建立一个节点间的有向边关系，共有5429个边。接下来，我们需要将节点特征和引用信息合并，构建图结构。

# 定义函数：构造基于Cora数据集的图结构
def create_graph(nodes, features, cited_in):
    nodes.index = nodes.index.map(str)
    graph = nx.from_pandas_edgelist(cited_in,
                                    source='source',
                                    target='target')
    for index, row in nodes.iterrows():
        node_id = str(row[0])
        features = row.drop(labels=[0])
        node_attrs = {f'attr_{i}': float(x) for i, x in enumerate(features)}
        if graph.has_node(node_id) == True:
            temp = graph.nodes[node_id]
            temp.update(node_attrs)
            graph.add_nodes_from([(node_id, temp)])
        else:
            graph.add_nodes_from([(node_id, node_attrs)])
    return graph
# 构建图
graph = create_graph(nodes, features, cited_in)

该函数将 cora.content 中的节点特征与 cora.cites 的有向边整合，并在图上标记它们。现在我们已经构建了一个图形视图，可以按想法可视化。

使用Node2vec嵌入数据

为了使用节点的特征进行分类，我们需要从网络中提取某些信息，以便将其传递给分类器作为输入。节点2矢量方法的一个示例就是将提取的信息转换为至少每个节点一个维度的向量表达式。

Node2Vec模型由代表每个节点的向量组成，使用起始节点和目标节点的随机游走样本来学习它们。节点2Vec模型定义随机游走过程中节点间的转移概率。

我们将使用 node2vec 库来生成图形的嵌入表示，并采用神经网络进行节点分类。

# 定义函数：创建基于Cora数据集的嵌入
def create_embeddings(graph):
    # 初始化node2vec实例，指定相关超参数
    n2v = Node2Vec(graph, dimensions=64, walk_length=30,
                   num_walks=200, p=1, q=1, weight_key='attr_weight')
    # 基于指定参数训练得到嵌入向量表达式
    model = n2v.fit(window=10, min_count=1, batch_words=4)
    # 获得所有图中节点的嵌入向量
    embeddings = pd.DataFrame(model.wv.vectors)
    ids = list(map(str, model.wv.index2word))
    # 将原有的特征和id与新获取到的嵌入向量按行合并
    lookup_table = nodes.set_index(0).join(embeddings.set_index(embeddings.index))
    return np.array(lookup_table.dropna().iloc[:, -64:]), np.array(list(range(1, lookup_table.shape[0] + 1)))
# 创建嵌入向量
cora_embeddings, cora_labels = create_embeddings(graph)

通过以上代码，我们可以获得每个节点的64维节点嵌入表达。

训练分类器

接下来我们将指定一些分类器并在Cora数据集上训练它们，以期根据嵌入进行准确的节点分类操作。

from sklearn import svm, model_selection, metrics
# 使用支持向量机作为示范的分类器
svm_model = svm.SVC(kernel='rbf', C=1, gamma=0.01)
# 进行交叉验证和分类训练
scores = model_selection.cross_val_score(
    svm_model, cora_embeddings, cora_labels, cv=5)
print(scores.mean())

使用支持向量机作为分类器，进一步问题是分类器本身也要进行调参等相关操作，以期获取更好的性能。此处采取了5折交叉验证的方式对其性能进行评估输出。

可视化节点嵌入

对于人类而言，64维特征表达并不容易理解，因此我们需要将其降维以便可视化。在这里我们使用 t-SNE，它专门用于降低高维数据的复杂度。通过输出只包含 2个元素的概率分布向量，它生成一个二维图，其中相似节点紧密地放在一起。

# 定义函数：可视化Nodes2Vec的结果
def visualize_results(embeddings, labels):
    # 使用t-SNE对数据进行降维并绘图
    tsne = TSNE(n_components=2, verbose=1, perplexity=40, n_iter=300)
    tsne_results = tsne.fit_transform(embeddings)
    plt.figure(figsize=(10, 5))
    plt.scatter(tsne_results[:,0], tsne_results[:,1], c=labels)
    plt.colorbar()
    plt.show()
# 可视化结果
visualize_results(cora_embeddings, cora_labels)

Node2Vec生成的嵌入向量将被输入到t-SNE中，其中t-SNE将64维向量表达进行了降维，并输出我们可以使用 matplotlib 库可视化的二维散点图。我们可以在图形界面中检查大部分相关节点是否如预期那样紧密聚集。

以上就是python基于Node2Vec实现节点分类及其可视化示例详解的详细内容，更多关于Node2Vec节点分类可视化的资料请关注我们其它相关文章！

Python pyecharts案例超市4年数据可视化分析

目录一.数据描述 1.数据概览二.数据预处理 1.导入包和数据 2.列名重命名 3.提取数据中时间,方便后续分析绘图三.数据可视化 1.美国各个地区销售额的分布(地图) 2.各产品类别销售额对比(柱状图) 3.不同客户类别销售额对比(饼图) 4.每月各产品销售额top10榜单 5.销售额.净利润在时间维度的变化(折线图) 6.销售额一.数据描述数据集中9994条数据,横跨1237天,销售额为2,297,200.8603美元,利润为286,397.0217美元,他们的库存中有1862件独
Python pyecharts 数据可视化模块的配置方法

目录 1. pyecharts 模块介绍 2. pyecharts 模块安装 3. pyecharts 配置选项 3.1 全局配置选项 3.2 系列配置选项 4. 基础折线图的构建 4.1 基本使用流程 5. 基础地图构建 5.1 基本使用流程 5.2 实现国内疫情地图 5.3 实现省级疫情地图 6. 基础柱状图构建 6.1 基本使用流程 6.2 基础时间线柱状图 6.3 实现动态 GDP 柱状图 1. pyecharts 模块介绍 Echarts 是一个由百度开源的数据可视化,凭借着良好的交互
Python对中国500强排行榜数据进行可视化分析实战

目录
Python数据可视化制作全球地震散点图

目录查看JSON数据参数indent 创建地震列表提取震级提取位置数据绘制震级散点图指定图表数据的方式 DataFrame()函数设计标记点的尺寸设计标记的颜色前言: 为了制作全球地震散点图,我在网上下载了一个数据集,其中记录了一个月内全球发生的所有地震,但这些数据是以JSON格式存储的,因此需要用json模块来进行处理. 查看JSON数据首先我们先打开下载好的数据集浏览一下: 你会发现其中的数据密密麻麻,根本不是人读的,因此,接下来我们将对数据进行处理,让它变得简单易读.
详解Python中四种关系图数据可视化的效果对比

python关系图的可视化主要就是用来分析一堆数据中,每一条数据的节点之间的连接关系从而更好的分析出人物或其他场景中存在的关联关系. 这里使用的是networkx的python非标准库来测试效果展示,通过模拟出一组DataFrame数据实现四种关系图可视化. 其余还包含了pandas的数据分析模块以及matplotlib的画图模块. 若是没有安装这三个相关的非标准库使用pip的方式安装一下即可. pip install pandas -i https://pypi.tuna.tsinghua.e
Python基于keras训练实现微笑识别的示例详解

目录一.数据预处理二.训练模型创建模型训练模型训练结果三.预测效果四.源代码 pretreatment.py train.py predict.py 一.数据预处理实验数据来自genki4k 提取含有完整人脸的图片 def init_file(): num = 0 bar = tqdm(os.listdir(read_path)) for file_name in bar: bar.desc = "预处理图片: "
Python中zip()函数的解释和可视化(实例详解)

zip()的作用先看一下语法: zip(iter1 [,iter2 [...]]) -> zip object Python的内置help()模块提供了一个简短但又有些令人困惑的解释: 返回一个元组迭代器,其中第i个元组包含每个参数序列或可迭代对象中的第i个元素.当最短的可迭代输入耗尽时,迭代器将停止.使用单个可迭代参数,它将返回1元组的迭代器.没有参数,它将返回一个空的迭代器. 与往常一样,当您精通更一般的计算机科学和Python概念时,此模块非常有用.但是,对于初学者来说,这段话只会引发更
Python 基于FIR实现Hilbert滤波器求信号包络详解

在通信领域,可以通过希尔伯特变换求解解析信号,进而求解窄带信号的包络. 实现希尔伯特变换有两种方法,一种是对信号做FFT,单后只保留单边频谱,在做IFFT,我们称之为频域方法:另一种是基于FIR根据传递函数设计一个希尔伯特滤波器,我们称之为时域方法. # -*- coding:utf8 -*- # @TIME : 2019/4/11 18:30 # @Author : SuHao # @File : hilberfilter.py import scipy.signal as signal im
Python疫情确诊折线图实现数据可视化实例详解

目录案例描述实现步骤一.导入模块二.读取文件内容三.json转换python 四.获取需要用到的数据五.生成图表六.关闭文件案例描述根据可参考数据,实现对疫情确诊人数数据的可视化. 利用json转换工具,将数据格式化,需要取出下面两部分的内容. 可视化效果图: 实现步骤一.导入模块导入可能用到的模块 import json from pyecharts.charts import Line 二.读取文件内容打开相应的文件,使用变量us_data保存文件的内容 f_us =
Python基于纹理背景和聚类算法实现图像分割详解

目录一.基于纹理背景的图像分割二.基于K-Means聚类算法的区域分割三.总结一.基于纹理背景的图像分割该部分主要讲解基于图像纹理信息(颜色).边界信息(反差)和背景信息的图像分割算法.在OpenCV中,GrabCut算法能够有效地利用纹理信息和边界信息分割背景,提取图像目标物体.该算法是微软研究院基于图像分割和抠图的课题,它能有效地将目标图像分割提取,如图1所示[1]. GrabCut算法原型如下所示: mask, bgdModel, fgdModel = grabCut(img,
Blender Python编程实现程序化建模生成超形示例详解

目录正文什么是超形(Supershapes, Superformula) 二维超形 n1 = n2 = n3 = 1 n1 = n2 = n3 = 0.3 其他特别情况例子 1 例子 2 例子 3 例子 4 例子 5 奇异的形状三维超形 Blender 生成超形详细代码和注释如下正文 Blender 并不是唯一一款允许你为场景编程和自动化任务的3D软件; 随着每一个新版本的推出,Blender 正逐渐成为一个可靠的 CG 制作一体化解决方案,从使用油脂铅笔的故事板到基于节点的合成.
Python数学建模StatsModels统计回归之线性回归示例详解

目录 1.背景知识 1.1 插值.拟合.回归和预测 1.2 线性回归 2.Statsmodels 进行线性回归 2.1 导入工具包 2.2 导入样本数据 2.3 建模与拟合 2.4 拟合和统计结果的输出 3.一元线性回归 3.1 一元线性回归 Python 程序: 3.2 一元线性回归程序运行结果: 4.多元线性回归 4.1 多元线性回归 Python 程序: 4.2 多元线性回归程序运行结果: 5.附录:回归结果详细说明 1.背景知识 1.1 插值.拟合.回归和预测插值.拟合.回归和预测
Python程序包的构建和发布过程示例详解

关于我编程界的一名小程序猿,目前在一个创业团队任team lead,技术栈涉及Android.Python.Java和Go,这个也是我们团队的主要技术栈. 联系:hylinux1024@gmail.com 当我们开发了一个开源项目时,就希望把这个项目打包然后发布到 pypi.org 上,别人就可以通过 pip install 的命令进行安装.本文的教程来自于 Python 官方文档 , 如有不正确的地方欢迎评论拍砖. 0x00 创建项目本文使用到的项目目录为 ➜ packaging-tuto
对python实现二维函数高次拟合的示例详解

在参加"数据挖掘"比赛中遇到了关于函数高次拟合的问题,然后就整理了一下源码,以便后期的学习与改进. 在本次"数据挖掘"比赛中感觉收获最大的还是对于神经网络的认识,在接近一周的时间里,研究了进40种神经网络模型,虽然在持续一周的挖掘比赛把自己折磨的惨不忍睹,但是收获颇丰.现在想想也挺欣慰自己在这段时间里接受新知识的能力.关于神经网络方面的理解会在后续博文中补充(刚提交完论文,还没来得及整理),先分享一下高次拟合方面的知识. # coding=utf-8 import
python编程中简洁优雅的推导式示例详解

目录 1. 列表推导式增加条件语句多重循环更多用法 2. 字典推导式 3. 集合推导式 4. 元组推导式 Python语言有一种独特的推导式语法,相当于语法糖的存在,可以帮助你在某些场合写出较为精简酷炫的代码.但没有它,也不会有太多影响.Python语言有几种不同类型的推导式. 1. 列表推导式列表推导式是一种快速生成列表的方式.其形式是用方括号括起来的一段语句,如下例子所示: lis = [x * x for x in range(1, 10)] print(lis) 输出 [1, 4