PyG搭建GCN需要准备的数据格式

2025-06-19 05:31:33

前言

有关GCN的原理可以参考：ICLR 2017 | GCN：基于图卷积网络的半监督分类。

一开始是打算手写一下GCN，毕竟原理也不是很难，但想了想还是直接调包吧。在使用各种深度学习框架时我们首先需要知道的是框架内的数据集结构，因此这篇文章主要讲讲PyG中的数据结构。

1. PyG数据集

原始论文中使用的数据集：

本篇文章使用Citeseer网络。Citeseer网络是一个引文网络，节点为论文，一共3327篇论文。论文一共分为六类：Agents、AI（人工智能）、DB（数据库）、IR（信息检索）、ML（机器语言）和HCI。如果两篇论文间存在引用关系，那么它们之间就存在链接关系。

使用PyG加载数据集：

data = Planetoid(root='/data/CiteSeer', name='CiteSeer')
print(len(data))

输出：

1

CiteSeer中只有一个网络，然后我们输出一下这个网络：

data = data[0]
print(data)
print(data.is_directed())

输出：

Data(x=[3327, 3703], edge_index=[2, 9104], y=[3327], train_mask=[3327], val_mask=[3327], test_mask=[3327])
False

x=[3327, 3703]。表示一共有3327个节点，然后节点的特征维度为3703，这里实际上是去除停用词和在文档中出现频率小于10次的词，整理得到3703个唯一词。

edge_index=[2, 9104]，表示一共9104条edge。数据一共两行，每一行都表示节点编号。

输出一下data.y：

tensor([3, 1, 5, ..., 3, 1, 5])tensor([3, 1, 5,  ..., 3, 1, 5])

data.y表示节点的标签编号，比如3表示该篇论文属于第3类。

输出data.train_mask：

tensor([ True, True, True, ..., False, False, False])

data.train_mask的长度和y的长度一致，如果某个位置为True就表示该样本为训练样本。val_mask和test_mask类似，分别表示验证集和训练集。

比如我们输出：

print(data.y[data.test_mask])

结果为：

tensor([4, 5, 4, 4, 4, 1, 4, 2, 3, 3, 3, 3, 2, 3, 3, 4, 2, 0, 1, 2, 0, 3, 3, 4,
        2, 4, 0, 4, 3, 3, 3, 5, 4, 5, 4, 5, 1, 1, 3, 3, 3, 3, 3, 1, 2, 3, 3, 3,
        1, 2, 2, 3, 3, 1, 5, 5, 5, 3, 2, 3, 3, 3, 3, 3, 3, 3, 5, 1, 3, 1, 1, 4,
        1, 3, 3, 1, 3, 3, 2, 4, 3, 3, 3, 1, 2, 2, 2, 3, 5, 2, 1, 3, 2, 2, 2, 4,
        3, 3, 4, 0, 3, 1, 2, 2, 2, 2, 3, 2, 2, 2, 1, 1, 5, 2, 2, 1, 2, 4, 3, 1,
        1, 3, 2, 3, 4, 3, 3, 4, 4, 3, 2, 2, 1, 3, 4, 4, 4, 4, 4, 4, 5, 0, 3, 1,
        1, 3, 1, 3, 1, 3, 4, 4, 3, 2, 3, 5, 3, 3, 3, 4, 2, 2, 2, 5, 3, 1, 0, 3,
        2, 5, 2, 3, 2, 4, 2, 2, 2, 0, 5, 1, 3, 4, 4, 4, 1, 1, 5, 1, 2, 0, 1, 0,
        2, 2, 3, 3, 3, 3, 5, 4, 4, 3, 1, 1, 2, 1, 2, 2, 2, 2, 5, 0, 1, 2, 2, 4,
        0, 4, 1, 1, 2, 3, 1, 1, 2, 3, 3, 5, 2, 5, 5, 3, 1, 0, 5, 5, 5, 5, 3, 3,
        3, 0, 4, 5, 3, 4, 5, 4, 5, 2, 0, 5, 5, 5, 1, 1, 3, 1, 2, 2, 2, 3, 2, 4,
        5, 3, 3, 1, 3, 1, 2, 2, 1, 3, 1, 3, 1, 2, 1, 2, 1, 2, 2, 2, 2, 5, 4, 4,
        5, 0, 3, 4, 5, 4, 4, 4, 4, 4, 0, 0, 1, 4, 1, 1, 5, 0, 2, 2, 3, 3, 2, 2,
        0, 0, 3, 2, 4, 1, 1, 0, 0, 1, 2, 2, 2, 2, 2, 0, 4, 0, 1, 4, 1, 1, 2, 2,
        3, 3, 1, 3, 2, 4, 4, 0, 0, 3, 4, 4, 2, 2, 2, 5, 5, 2, 5, 5, 5, 5, 4, 0,
        2, 2, 0, 2, 4, 5, 4, 0, 3, 3, 5, 3, 3, 4, 2, 1, 5, 5, 0, 1, 3, 3, 3, 5,
        3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 4, 2, 2, 0, 2, 2, 2, 2, 4, 3, 3,
        5, 5, 4, 5, 2, 4, 4, 4, 5, 5, 4, 2, 2, 3, 3, 4, 4, 3, 1, 3, 2, 0, 5, 5,
        5, 3, 4, 1, 4, 0, 5, 5, 0, 3, 0, 2, 3, 5, 3, 4, 2, 2, 3, 5, 1, 5, 3, 4,
        5, 5, 2, 2, 4, 3, 3, 3, 3, 2, 2, 2, 2, 2, 3, 0, 0, 5, 1, 2, 3, 3, 1, 3,
        2, 4, 3, 1, 3, 3, 3, 3, 3, 1, 0, 5, 4, 4, 1, 1, 3, 4, 4, 4, 4, 5, 4, 2,
        2, 2, 2, 2, 2, 2, 3, 2, 2, 2, 1, 4, 0, 1, 4, 4, 4, 1, 2, 1, 5, 5, 2, 4,
        4, 2, 2, 3, 1, 1, 0, 0, 2, 1, 0, 1, 5, 1, 2, 2, 3, 2, 0, 0, 3, 3, 3, 2,
        2, 2, 1, 1, 1, 3, 3, 3, 5, 3, 5, 2, 3, 2, 3, 1, 5, 2, 2, 3, 3, 3, 1, 1,
        1, 3, 3, 3, 3, 4, 4, 1, 4, 4, 1, 3, 3, 1, 0, 3, 5, 4, 4, 2, 4, 1, 0, 3,
        1, 4, 1, 4, 4, 0, 5, 3, 2, 2, 2, 5, 5, 0, 4, 4, 1, 2, 2, 3, 3, 3, 5, 5,
        5, 1, 5, 1, 4, 3, 1, 5, 5, 4, 4, 2, 3, 1, 0, 0, 5, 3, 1, 2, 1, 4, 1, 4,
        1, 2, 2, 5, 1, 2, 1, 4, 5, 5, 1, 4, 5, 5, 1, 1, 5, 5, 3, 1, 0, 0, 1, 0,
        0, 2, 0, 4, 3, 4, 3, 3, 1, 2, 3, 5, 3, 5, 5, 5, 5, 5, 3, 4, 4, 5, 4, 2,
        2, 5, 1, 4, 4, 4, 3, 1, 5, 3, 1, 3, 4, 2, 2, 4, 2, 1, 5, 2, 2, 5, 5, 3,
        3, 4, 1, 1, 2, 5, 3, 4, 4, 4, 5, 5, 1, 5, 5, 1, 5, 5, 1, 1, 1, 4, 2, 3,
        5, 4, 1, 1, 4, 5, 2, 3, 1, 2, 1, 4, 1, 4, 1, 1, 1, 0, 0, 1, 5, 0, 2, 1,
        1, 5, 1, 1, 3, 2, 3, 3, 1, 1, 2, 3, 2, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 3,
        3, 5, 2, 2, 3, 4, 4, 4, 4, 0, 3, 0, 3, 4, 1, 1, 3, 3, 0, 4, 5, 0, 0, 0,
        2, 1, 3, 4, 5, 2, 1, 1, 3, 3, 4, 4, 4, 2, 2, 1, 5, 4, 0, 5, 5, 4, 3, 4,
        5, 0, 3, 0, 3, 4, 4, 3, 3, 3, 3, 3, 3, 3, 5, 2, 0, 0, 1, 0, 0, 0, 3, 1,
        5, 3, 2, 3, 5, 3, 3, 3, 1, 5, 5, 5, 5, 1, 2, 1, 4, 5, 4, 3, 3, 5, 5, 1,
        4, 2, 5, 4, 1, 4, 4, 4, 4, 5, 5, 4, 3, 4, 3, 5, 3, 3, 1, 1, 0, 4, 4, 3,
        1, 1, 1, 1, 3, 3, 3, 4, 3, 1, 4, 1, 1, 3, 5, 5, 5, 4, 4, 1, 3, 1, 4, 3,
        3, 3, 1, 2, 2, 5, 3, 2, 5, 1, 3, 3, 5, 5, 4, 0, 3, 5, 5, 5, 1, 2, 2, 4,
        1, 4, 5, 5, 5, 4, 5, 2, 1, 5, 4, 4, 0, 3, 5, 4, 1, 3, 3, 5, 4, 2, 1, 0,
        1, 3, 2, 4, 3, 2, 4, 4, 1, 1, 0, 3, 3, 3, 1, 5])

可以发现，我们输出的是测试集的内容。

那么很显然，如果我们最终得到了预测值，我们就可以通过以下代码来计算分类的正确数：

correct = int(pred[data.test_mask].eq(data.y[data.test_mask]).sum().item())

模型输出的pred实际上包含了所有节点的预测值，而我们只需要取测试集中的内容，即：

pred[data.test_mask]

然后再与data.y[data.test_mask]进行比较，最后计算二者对应位置相等的个数即可。

2. 构造数据集

如果我们需要的数据集在PyG中没有，我们就需要自己手动构造数据集。

例如对于一个无向图，我们知道了其节点特征矩阵x：

x = torch.tensor([[-1, 1], [0, 1], [1, 3]], dtype=torch.float)

一共3个节点，每个节点具有两个特征。

然后我们知道了节点间的邻接关系：

edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)

一共4条边，第一条边为0->1，第2条边为1->0。

然后我们就可以构造数据集：

data = Data(x=x, edge_index=edge_index)

有关GCN的实现放在下一篇文章！

以上就是PyG搭建GCN需要准备的数据格式的详细内容，更多关于PyG搭建GCN数据格式的资料请关注我们其它相关文章！

PyG搭建GCN模型实现节点分类GCNConv参数详解

目录前言模型搭建 1. 前向传播 2. 反向传播 3. 训练 4. 测试完整代码前言在上一篇文章PyG搭建GCN前的准备:了解PyG中的数据格式中大致了解了PyG中的数据格式,这篇文章主要是简单搭建GCN来实现节点分类,主要目的是了解PyG中GCN的参数情况. 模型搭建首先导入包: from torch_geometric.nn import GCNConv 模型参数: in_channels:输入通道,比如节点分类中表示每个节点的特征数. out_channels:输出通道,最后一
PyG搭建GCN需要准备的数据格式

目录前言 1. PyG数据集 2. 构造数据集前言有关GCN的原理可以参考:ICLR 2017 | GCN:基于图卷积网络的半监督分类. 一开始是打算手写一下GCN,毕竟原理也不是很难,但想了想还是直接调包吧.在使用各种深度学习框架时我们首先需要知道的是框架内的数据集结构,因此这篇文章主要讲讲PyG中的数据结构. 1. PyG数据集原始论文中使用的数据集: 本篇文章使用Citeseer网络.Citeseer网络是一个引文网络,节点为论文,一共3327篇论文.论文一共分为六类:Agents
搭建小型access数据库实录

今天在确认实习生不能帮忙搭建数据库后,自己根据业务需求尝试搭了一个小型access数据库. 主要目的:储存历史月度数据,避免每次从公司数据库下载数据的麻烦,节省数据拉取时间. 搭建了以acct id为主键的两种数据. 1)客户信息,包括由业务人员手工更新汇总的数据,如客户所在区域,商业信息等. 由机器抓取的客户信息,如客户账号状态,专属业务人员信息等等. 上述数据按照每月定期更新,以及每周更新,存储在不同的表里. 2)客户交易信息,计划包括: 汇总月度信息,如月成交额,交易量等: 分多个维度的
PyTorch上搭建简单神经网络实现回归和分类的示例

本文介绍了PyTorch上搭建简单神经网络实现回归和分类的示例,分享给大家,具体如下: 一.PyTorch入门 1. 安装方法登录PyTorch官网,http://pytorch.org,可以看到以下界面: 按上图的选项选择后即可得到Linux下conda指令: conda install pytorch torchvision -c soumith 目前PyTorch仅支持MacOS和Linux,暂不支持Windows.安装 PyTorch 会安装两个模块,一个是torch,一个 torch
Koa2微信公众号开发之本地开发调试环境搭建

最近沉迷吃鸡不能自拔,好久没更新文章了.后续将陆续完善<Koa2微信公众号开发>. 一.简介关于微信公众号的介绍就省略了,自行搜索.注册过程也不说了.我们会直接注册测试号来实现代码.这将会是个全面讲解微信公众号开发的系列教程.本篇是该系列的第一篇,本地开发环境搭建以及接入微信. 在开始之前最好去看看开发者文档微信公众平台技术文档二.本地开发调试环境搭建 2.1 开发环境 MacOs Node v8.9.1 Koa2 2.2 微信公众平台开发的基本原理我们先来看看微信公众平台开发的基本原理
Python Flask 搭建微信小程序后台详解

前言: 近期需要开发一个打分的微信小程序,涉及到与后台服务器的数据交互,因为业务逻辑相对简单,故选择Python的轻量化web框架Flask来搭建后台程序.因为是初次接触小程序,经过一番摸索和尝试,个人觉得的微信小程序与后台的交互有点像ajax,所以有ajax开发经验的同学开发小程序应该很容易上手,因为本文着重讲解后台程序的搭建,所以,微信小程序的前端开发将一笔带过,有兴趣学习小程序前端语言的同学可移步网易云课堂的一套快速入门课程<轻松玩转微信小程序>. 分三步讲解微信小程序与Python后台
Python Web程序搭建简单的Web服务器

上一篇讲了<Python入门>Windows 7下Python Web开发环境搭建笔记,接下来讲一下Python语言Web服务的具体实现:第一个Python Web程序--简单的Web服务器. 与其它Web后端语言不同,Python语言需要自己编写Web服务器. 如果你使用一些现有的框架的话,可以省略这一步: 如果你使用Python CGI编程的话,也可以省略这一步: 用Python建立最简单的web服务器利用Python自带的包可以建立简单的web服务器.在DOS里cd到准备做服务器根目录
详解从NodeJS搭建中间层再谈前后端分离

之前在知道创宇的项目中有用到过nodejs作中间层,当时还不太理解其背后真正的原因:后来在和一位学长交谈的过程中,也了解到蚂蚁金服也在使用类似的方法,使用nodejs作为中间层去请求真实后台的数据:之后人到北京,也见到现在的公司也在往nodejs后端方向靠拢.随着知识的增加,加之自己查阅资料,慢慢总结出了一些原理. 为什么要前后端分离 1.开发效率高前端开发人员不用苦苦地配置各种后端环境,安装各种莫名的插件,摆脱对后端开发环境的依赖,一门心思写前端代码就好,后端开发人员也不用时不时的跑去帮着前
如何用Python搭建gRPC服务

目录一.概述二.安装python需要的库三.定义gRPC的接口四.使用 protoc 和相应的插件编译生成对应语言的代码五.编写grpc的服务端代码六.编写gRPC客户端的代码七.调用测试八.gRPC的使用总结一.概述一个gRPC服务的大体结构图为: 图一表明,grpc的服务是跨语言的,但需要遵循相同的协议(proto).相比于REST服务,gPRC 的一个很明显的优势是它使用了二进制编码,所以它比 JSON/HTTP 更快,且有清晰的接口规范以及支持流式传输,但它的实现相比
node快速搭建后台的实现步骤

1.首先安装node,express,express-generator (4.x版本把generator分离出来了所以需要单独安装) 2.进入项目文件输入命令express 项目名,npm i安装响应的包,那么简易的后端框架就给你搭好了,默认端口是3000 在bin下面的www修改我一般习惯于改写app.js然后把bin文件删了,因为越简洁越好改写app var http=require('http') var server=http.createServer(app) //省略中间然后在

PyG搭建GCN需要准备的数据格式

目录

前言

1. PyG数据集

2. 构造数据集

相关推荐

随机推荐