pytorch加载语音类自定义数据集的方法教程

2026-07-04 13:36:33

前言

　　pytorch对一下常用的公开数据集有很方便的API接口，但是当我们需要使用自己的数据集训练神经网络时，就需要自定义数据集，在pytorch中，提供了一些类，方便我们定义自己的数据集合

torch.utils.data.Dataset：所有继承他的子类都应该重写 __len()__ ， __getitem()__ 这两个方法
- __len()__ ：返回数据集中数据的数量
- __getitem()__ ：返回支持下标索引方式获取的一个数据
torch.utils.data.DataLoader：对数据集进行包装，可以设置batch_size、是否shuffle....

第一步

　　自定义的 Dataset 都需要继承 torch.utils.data.Dataset 类，并且重写它的两个成员方法：

__len()__：读取数据，返回数据和标签
__getitem()__：返回数据集的长度

from torch.utils.data import Dataset

class AudioDataset(Dataset):
 def __init__(self, ...):
 """类的初始化"""
 pass

 def __getitem__(self, item):
 """每次怎么读数据，返回数据和标签"""
 return data, label

 def __len__(self):
 """返回整个数据集的长度"""
 return total

注意事项：Dataset只负责数据的抽象，一次调用getiitem只返回一个样本

案例：

　　文件目录结构

p225
- ***.wav
- ***.wav
- ***.wav
- ...
dataset.py

目的：读取p225文件夹中的音频数据

class AudioDataset(Dataset):
 def __init__(self, data_folder, sr=16000, dimension=8192):
 self.data_folder = data_folder
 self.sr = sr
 self.dim = dimension

 # 获取音频名列表
 self.wav_list = []
 for root, dirnames, filenames in os.walk(data_folder):
 for filename in fnmatch.filter(filenames, "*.wav"): # 实现列表特殊字符的过滤或筛选,返回符合匹配“.wav”字符列表
 self.wav_list.append(os.path.join(root, filename))

 def __getitem__(self, item):
 # 读取一个音频文件，返回每个音频数据
 filename = self.wav_list[item]
 wb_wav, _ = librosa.load(filename, sr=self.sr)

 # 取 帧
 if len(wb_wav) >= self.dim:
 max_audio_start = len(wb_wav) - self.dim
 audio_start = np.random.randint(0, max_audio_start)
 wb_wav = wb_wav[audio_start: audio_start + self.dim]
 else:
 wb_wav = np.pad(wb_wav, (0, self.dim - len(wb_wav)), "constant")

 return wb_wav, filename

 def __len__(self):
 # 音频文件的总数
 return len(self.wav_list)

注意事项：19-24行：每个音频的长度不一样，如果直接读取数据返回出来的话，会造成维度不匹配而报错，因此只能每次取一个音频文件读取一帧，这样显然并没有用到所有的语音数据，

第二步

　　实例化 Dataset 对象

Dataset= AudioDataset("./p225", sr=16000)

如果要通过batch读取数据的可直接跳到第三步，如果你想一个一个读取数据的可以看我接下来的操作

# 实例化AudioDataset对象
train_set = AudioDataset("./p225", sr=16000)

for i, data in enumerate(train_set):
 wb_wav, filname = data
 print(i, wb_wav.shape, filname)

 if i == 3:
 break
 # 0 (8192,) ./p225\p225_001.wav
 # 1 (8192,) ./p225\p225_002.wav
 # 2 (8192,) ./p225\p225_003.wav
 # 3 (8192,) ./p225\p225_004.wav

第三步

　　如果想要通过batch读取数据，需要使用DataLoader进行包装

为何要使用DataLoader？

深度学习的输入是mini_batch形式
样本加载时候可能需要随机打乱顺序，shuffle操作
样本加载需要采用多线程

　　pytorch提供的 DataLoader 封装了上述的功能，这样使用起来更方便。

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=default_collate, pin_memory=False, drop_last=False)

参数：

dataset：加载的数据集（Dataset对象）
batch_size：每个批次要加载多少个样本（默认值：1）
shuffle：每个epoch是否将数据打乱
sampler：定义从数据集中抽取样本的策略。如果指定，则不能指定洗牌。
batch_sampler：类似于sampler，但每次返回一批索引。与batch_size、shuffle、sampler和drop_last相互排斥。
num_workers：使用多进程加载的进程数，0代表不使用多线程
collate_fn：如何将多个样本数据拼接成一个batch，一般使用默认拼接方式
pin_memory：是否将数据保存在pin memory区，pin memory中的数据转到GPU会快一些
drop_last：dataset中的数据个数可能不是batch_size的整数倍，drop_last为True会将多出来不足一个batch的数据丢弃

返回：数据加载器

案例：

# 实例化AudioDataset对象
train_set = AudioDataset("./p225", sr=16000)
train_loader = DataLoader(train_set, batch_size=8, shuffle=True)

for (i, data) in enumerate(train_loader):
 wav_data, wav_name = data
 print(wav_data.shape) # torch.Size([8, 8192])
 print(i, wav_name)
 # ('./p225\\p225_293.wav', './p225\\p225_156.wav', './p225\\p225_277.wav', './p225\\p225_210.wav',
 # './p225\\p225_126.wav', './p225\\p225_021.wav', './p225\\p225_257.wav', './p225\\p225_192.wav')

我们来吃几个栗子消化一下：

栗子1

　　这个例子就是本文一直举例的，栗子1只是合并了一下而已

　　文件目录结构

p225
- ***.wav
- ***.wav
- ***.wav
- ...
dataset.py

目的：读取p225文件夹中的音频数据

import fnmatch
import os
import librosa
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

class Aduio_DataLoader(Dataset):
 def __init__(self, data_folder, sr=16000, dimension=8192):
 self.data_folder = data_folder
 self.sr = sr
 self.dim = dimension

 # 获取音频名列表
 self.wav_list = []
 for root, dirnames, filenames in os.walk(data_folder):
  for filename in fnmatch.filter(filenames, "*.wav"): # 实现列表特殊字符的过滤或筛选,返回符合匹配“.wav”字符列表
  self.wav_list.append(os.path.join(root, filename))

 def __getitem__(self, item):
 # 读取一个音频文件，返回每个音频数据
 filename = self.wav_list[item]
 print(filename)
 wb_wav, _ = librosa.load(filename, sr=self.sr)

 # 取 帧
 if len(wb_wav) >= self.dim:
  max_audio_start = len(wb_wav) - self.dim
  audio_start = np.random.randint(0, max_audio_start)
  wb_wav = wb_wav[audio_start: audio_start + self.dim]
 else:
  wb_wav = np.pad(wb_wav, (0, self.dim - len(wb_wav)), "constant")

 return wb_wav, filename

 def __len__(self):
 # 音频文件的总数
 return len(self.wav_list)

train_set = Aduio_DataLoader("./p225", sr=16000)
train_loader = DataLoader(train_set, batch_size=8, shuffle=True)

for (i, data) in enumerate(train_loader):
 wav_data, wav_name = data
 print(wav_data.shape) # torch.Size([8, 8192])
 print(i, wav_name)
 # ('./p225\\p225_293.wav', './p225\\p225_156.wav', './p225\\p225_277.wav', './p225\\p225_210.wav',
 # './p225\\p225_126.wav', './p225\\p225_021.wav', './p225\\p225_257.wav', './p225\\p225_192.wav')

注意事项：

27-33行：每个音频的长度不一样，如果直接读取数据返回出来的话，会造成维度不匹配而报错，因此只能每次取一个音频文件读取一帧，这样显然并没有用到所有的语音数据，
48行：我们在__getitem__中并没有将numpy数组转换为tensor格式，可是第48行显示数据是tensor格式的。这里需要引起注意

栗子2

　　相比于案例1，案例二才是重点，因为我们不可能每次只从一音频文件中读取一帧，然后读取另一个音频文件，通常情况下，一段音频有很多帧，我们需要的是按顺序的读取一个batch_size的音频帧，先读取第一个音频文件，如果满足一个batch，则不用读取第二个batch，如果不足一个batch则读取第二个音频文件，来补充。

　　我给出一个建议，先按顺序读取每个音频文件，以窗长8192、帧移4096对语音进行分帧，然后拼接。得到（帧数，帧长，1）（frame_num, frame_len, 1）的数组保存到h5中。然后用上面讲到的 torch.utils.data.Dataset 和 torch.utils.data.DataLoader 读取数据。

具体实现代码：

　　第一步：创建一个H5_generation脚本用来将数据转换为h5格式文件：

　　第二步：通过Dataset从h5格式文件中读取数据

import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
import h5py

def load_h5(h5_path):
 # load training data
 with h5py.File(h5_path, 'r') as hf:
 print('List of arrays in input file:', hf.keys())
 X = np.array(hf.get('data'), dtype=np.float32)
 Y = np.array(hf.get('label'), dtype=np.float32)
 return X, Y

class AudioDataset(Dataset):
 """数据加载器"""
 def __init__(self, data_folder):
 self.data_folder = data_folder
 self.X, self.Y = load_h5(data_folder) # (3392, 8192, 1)

 def __getitem__(self, item):
 # 返回一个音频数据
 X = self.X[item]
 Y = self.Y[item]

 return X, Y

 def __len__(self):
 return len(self.X)

train_set = AudioDataset("./speaker225_resample_train.h5")
train_loader = DataLoader(train_set, batch_size=64, shuffle=True, drop_last=True)

for (i, wav_data) in enumerate(train_loader):
 X, Y = wav_data
 print(i, X.shape)
 # 0 torch.Size([64, 8192, 1])
 # 1 torch.Size([64, 8192, 1])
 # ...

我尝试在__init__中生成h5文件，但是会导致内存爆炸，就很奇怪，因此我只好分开了，

参考

pytorch学习(四)—自定义数据集（讲的比较详细）

总结

到此这篇关于pytorch加载语音类自定义数据集的文章就介绍到这了,更多相关pytorch加载语音类自定义数据集内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Pytorch 实现数据集自定义读取

以读取VOC2012语义分割数据集为例,具体见代码注释: VocDataset.py from PIL import Image import torch import torch.utils.data as data import numpy as np import os import torchvision import torchvision.transforms as transforms import time #VOC数据集分类对应颜色标签 VOC_COLORMAP = [[0,
pytorch 自定义数据集加载方法

pytorch 官网给出的例子中都是使用了已经定义好的特殊数据集接口来加载数据,而且其使用的数据都是官方给出的数据.如果我们有自己收集的数据集,如何用来训练网络呢?此时需要我们自己定义好数据处理接口.幸运的是pytroch给出了一个数据集接口类(torch.utils.data.Dataset),可以方便我们继承并实现自己的数据集接口. torch.utils.data torch的这个文件包含了一些关于数据集处理的类. class torch.utils.data.Dataset: 一个抽象类
Pytorch 神经网络—自定义数据集上实现教程

第一步.导入需要的包 import os import scipy.io as sio import numpy as np import torch import torch.nn as nn import torch.backends.cudnn as cudnn import torch.optim as optim from torch.utils.data import Dataset, DataLoader from torchvision import transforms, ut
pytorch加载语音类自定义数据集的方法教程

前言 pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.utils.data.Dataset:所有继承他的子类都应该重写 __len()__ , __getitem()__ 这两个方法 __len()__ :返回数据集中数据的数量 __getitem()__ :返回支持下标索引方式获取的一个数据 torch.utils.data.DataLoad
pytorch加载自己的图像数据集实例

之前学习深度学习算法,都是使用网上现成的数据集,而且都有相应的代码.到了自己开始写论文做实验,用到自己的图像数据集的时候,才发现无从下手 ,相信很多新手都会遇到这样的问题. 参考文章https://www.jb51.net/article/177613.htm 下面代码实现了从文件夹内读取所有图片,进行归一化和标准化操作并将图片转化为tensor.最后读取第一张图片并显示. # 数据处理 import os import torch from torch.utils import data fr
pytorch加载自己的图片数据集的2种方法详解

目录 ImageFolder 加载数据集使用pytorch提供的Dataset类创建自己的数据集. Dataset加载数据集总结 pytorch加载图片数据集有两种方法. 1.ImageFolder 适合于分类数据集,并且每一个类别的图片在同一个文件夹, ImageFolder加载的数据集, 训练数据为文件件下的图片, 训练标签是对应的文件夹, 每个文件夹为一个类别导入ImageFolder()包 from torchvision.datasets import ImageFolder 在
使用pytorch加载并读取COCO数据集的详细操作

目录环境配置基础知识:元祖.字典.数组利用PyTorch读取COCO数据集利用PyTorch读取自己制作的数据集如何使用pytorch加载并读取COCO数据集环境配置基础知识:元祖.字典.数组利用PyTorch读取COCO数据集利用PyTorch读取自己制作的数据集环境配置看pytorch入门教程基础知识:元祖.字典.数组 # 元祖 a = (1, 2) # 字典 b = {'username': 'peipeiwang', 'code': '111'} # 数组 c = [1
VUE DOM加载后执行自定义事件的方法

最近想用vue做一个小东西,谁知道一开始就遇到了一个棘手的问题: 首先我想在页面加载前通过ajax请求页面展示所需要的信息,于是我在created钩子函数里面请求了我想要的数据 created:function(){ var url="/indexitem"; var _self=this; $.get(url,function(data){ _self.items=data; }); $.get('/banner',function(data){ _self.banners=data
IDEA错误:找不到或无法加载主类的完美解决方法

目录前言问题报错问题截图解决方案一.file—>Project Structure 二.点击Project Settings中的Moudles—>点击减号将所有的Moudle删除三.点击+号重新引入Moudle 四.找到项目的父文件夹中的pom文件—>OK 五.Rebuild Project 写在最后前言今天在运行项目的时候突然出了这样一个错误:IDEA 错误找不到或无法加载主类,相信只要是用过IDEA的朋友都遇到过它吧,但是每次遇到都是一顿焦头烂额.抓耳挠腮.急赤白
Java命令行运行错误之找不到或无法加载主类问题的解决方法

目录前言: 一. 问题分析二. 问题解决 1. 类名错误 2. 类所在位置未添加至类加载路径中三.扩展知识 1. JDK目录结构及环境变量介绍 2. 为什么jdk1.5后不需要配置环境变量了? 总结前言: 虽然学习Java语言约有两年多,但在最近需要使用命令行工具编译并运行Java程序时,还是报错了.花费了一些时间,解决了该问题,发现解决方法在初学Java时使用过.一则,为了避免以后再出现同样的问题而浪费不必要的时间:二则,作为使用该语言的程序员,对于该语言的一些基本问题,应该有清晰的理
PyTorch加载自己的数据集实例详解

数据预处理在解决深度学习问题的过程中,往往需要花费大量的时间和精力. 数据处理的质量对训练神经网络来说十分重要,良好的数据处理不仅会加速模型训练, 更会提高模型性能.为解决这一问题,PyTorch提供了几个高效便捷的工具, 以便使用者进行数据处理或增强等操作,同时可通过并行化加速数据加载. 数据集存放大致有以下两种方式: (1)所有数据集放在一个目录下,文件名上附有标签名,数据集存放格式如下: root/cat_dog/cat.01.jpg root/cat_dog/cat.02.jpg ...
pytorch加载自己的数据集源码分享

目录一.标准的数据集流程梳理数据来源二.实现加载自己的数据集 1. 保存在txt文件中(生成训练集和测试集,其实这里的训练集以及测试集也都是用文本文件的形式保存下来的) 2. 在继承dataset类LoadData的三个函数里调用train.txt以及test.txt实现相关功能三.源码一.标准的数据集流程梳理分为几个步骤数据准备以及加载数据库–>数据加载器的调用或者设计–>批量调用进行训练或者其他作用数据来源直接读取了x和y的数据变量,对比后面的就从把对应的路径写进了文本文件
Pytorch加载数据集的方式总结及补充

目录前言一.自己重写定义(Dataset.DataLoader) 二.用Pytorch自带的类(ImageFolder.datasets.DataLoader) 2.1 加载自己的数据集 2.1.1 ImageFolder介绍 2.2.2 ImageFolder加载数据集完整例子 2.2 加载常见的数据集三.总结四.transforms变换讲解五.DataLoader的补充总结前言在用Pytorch加载数据集时,看GitHub上的代码经常会用到ImageFolder.DataLo

pytorch加载语音类自定义数据集的方法教程

相关推荐

随机推荐