使用torchtext导入NLP数据集的操作

2025-03-02 03:13:35

如果你是pytorch的用户，可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库。

从torchtext这个名字我们也能大概猜到该库是pytorch圈中用来预处理文本数据集的库，但这方面的教程网络上比较少，今天我就讲讲这个特别有用的文本分析库。

简介

torchtext在文本数据预处理方面特别强大，但我们要知道ta能做什么、不能做什么，并如何将我们的需求用torchtext实现。虽然torchtext是为pytorch而设计的，但是也可以与keras、tensorflow等结合使用。

官方文档地址 https://torchtext.readthedocs.io/en/latest/index.html

# 安装
!pip3 install torchtext

自然语言处理预处理的工作流程：

1、Train/Validation/Test数据集分割

2、文件数据导入（File Loading）

3、分词（Tokenization）文本字符串切分为词语列表

4、构建词典(Vocab) 根据训练的预料数据集构建词典

5、数字映射(Numericalize/Indexify) 根据词典，将数据从词语映射成数字，方便机器学习

6、导入预训练好的词向量(word vector)

7、分批(Batch) 数据集太大的话，不能一次性让机器读取，否则机器会内存崩溃。解决办法就是将大的数据集分成更小份的数据集，分批处理

8、向量映射（Embedding Lookup）根据预处理好的词向量数据集，将5的结果中每个词语对应的索引值变成 词语向量

上面8个步骤，torchtext实现了2-7。第一步需要我们自己diy，好在这一步没什么难度

"The quick fox jumped over a lazy dog."
# 分词
["The", "quick", "fox", "jumped", "over", "a", "lazy", "dog", "."]
# 构建词典
{"The" -&gt; 0,
"quick"-&gt; 1,
"fox" -&gt; 2,
...}
# 数字映射（将每个词根据词典映射为对应的索引值）
[0, 1, 2, ...]
# 向量映射（按照导入的预训练好的词向量数据集，把词语映射成向量）
[
  [0.3, 0.2, 0.5],
  [0.6, 0., 0.1],
  [0.8, 01., 0.4],
  ...
]

一、数据集分割

一般我们做机器学习会将数据分为训练集和测试集，而在深度学习中，需要多轮训练学习，每次的学习过程都包括训练和验证，最后再进行测试。所以需要将数据分成训练、验证和测试数据。

import pandas as pd
import numpy as np
def split_csv(infile, trainfile, valtestfile, seed=999, ratio=0.2):
    df = pd.read_csv(infile)
    df["text"] = df.text.str.replace("\n", " ")
    idxs = np.arange(df.shape[0])
    np.random.seed(seed)
    np.random.shuffle(idxs)
    val_size = int(len(idxs) * ratio)
    df.iloc[idxs[:val_size], :].to_csv(valtestfile, index=False)
    df.iloc[idxs[val_size:], :].to_csv(trainfile, index=False)
#先将sms_spam.csv数据分为train.csv和test.csv
split_csv(infile='data/sms_spam.csv',
          trainfile='data/train.csv',
          valtestfile='data/test.csv',
          seed=999,
          ratio=0.2)
#再将train.csv分为dataset_train.csv和dataset_valid.csv
split_csv(infile='data/train.csv',
          trainfile='data/dataset_train.csv',
          valtestfile='data/dataset_valid.csv',
          seed=999,
          ratio=0.2)

1.1 参数解读

split_csv(infile, trainfile, valtestfile, seed, ratio)

infile:待分割的csv文件

trainfile:分割出的训练cs文件

valtestfile：分割出的测试或验证csv文件

seed:随机种子，保证每次的随机分割随机性一致

ratio:测试（验证）集占数据的比例

经过上面的操作，我们已经构建出实验所需的数据：

训练数据（这里说的是dataset_train.csv而不是train.csv）

验证数据（dataset_train.csv）

测试数据（test.csv）。

二、分词

导入的数据是字符串形式的文本，我们需要将其分词成词语列表。英文最精准的分词器如下：

import re
import spacy
import jieba	

#英文的分词器
NLP = spacy.load('en_core_web_sm')
MAX_CHARS = 20000  #为了降低处理的数据规模，可以设置最大文本长度,超过的部分忽略，
def tokenize1(text):
    text = re.sub(r"\s", " ", text)
    if (len(text) &gt; MAX_CHARS):
        text = text[:MAX_CHARS]
    return [
        x.text for x in NLP.tokenizer(text) if x.text != " " and len(x.text)&gt;1]
#有的同学tokenize1用不了，可以使用tokenize2。
def tokenize2(text):
    text = re.sub(r"\s", " ", text)
    if (len(text) &gt; MAX_CHARS):
        text = text[:MAX_CHARS]
    return [w for w in text.split(' ') if len(w)&gt;1]
#中文的分类器比较简单
def tokenize3(text):
    if (len(text) &gt; MAX_CHARS):
        text = text[:MAX_CHARS]
    return [w for w in jieba.lcut(text) if len(w)&gt;1]	

print(tokenize1('Python is powerful and beautiful!'))
print(tokenize2('Python is powerful and beautiful!'))
print(tokenize3('Python强大而美丽！'))

Run

['Python', 'is', 'powerful', 'and', 'beautiful']
['Python', 'is', 'powerful', 'and', 'beautiful!']
['Python', '强大', '美丽']

三、导入数据

torchtext中使用torchtext.data.TabularDataset来导入自己的数据集，并且我们需要先定义字段的数据类型才能导入。要按照csv中的字段顺序来定义字段的数据类型，我们的csv文件中有两个字段（label、text）

import pandas as pd
df = pd.read_csv('data/train.csv')
df.head()

import torch
import torchtext
from torchtext import data
import logging
LABEL = data.LabelField(dtype = torch.float)
TEXT = data.Field(tokenize = tokenize1,
                      lower=True,
                      fix_length=100,
                      stop_words=None)
train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹
                                                train='dataset_train.csv',
                                                validation='dataset_valid.csv',
                                                test = 'test.csv',
                                                format='csv',
                                                skip_header=True,
                                                fields = [('label', LABEL),('text', TEXT)])
train

Run

&lt;torchtext.data.dataset.TabularDataset at 0x120d8ab38&gt;

四、构建词典

根据训练（上面得到的train）的预料数据集构建词典。这两有两种构建方式，一种是常规的不使用词向量，而另一种是使用向量的。

区别仅仅在于vectors是否传入参数

vects =  torchtext.vocab.Vectors(name = 'glove.6B.100d.txt',
                                 cache = 'data/')
TEXT.build_vocab(train,
                 max_size=2000,
                 min_freq=50,
                 vectors=vects,  #vects替换为None则不使用词向量
                 unk_init = torch.Tensor.normal_)

4.1 TEXT是Field对象，该对象的方法有

print(type(TEXT))
print(type(TEXT.vocab))

Run

&lt;class 'torchtext.data.field.Field'&gt;
&lt;class 'torchtext.vocab.Vocab'&gt;

词典-词语列表形式，这里只显示前20个

TEXT.vocab.itos[:20]

['&lt;unk&gt;',
 '&lt;pad&gt;',
 'to',
 'you',
 'the',
 '...',
 'and',
 'is',
 'in',
 'me',
 'it',
 'my',
 'for',
 'your',
 '..',
 'do',
 'of',
 'have',
 'that',
 'call']

词典-字典形式

TEXT.vocab.stoi

defaultdict(&lt;bound method Vocab._default_unk_index of &lt;torchtext.vocab.Vocab object at 0x1214b1e48&gt;&gt;,
            {'&lt;unk&gt;': 0,
             '&lt;pad&gt;': 1,
             'to': 2,
             'you': 3,
             'the': 4,
             '...': 5,
             'and': 6,
             'is': 7,
             'in': 8,
             ....
             'mother': 0,
             'english': 0,
             'son': 0,
             'gradfather': 0,
             'father': 0,
             'german': 0)

4.2 注意

train数据中生成的词典，里面有，这里有两个要注意:

是指不认识的词语都编码为

german、father等都编码为0,这是因为我们要求词典中出现的词语词频必须大于50，小于50的都统一分配一个索引值。

词语you对应的词向量

TEXT.vocab.vectors[3]

tensor([-0.4989,  0.7660,  0.8975, -0.7855, -0.6855,  0.6261, -0.3965,  0.3491,
         0.3333, -0.4523,  0.6122,  0.0759,  0.2253,  0.1637,  0.2810, -0.2476,
         0.0099,  0.7111, -0.7586,  0.8742,  0.0031,  0.3580, -0.3523, -0.6650,
         0.3845,  0.6268, -0.5154, -0.9665,  0.6152, -0.7545, -0.0124,  1.1188,
         0.3572,  0.0072,  0.2025,  0.5011, -0.4405,  0.1066,  0.7939, -0.8095,
        -0.0156, -0.2289, -0.3420, -1.0065, -0.8763,  0.1516, -0.0853, -0.6465,
        -0.1673, -1.4499, -0.0066,  0.0048, -0.0124,  1.0474, -0.1938, -2.5991,
         0.4053,  0.4380,  1.9332,  0.4581, -0.0488,  1.4308, -0.7864, -0.2079,
         1.0900,  0.2482,  1.1487,  0.5148, -0.2183, -0.4572,  0.1389, -0.2637,
         0.1365, -0.6054,  0.0996,  0.2334,  0.1365, -0.1846, -0.0477, -0.1839,
         0.5272, -0.2885, -1.0742, -0.0467, -1.8302, -0.2120,  0.0298, -0.3096,
        -0.4339, -0.3646, -0.3274, -0.0093,  0.4721, -0.5169, -0.5918, -0.3234,
         0.2005, -0.4118,  0.4054,  0.7850])

4.3 计算词语的相似性

得用词向量构建特征工程时能保留更多的信息量（词语之间的关系）

这样可以看出词语的向量方向

是同义还是反义

距离远近。

而这里我们粗糙的用余弦定理计算词语之间的关系，没有近义反义关系，只能体现出距离远近（相似性）。

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
def simalarity(word1, word2):
    word_vec1 = TEXT.vocab.vectors[TEXT.vocab.stoi[word1]].tolist()
    word_vec2 = TEXT.vocab.vectors[TEXT.vocab.stoi[word2]].tolist()
    vectors = np.array([word_vec1, word_vec2])
    return cosine_similarity(vectors)
print(simalarity('you', 'your'))

Run

[[1.         0.83483314]
 [0.83483314 1.        ]]

五、get_dataset函数

相似的功能合并成模块，可以增加代码的可读性。这里我们把阶段性合并三四的成果get_dataset函数

from torchtext import data
import torchtext
import torch
import logging
LOGGER = logging.getLogger("导入数据")
def get_dataset(stop_words=None):
    #定义字段的数据类型
    LABEL = data.LabelField(dtype = torch.float)
    TEXT = data.Field(tokenize = tokenize1,
                      lower=True,
                      fix_length=100,
                      stop_words=stop_words)
    LOGGER.debug("准备读取csv数据...")
    train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹
                                         train='dataset_train.csv',
                                         validation='dataset_valid.csv',
                                         test = 'test.csv',
                                         format='csv',
                                         skip_header=True,
                                         fields = [('label', LABEL),('text', TEXT)])
    LOGGER.debug("准备导入词向量...")
    vectors = torchtext.vocab.Vectors(name = 'glove.6B.100d.txt',
                                      cache = 'data/')
    LOGGER.debug("准备构建词典...")
    TEXT.build_vocab(
        train,
        max_size=2000,
        min_freq=50,
        vectors=vectors,
        unk_init = torch.Tensor.normal_)
    LOGGER.debug("完成数据导入!")
    return train,valid, test, TEXT

get_dataset函数内部参数解读

data.Field(tokenize,fix_length)定义字段

tokenize=tokenize1 使用英文的分词器tokenize1函数。

fix_length=100 让每个文本分词后的长度均为100个词；不足100的，可以填充为100。超过100的，只保留100

data.TabularDataset.splits(train, validation,test, format,skip_header,fields)读取训练验证数据，可以一次性读取多个文件

train/validation/test 训练验证测试对应的csv文件名

skip_header=True 如果csv有抬头，设置为True可以避免pytorch将抬头当成一条记录

fields = [('label', LABEL), ('text', TEXT)] 定义字段的类型，注意fields要按照csv抬头中字段的顺序设置

torchtext.vocab.Vectors(name, cache)导入词向量数据文件

name= 'glove.6B.100d.txt' 从网上下载预训练好的词向量glove.6B.100d.txt文件（该文件有6B个词，每个词向量长度为100）

cache = 'data/' 文件夹位置。glove文件存放在data文件夹内

TEXT.buildvocab(maxsize,minfreq,unkinit) 构建词典，其中

max_size=2000 设定了词典最大词语数

min_freq=50设定了词典中的词语保证最少出现50次

unkinit=torch.Tensor.normal 词典中没有的词语对应的向量统一用torch.Tensor.normal_填充

六、分批次

数据集太大的话，一次性让机器读取容易导致内存崩溃。解决办法就是将大的数据集分成更小份的数据集，分批处理

def split2batches(batch_size=32, device='cpu'):
    train, valid, test, TEXT = get_dataset() #datasets按顺序包含train、valid、test三部分
    LOGGER.debug("准备数据分批次...")
    train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits((train, valid, test),
                                                                               batch_size = batch_size,
                                                                               sort = False,
                                                                               device = device)
    LOGGER.debug("完成数据分批次!")
    return train_iterator, valid_iterator, test_iterator, TEXT

6.1参数解读

split2batches(batch_size=32, device=0)

batch_size 每批次最多加入多少条评论

device device='cpu'在CPU中运行，device='gpu' 在GPU中运行。普通电脑都只有CPU的该函数返回的是BucketIterator对象

train_iterator, valid_iterator, test_iterator, TEXT = split2batches()
train_iterator

Run

&lt;torchtext.data.iterator.BucketIterator at 0x12b0c7898&gt;

查看train_iterator数据类型

type(train_iterator)
torchtext.data.iterator.BucketIterator

6.2BucketIterator对象

这里以trainiterator为例（validiterator, test_iterator都是相同的对象）。因为本例中数据有两个字段label和text，所以

获取train_iterator的dataset

train_iterator.dataset
&lt;torchtext.data.dataset.TabularDataset at 0x12e9c57b8&gt;

获取train_iterator中的第8个对象

train_iterator.dataset.examples[7]
&lt;torchtext.data.example.Example at 0x12a82dcf8&gt;

获取train_iterator中的第8个对象的lebel字段的内容

train_iterator.dataset.examples[7].label
'ham'

获取train_iterator中的第8个对象的text字段的内容

train_iterator.dataset.examples[7].text
['were', 'trying', 'to', 'find', 'chinese', 'food', 'place', 'around', 'here']

总结

到这里我们已经学习了torchtext的常用知识。使用本代码要注意：

我们假设数据集是csv文件，torchtext可以还可以处理tsv、json。但如果你想使用本代码，请先转为csv

本教程的csv文件只有两个字段，label和text。如果你的数据有更多的字段，记得再代码中增加字段定义

本教程默认场景是英文，且使用词向量。所以记得对应位置下载本教程的glove.6B.100d.txt。

glove下载地址https://nlp.stanford.edu/projects/glove/

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

使用pytorch和torchtext进行文本分类的实例

文本分类是NLP领域的较为容易的入门问题,本文记录我自己在做文本分类任务以及复现相关论文时的基本流程,绝大部分操作都使用了torch和torchtext两个库. 1. 文本数据预处理首先数据存储在三个csv文件中,分别是train.csv,valid.csv,test.csv,第一列存储的是文本数据,例如情感分类问题经常是用户的评论review,例如imdb或者amazon数据集.第二列是情感极性polarity,N分类问题的话就有N个值,假设值得范围是0~N-1. 下面是很常见的文本预处理流
PyTorch加载自己的数据集实例详解

数据预处理在解决深度学习问题的过程中,往往需要花费大量的时间和精力. 数据处理的质量对训练神经网络来说十分重要,良好的数据处理不仅会加速模型训练, 更会提高模型性能.为解决这一问题,PyTorch提供了几个高效便捷的工具, 以便使用者进行数据处理或增强等操作,同时可通过并行化加速数据加载. 数据集存放大致有以下两种方式: (1)所有数据集放在一个目录下,文件名上附有标签名,数据集存放格式如下: root/cat_dog/cat.01.jpg root/cat_dog/cat.02.jpg ...
pytorch下大型数据集(大型图片)的导入方式

使用torch.utils.data.Dataset类处理图片数据时, 1. 我们需要定义三个基本的函数,以下是基本流程 class our_datasets(Data.Dataset): def __init__(self,root,is_resize=False,is_transfrom=False): #这里只是个参考.按自己需求写. self.root=root self.is_resize=is_resize self.is_transfrom=is_transfrom self.i
pytorch加载语音类自定义数据集的方法教程

前言 pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.utils.data.Dataset:所有继承他的子类都应该重写 __len()__ , __getitem()__ 这两个方法 __len()__ :返回数据集中数据的数量 __getitem()__ :返回支持下标索引方式获取的一个数据 torch.utils.data.DataLoad
使用torchtext导入NLP数据集的操作

如果你是pytorch的用户,可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库. 从torchtext这个名字我们也能大概猜到该库是pytorch圈中用来预处理文本数据集的库,但这方面的教程网络上比较少,今天我就讲讲这个特别有用的文本分析库. 简介 torchtext在文本数据预处理方面特别强大,但我们要知道ta能做什么.不能做什么,并如何将我们的需求用torchtext实现.虽然torchtext是为pytorch而设计的,但是也可以与keras.tensor
CI框架(CodeIgniter)实现的导入、导出数据操作示例

本文实例讲述了CI框架(CodeIgniter)实现的导入.导出数据操作.分享给大家供大家参考,具体如下: 在libraies中引用PHPExcel这个类(phpexcel.php) public function excel_put(){ //先做一个文件上传,保存文件 $path=$_FILES['file']; $filePath = "uploads/".$path["name"]; move_uploaded_file($path["tmp_na
thinkphp5.1 框架导入/导出excel文件操作示例

本文实例讲述了thinkphp5.1 框架导入/导出excel文件操作.分享给大家供大家参考,具体如下: thinkphp5.1 导入excel文件 public function importExcel() { try { //获取表格的大小,限制上传表格的大小 if ($_FILES['file']['size'] > 10 * 1024 * 1024) { //文件过大 log_debug($log_title . 'END === MSG:' . '文件过大'); parent::end
Python xlrd模块导入过程及常用操作

简介读取Excle文档,支持xls,xlsx格式安装:pip3 install xlrd 导入:import xlrd xlrd 模块方法读取Excel file = 'route_info.xls' # 读取Excel信息,生成对象 read_book = xlrd.open_workbook(file) 获取sheet[表]相关方法,返回xlrd.sheet.Sheet()对象 sheet = read_book.sheets() # 获取全部sheet列表 print(sheet)
postgresql 导入数据库表并重设自增属性的操作

postgresql使用Navicat软件导出数据库表,在导入会数据库的操作. postgresql 的自增字段是通过序列 sequence来实现的. 1.先删除导出的数据库表中的自增属性 2.导入数据库表之后,需要创建序列. 注:一般序列名称由数据表名+主键字段+seq组成 (通常情况下主键字段即为自增字段),如下表名为cof_table_hot_analysis,主键字段为 id CREATE SEQUENCE cof_table_hot_analysis_id_seq START WI
python KNN算法实现鸢尾花数据集分类

一.knn算法描述 1.基本概述 knn算法,又叫k-近邻算法.属于一个分类算法,主要思想如下: 一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一个类别,则该样本也属于这个类别.其中k表示最近邻居的个数. 用二维的图例,说明knn算法,如下: 二维空间下数据之间的距离计算: 在n维空间两个数据之间: 2.具体步骤: (1)计算待测试数据与各训练数据的距离 (2)将计算的距离进行由小到大排序 (3)找出距离最小的k个值 (4)计算找出的值中每个类别的频次 (5)返回频次最高的类别二.鸢
python实现将两个文件夹合并至另一个文件夹(制作数据集)

此操作目的是为了制作自己的数据集,深度学习框架进行数据准备,此操作步骤包括对文件夹进行操作,将两个文件夹合并至另一个文件夹该实例为一个煤矿工人脸识别的案例;首先原始数据集(简化版的数据集旨在说明数据准备过程)如下图所示: 该数据集只有三个人的数据,A01代表工人甲的煤矿下的照片,B01代表工人甲下矿前的照片,同理A02.B02代表工人乙的矿下.矿上的照片数据... 如下图所示矿下矿上开始制作数据集: 首先建立训练集(0.7)和测试集(0.3),即建立一个空白文件夹将该文件夹分为四个小文
基于BootStrap Metronic开发框架经验小结【七】数据的导入、导出及附件的查看处理

在很多系统模块里面,我们可能都需要进行一定的数据交换处理,也就是数据的导入或者导出操作,这样的批量处理能给系统用户更好的操作体验,也提高了用户录入数据的效率.本文基于Bootstrap的框架基础上,再对这个模块进行更新处理,以及Office文档或者图片等附件的查看处理. 1.数据的导入操作一般系统模块里面,都有数据导入和导出操作,因此在界面自动生成的时候,我都倾向于给用户自动生成这些标准的查询.导入.导出等操作功能,界面效果如下所示. 导入操作,在Bootstrap框架里面,我把它作为一个层的
对sklearn的使用之数据集的拆分与训练详解(python3.6)

研修课上讲了两个例子,融合一下. 主要演示大致的过程: 导入->拆分->训练->模型报告以及几个重要问题: ①标签二值化 ②网格搜索法调参 ③k折交叉验证 ④增加噪声特征(之前涉及) from sklearn import datasets #从cross_validation导入会出现warning,说已弃用 from sklearn.model_selection import train-test_split from sklearn.grid_search import Gri
Python使用Pandas库常见操作详解

本文实例讲述了Python使用Pandas库常见操作.分享给大家供大家参考,具体如下: 1.概述 Pandas 是Python的核心数据分析支持库,提供了快速.灵活.明确的数据结构,旨在简单.直观地处理关系型.标记型数据.Pandas常用于处理带行列标签的矩阵数据.与 SQL 或 Excel 表类似的表格数据,应用于金融.统计.社会科学.工程等领域里的数据整理与清洗.数据分析与建模.数据可视化与制表等工作. 数据类型:Pandas 不改变原始的输入数据,而是复制数据生成新的对象,有普通对象构成的