浅谈Keras中fit()和fit_generator()的区别及其参数的坑

2025-04-21 03:26:28

1、fit和fit_generator的区别

首先Keras中的fit()函数传入的x_train和y_train是被完整的加载进内存的,当然用起来很方便，但是如果我们数据量很大，那么是不可能将所有数据载入内存的，必将导致内存泄漏，这时候我们可以用fit_generator函数来进行训练。

下面是fit传参的例子：

history = model.fit(x_train, y_train, epochs=10,batch_size=32,
                    validation_split=0.2)

这里需要给出epochs和batch_size，epoch是这个数据集要被轮多少次，batch_size是指这个数据集被分成多少个batch进行处理。

最后可以给出交叉验证集的大小，这里的0.2是指在训练集上占比20%。

fit_generator函数必须传入一个生成器，我们的训练数据也是通过生成器产生的，下面给出一个简单的生成器函数：

batch_size = 128
def generator():
    while 1:
        row = np.random.randint(0,len(x_train),size=batch_size)
        x = np.zeros((batch_size,x_train.shape[-1]))
        y = np.zeros((batch_size,))
        x = x_train[row]
        y = y_train[row]
        yield x,y

这里的生成器函数我产生的是一个batch_size为128大小的数据，这只是一个demo。如果我在生成器里没有规定batch_size的大小，就是每次产生一个数据，那么在用fit_generator时候里面的参数steps_per_epoch是不一样的。

这里的坑我困惑了好久，虽然不是什么大问题

下面是fit_generator函数的传参：

history = model.fit_generator(generator(),epochs=epochs,steps_per_epoch=len(x_train)//(batch_size*epochs))

2、batch_size和steps_per_epoch的区别

首先batch_size = 数据集大小/steps_per_epoch的，如果我们在生成函数里设置了batch_size的大小，那么在fit_generator传参的时候，,steps_per_epoch=len(x_train)//(batch_size*epochs)

我得完整demo代码：

from keras.datasets import imdb
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras import layers
import numpy as np
import random
from sklearn.metrics import f1_score,accuracy_score
max_features = 10000
maxlen = 500
batch_size = 32
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
x_train = pad_sequences(x_train,maxlen=maxlen)
x_test = pad_sequences(x_test,maxlen=maxlen)

def generator():
    while 1:
        row = np.random.randint(0,len(x_train),size=batch_size)
        x = np.zeros((batch_size,x_train.shape[-1]))
        y = np.zeros((batch_size,))
        x = x_train[row]
        y = y_train[row]
        yield x,y
# generator()

model = Sequential()
model.add(layers.Embedding(max_features,32,input_length=maxlen))
model.add(layers.GRU(64,return_sequences=True))
model.add(layers.GRU(32))
# model.add(layers.Flatten())
# model.add(layers.Dense(32,activation='relu'))

model.add(layers.Dense(1,activation='sigmoid'))
model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['acc'])
print(model.summary())

# history = model.fit(x_train, y_train, epochs=1,batch_size=32, validation_split=0.2)
history = model.fit_generator(generator(),epochs=1,steps_per_epoch=len(x_train)//(batch_size)) 

print(model.evaluate(x_test,y_test))
y = model.predict_classes(x_test)
print(accuracy_score(y_test,y))

补充：model.fit_generator()详细解读

如下所示：

from keras import models
model = models.Sequential()

首先

利用keras，搭建顺序模型，具体搭建步骤省略。完成搭建后，我们需要将数据送入模型进行训练，送入数据的方式有很多种，models.fit_generator()是其中一种方式。

具体说，model.fit_generator()是利用生成器，分批次向模型送入数据的方式，可以有效节省单次内存的消耗。

具体函数形式如下：

fit_generator(self, generator, steps_per_epoch, epochs=1, verbose=1, \
callbacks=None, validation_data=None, validation_steps=None,\
 class_weight=None, max_q_size=10, workers=1, pickle_safe=False, initial_epoch=0)

参数解释：

generator:一般是一个生成器函数；

steps_per_epochs:是指在每个epoch中生成器执行生成数据的次数，若设定steps_per_epochs=100,这情况如下图所示；

epochs:指训练过程中需要迭代的次数；

verbose:默认值为1，是指在训练过程中日志的显示模式，取 1 时表示“进度条模式”，取2时表示“每轮一行”，取0时表示“安静模式”；

validation_data, validation_steps指验证集的情况，使用方式和generator, steps_per_epoch相同；

models.fit_generator()会返回一个history对象，history.history 属性记录训练过程中，连续 epoch 训练损失和评估值，以及验证集损失和评估值，可以通过以下方式调取这些值！

acc = history.history["acc"]
val_acc = history.history["val_acc"]
loss = history.history["loss"]
val_loss = history.history["val_loss"]

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

在keras中model.fit_generator()和model.fit()的区别说明

首先Keras中的fit()函数传入的x_train和y_train是被完整的加载进内存的,当然用起来很方便,但是如果我们数据量很大,那么是不可能将所有数据载入内存的,必将导致内存泄漏,这时候我们可以用fit_generator函数来进行训练. keras中文文档 fit fit(x=None, y=None, batch_size=None, epochs=1, verbose=1, callbacks=None, validation_split=0.0, validation_data=N
浅谈keras通过model.fit_generator训练模型(节省内存)

前言前段时间在训练模型的时候,发现当训练集的数量过大,并且输入的图片维度过大时,很容易就超内存了,举个简单例子,如果我们有20000个样本,输入图片的维度是224x224x3,用float32存储,那么如果我们一次性将全部数据载入内存的话,总共就需要20000x224x224x3x32bit/8=11.2GB 这么大的内存,所以如果一次性要加载全部数据集的话是需要很大内存的. 如果我们直接用keras的fit函数来训练模型的话,是需要传入全部训练数据,但是好在提供了fit_generator,
浅谈keras2 predict和fit_generator的坑

1.使用predict时,必须设置batch_size,否则效率奇低. 查看keras文档中,predict函数原型: predict(self, x, batch_size=32, verbose=0) 说明: 只使用batch_size=32,也就是说每次将batch_size=32的数据通过PCI总线传到GPU,然后进行预测.在一些问题中,batch_size=32明显是非常小的.而通过PCI传数据是非常耗时的. 所以,使用的时候会发现预测数据时效率奇低,其原因就是batch_size太小
keras 两种训练模型方式详解fit和fit_generator(节省内存)

第一种,fit import keras from keras.models import Sequential from keras.layers import Dense import numpy as np from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder from sklearn.model_selection import train_test_s
浅谈Keras中fit()和fit_generator()的区别及其参数的坑

1.fit和fit_generator的区别首先Keras中的fit()函数传入的x_train和y_train是被完整的加载进内存的,当然用起来很方便,但是如果我们数据量很大,那么是不可能将所有数据载入内存的,必将导致内存泄漏,这时候我们可以用fit_generator函数来进行训练. 下面是fit传参的例子: history = model.fit(x_train, y_train, epochs=10,batch_size=32, validation_split=0.2) 这里需要给出
浅谈keras中loss与val_loss的关系

loss函数如何接受输入值 keras封装的比较厉害,官网给的例子写的云里雾里, 在stackoverflow找到了答案 You can wrap the loss function as a inner function and pass your input tensor to it (as commonly done when passing additional arguments to the loss function). def custom_loss_wrapper(input_
浅谈keras中自定义二分类任务评价指标metrics的方法以及代码

对于二分类任务,keras现有的评价指标只有binary_accuracy,即二分类准确率,但是评估模型的性能有时需要一些其他的评价指标,例如精确率,召回率,F1-score等等,因此需要使用keras提供的自定义评价函数功能构建出针对二分类任务的各类评价指标. keras提供的自定义评价函数功能需要以如下两个张量作为输入,并返回一个张量作为输出. y_true:数据集真实值组成的一阶张量. y_pred:数据集输出值组成的一阶张量. tf.round()可对张量四舍五入,因此tf.round(
浅谈Keras中shuffle和validation_split的顺序

模型的fit函数有两个参数,shuffle用于将数据打乱,validation_split用于在没有提供验证集的时候,按一定比例从训练集中取出一部分作为验证集这里有个陷阱是,程序是先执行validation_split,再执行shuffle的,所以会出现这种情况: 假如你的训练集是有序的,比方说正样本在前负样本在后,又设置了validation_split,那么你的验证集中很可能将全部是负样本同样的,这个东西不会有任何错误报出来,因为Keras不可能知道你的数据有没有经过shuffle,保险
浅谈keras中的Merge层(实现层的相加、相减、相乘实例)

[题目]keras中的Merge层(实现层的相加.相减.相乘) 详情请参考: Merge层一.层相加 keras.layers.Add() 添加输入列表的图层. 该层接收一个相同shape列表张量,并返回它们的和,shape不变. Example import keras input1 = keras.layers.Input(shape=(16,)) x1 = keras.layers.Dense(8, activation='relu')(input1) input2 = keras.la
浅谈keras中的目标函数和优化函数MSE用法

mean_squared_error / mse 均方误差,常用的目标函数,公式为((y_pred-y_true)**2).mean() model = Sequential() model.add(Dense(64, init='uniform', input_dim=10)) model.add(Activation('tanh')) model.add(Activation('softmax')) sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, ne
浅谈keras中的batch_dot,dot方法和TensorFlow的matmul

概述在使用keras中的keras.backend.batch_dot和tf.matmul实现功能其实是一样的智能矩阵乘法,比如A,B,C,D,E,F,G,H,I,J,K,L都是二维矩阵,中间点表示矩阵乘法,AG 表示矩阵A 和G 矩阵乘法(A 的列维度等于G 行维度),WX=Z import keras.backend as K import tensorflow as tf import numpy as np w = K.variable(np.random.randint(10,siz
浅谈keras中Dropout在预测过程中是否仍要起作用

因为需要,要重写训练好的keras模型,虽然只具备预测功能,但是发现还是有很多坑要趟过.其中Dropout这个坑,我记忆犹新. 一开始,我以为预测时要保持和训练时完全一样的网络结构,也就是预测时用的网络也是有丢弃的网络节点,但是这样想就掉进了一个大坑!因为无法通过已经训练好的模型,来获取其训练时随机丢弃的网络节点是那些,这本身就根本不可能. 更重要的是:我发现每一个迭代周期丢弃的神经元也不完全一样. 假若迭代500次,网络共有1000个神经元, 在第n(1<= n <500)个迭代周期内,从1
浅谈keras中的后端backend及其相关函数(K.prod,K.cast)

一.K.prod prod keras.backend.prod(x, axis=None, keepdims=False) 功能:在某一指定轴,计算张量中的值的乘积. 参数 x: 张量或变量. axis: 一个整数需要计算乘积的轴. keepdims: 布尔值,是否保留原尺寸. 如果 keepdims 为 False,则张量的秩减 1. 如果 keepdims 为 True,缩小的维度保留为长度 1. 返回 x 的元素的乘积的张量. Numpy 实现 def prod(x, axis=None
浅谈keras中的keras.utils.to_categorical用法

如下所示: to_categorical(y, num_classes=None, dtype='float32') 将整型标签转为onehot.y为int数组,num_classes为标签类别总数,大于max(y)(标签从0开始的). 返回:如果num_classes=None,返回len(y) * [max(y)+1](维度,m*n表示m行n列矩阵,下同),否则为len(y) * num_classes.说出来显得复杂,请看下面实例. import keras ohl=keras.utils