浅谈迁移学习

2025-01-30 18:20:25

一、背景

随着越来越多的机器学习应用场景的出现，而现有表现比较好的监督学习需要大量的标注数据，标注数据是一项枯燥无味且花费巨大的任务，所以迁移学习受到越来越多的关注。

传统机器学习(主要指监督学习)

基于同分布假设
需要大量标注数据

然而实际使用过程中不同数据集可能存在一些问题，比如

数据分布差异
标注数据过期：训练数据过期，也就是好不容易标定的数据要被丢弃，有些应用中数据是分布随着时间推移会有变化

如何充分利用之前标注好的数据（废物利用），同时又保证在新的任务上的模型精度？
基于这样的问题，所以就有了对于迁移学习的研究

二、定义及分类

Transfer Learning Definition:
Ability of a system to recognize and apply knowledge and skills learned in previous domains/tasks to novel domains/tasks.

2.1、目标

将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。

2.2、主要思想

从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。

人在实际生活中有很多迁移学习，比如学会骑自行车，就比较容易学摩托车，学会了C语言，在学一些其它编程语言会简单很多。那么机器是否能够像人类一样举一反三呢？

上图是一个商品评论情感分析的例子，图中包含两个不同的产品领域：books 图书领域和 furniture 家具领域；在图书领域，通常用“broad”、“quality fiction”等词汇来表达正面情感，而在家具领域中却由“sharp”、“light weight”等词汇来表达正面情感。可见此任务中，不同领域的不同情感词多数不发生重叠、存在领域独享词、且词汇在不同领域出现的频率显著不同，因此会导致领域间的概率分布失配问题。

2.3、迁移学习的形式定义及一种分类方式

迁移学习里有两个非常重要的概念

域（Domain）
任务（Task）

域可以理解为某个时刻的某个特定领域，比如书本评论和电视剧评论可以看作是两个不同的domain

任务就是要做的事情，比如情感分析和实体识别就是两个不同的task

三、关键点

1.研究可以用哪些知识在不同的领域或者任务中进行迁移学习，即不同领域之间有哪些共有知识可以迁移。

2.研究在找到了迁移对象之后，针对具体问题所采用哪种迁移学习的特定算法，即如何设计出合适的算法来提取和迁移共有知识。

3.研究什么情况下适合迁移，迁移技巧是否适合具体应用，其中涉及到负迁移的问题。

当领域间的概率分布差异很大时，上述假设通常难以成立，这会导致严重的负迁移问题。
负迁移是旧知识对新知识学习的阻碍作用，比如学习了三轮车之后对骑自行车的影响，和学习汉语拼音对学英文字母的影响
研究如何利用正迁移，避免负迁移

四、基于实例的迁移

基于实例的迁移学习研究的是，如何从源领域中挑选出，对目标领域的训练有用的实例，比如对源领域的有标记数据实例进行有效的权重分配，让源域实例分布接近目标域的实例分布，从而在目标领域中建立一个分类精度较高的、可靠地学习模型。
因为，迁移学习中源领域与目标领域的数据分布是不一致，所以源领域中所有有标记的数据实例不一定都对目标领域有用。戴文渊等人提出的TrAdaBoost算法就是典型的基于实例的迁移。

五、基于特征的迁移

5.1、特征选择

基于特征选择的迁移学习算法，关注的是如何找出源领域与目标领域之间共同的特征表示，然后利用这些特征进行知识迁移。

5.2、特征映射

基于特征映射的迁移学习算法，关注的是如何将源领域和目标领域的数据从原始特征空间映射到新的特征空间中去。
这样，在该空间中，源领域数据与的目标领域的数据分布相同，从而可以在新的空间中，更好地利用源领域已有的有标记数据样本进行分类训练，最终对目标领域的数据进行分类测试。

六、基于共享参数的迁移

基于共享参数的迁移研究的是如何找到源数据和目标数据的空间模型之间的共同参数或者先验分布，从而可以通过进一步处理，达到知识迁移的目的，假设前提是，学习任务中的的每个相关模型会共享一些相同的参数或者先验分布。

七、深度学习和迁移学习结合

深度学习需要大量的高质量标注数据，Pre-training + fine-tuning 是现在深度学习中一个非常流行的trick，尤其是以图像领域为代表，很多时候会选择预训练的ImageNet对模型进行初始化。

下面将主要通过一些paper对深度学习中的迁移学习应用进行探讨

八、Pre-training+Fine-tuning

2014年Bengio等人在NIPS上发表论文 How transferable are features in deep neural networks，研究深度学习中各个layer特征的可迁移性（或者说通用性）

文章中进行了如下图所示的实验，有四种模型

Domain A上的基本模型BaseA
Domain B上的基本模型BaseB
Domain B上前n层使用BaseB的参数初始化（后续有frozen和fine-tuning两种方式）
Domain B上前n层使用BaseA的参数初始化（后续有frozen和fine-tuning两种方式）

将深度学习应用在图像处理领域中时，会观察到第一层（first-layer）中提取的features基本上是类似于Gabor滤波器(Gabor filters)和色彩斑点(color blobs)之类的。

通常情况下第一层与具体的图像数据集关系不是特别大，而网络的最后一层则是与选定的数据集及其任务目标紧密相关的；文章中将第一层feature称之为一般(general)特征，最后一层称之为特定(specific)特征

特征迁移使得模型的泛化性能有所提升，即使目标数据集非常大的时候也是如此。
随着参数被固定的层数n的增长，两个相似度小的任务之间的transferability gap的增长速度比两个相似度大的两个任务之间的transferability gap增长更快两个数据集越不相似特征迁移的效果就越差
即使从不是特别相似的任务中进行迁移也比使用随机filters（或者说随机的参数）要好
使用迁移参数初始化网络能够提升泛化性能，即使目标task经过了大量的调整依然如此。

九、DANN (Domain-Adversarial Neural Network)

这篇paper将近两年流行的对抗网络思想引入到迁移学习中，从而提出了DANN

图中所展示的即为DANN的结构图，框架由feature extractor、label predictor和domain classifier三个部分组成，并且在feature extractor和domain classifier 之间有一个gradient reversal layer；其中domain classifier只在训练过程中发挥作用

DANN将领域适配和特征学习整合到一个训练过程中，将领域适配嵌入在特征表示的学习过程中；所以模型最后的分类决策是基于既有区分力又对领域变换具有不变性的特征。
优化特征映射参数的目的是为了最小化label classifier的损失函数，最大化domain classifier的损失函数，前者是为了提取出具有区分能力的特征，后者是为了提取出具有领域不变性的特征，最终优化得到的特征兼具两种性质。

以上就是浅谈迁移学习的详细内容，更多关于迁移学习的资料请关注我们其它相关文章！

Pytorch模型迁移和迁移学习,导入部分模型参数的操作

1. 利用resnet18做迁移学习 import torch from torchvision import models if __name__ == "__main__": # device = torch.device("cuda" if torch.cuda.is_available() else "cpu") device = 'cpu' print("-----device:{}".format(device))
PyTorch 迁移学习实践(几分钟即可训练好自己的模型)

前言如果你认为深度学习非常的吃GPU,或者说非常的耗时间,训练一个模型要非常久,但是你如果了解了迁移学习那你的模型可能只需要几分钟,而且准确率不比你自己训练的模型准确率低,本节我们将会介绍两种方法来实现迁移学习迁移学习方法介绍微调网络的方法实现迁移学习,更改最后一层全连接,并且微调训练网络将模型看成特征提取器,如果一个模型的预训练模型非常的好,那完全就把前面的层看成特征提取器,冻结所有层并且更改最后一层,只训练最后一层,这样我们只训练了最后一层,训练会非常的快速迁移基本步骤数据的准备
详解tensorflow实现迁移学习实例

本文主要是总结利用tensorflow实现迁移学习的基本步骤. 所谓迁移学习,就是将上一个问题上训练好的模型通过简单的调整使其适用于一个新的问题.比如说,我们可以保留训练好的Inception-v3模型中所有的参数,只替换最后一层全连接层.在最后一层全连接层之前的网络称之为瓶颈层(bottleneck). 持久化首先需要简单介绍下tensorflow中的持久化:在tensorflow中提供了一个非常简单的API来保存和还原一个神经网络模型,这个API就是tf.train.Saver类.当采用该
浅谈迁移学习

目录一.背景二.定义及分类 2.1.目标 2.2.主要思想 2.3.迁移学习的形式定义及一种分类方式三.关键点四.基于实例的迁移五.基于特征的迁移 5.1.特征选择 5.2.特征映射六.基于共享参数的迁移七.深度学习和迁移学习结合八.Pre-training+Fine-tuning 九.DANN (Domain-Adversarial Neural Network) 一.背景随着越来越多的机器学习应用场景的出现,而现有表现比较好的监督学习需要大量的标注数据,标注数据是一项枯燥无
浅谈pyhton学习中出现的各种问题(新手必看)

目前比较杂乱无章,后续还会有一些添加补充 1.标识符 (1)标识符是区分大小写的. (2)标示符以字母或下划线开头,可包括字母,下划线和数字. (3)以下划线开头的标识符是有特殊意义的. 2.参数前加星号(*)的意义面对实际情况时无法提前得知要传入的参数的个数,因此在参数前加星号从而允许函数接受任意多的参数,情况如下: (1)参数前加一个星号(*),传入的参数存储为元组的形式: (2)参数前加两个星号(*),传入的参数存储为字典的形式,并且调用时采用例如'a=1,b=2,c=3'的形式. 3.
浅谈Django学习migrate和makemigrations的差别

本文主要研究的是Django中migrate和makemigrations的差别,具体如下. 在你改动了 model.py的内容之后执行下面的命令: Python manger.py makemigrations 相当于在该app下建立 migrations目录,并记录下你所有的关于modes.py的改动,比如0001_initial.py, 但是这个改动还没有作用到数据库文件你可以手动打开这个文件,看看里面是什么在此之后执行命令 python manager.py migrate 将该改
浅谈MyBatis-Plus学习之Oracle的主键Sequence设置的方法

一.Oracle的主键Sequence设置简介在Oracle数据库中不支持主键自增策略,它是通过Sequence序列来进行完成的,因此需要在MP中进行相关配置二.相关配置如下 2.1.pom.xml 添加相关依赖注意:由于oracle的授权问题,没办法从maven仓库中下载,因此可以手动从oracle官网中下载,并本地打包到仓库中  <dependency> <
浅谈docker学习之docker数据卷(volume)

1.什么是数据卷volume 为了了解什么是Docker Volume,首先我们需要明确Docker内的文件系统是如何工作的.Docker镜像被存储在一系列的只读层.当我们开启一个容器,Docker读取只读镜像并添加一个读写层在顶部.如果正在运行的容器修改了现有的文件,该文件将被拷贝出底层的只读层到最顶层的读写层.在读写层中的旧版本文件隐藏于该文件之下,但并没有被不破坏 - 它仍然存在于镜像以下.当Docker的容器被删除,然后重新启动镜像时,将开启一个没有任何更改的新的容器 - 这些更改会丢失
浅谈Spring学习之request,session与globalSession作用域

与web容器有关的作用域,首先要在Web容器里进行一些配置. <web-app> ... <listener> <listener-class> org.springframework.web.context.request.RequestContextListener </listener-class> </listener> ... </web-app> Request作用域考虑下面bean定义: <bean id=&qu
浅谈JavaScript_DOM学习篇_图片切换小案例

今天开始学习DOM操作,下面写一个小案例来巩固下知识点. DOM: document object model (文档对象模型) 根据id获取页面元素 : 如: var xx = document.getElementById("id"); 根据标签获取元素: 如: var xx = document.getElementsByTagName("div"); <!DOCTYPE html> <html lang="en">
浅谈Django自定义模板标签template_tags的用处

自定义模板标签,过滤器.英文翻译是Customtemplatetagsandfilters.customfilter自定义过滤器今天不在我的记录范围之内,以后用到再看官方文档也不迟. **问题1:**customtemplatetags到底长啥样? customtemplatetags-github Manytemplatetagstakeanumberofarguments–stringsortemplatevariables–andreturnaresultafterdoingsomepro
java web学习_浅谈request对象中get和post的差异

阅读目录(Content) •1.get与post的区别 •1.1 get方法 jsp中的代码form表单代码 •1.2 action包中servlet的doGet方法中的代码 •2.运行结果 •2.1 输入数据 •2.2 打印出数据 •3.post方法 •4.对比 •4.1 在输出页面按下F12查看 •5.分析 1.get与post的区别 Get和Post方法都是对服务器的请求方式,只是他们传输表单的方式不一样. 下面我们就以传输一个表单的数据为例,来分析get与Post的区别 1.1 get
C#学习笔记整理_浅谈Math类的方法

c#中Math类的方法 Math.Abs 已重载. 返回指定数字的绝对值. Math.Acos 返回余弦值为指定数字的角度. Math.Asin 返回正弦值为指定数字的角度. Math.Atan 返回正切值为指定数字的角度. Math.Atan2 返回正切值为两个指定数字的商的角度. Math.BigMul 生成两个 32 位数字的完整乘积. Math.Ceiling 已重载. 返回大于或等于指定数字的最小整数. Math.Cos 返回指定角度的余弦值. Math.Cosh 返回指定角度的双曲余