图文详解牛顿迭代算法原理及Python实现

2025-03-31 15:39:00

1.引例

给定如图所示的某个函数，如何计算函数零点x₀

在数学上我们如何处理这个问题？

最简单的办法是解方程f(x)=0，在代数学上还有著名的零点判定定理

如果函数y=f(x)在区间[a,b]上的图象是连续不断的一条曲线，并且有f(a)⋅f(b)<0,那么函数y=f(x)在区间(a,b)内有零点，即至少存在一个c∈(a,b),使得f(c)=0,这个c也就是方程f(x)=0的根。

然而，数学上的方法并不一定适合工程应用，当函数形式复杂，例如出现超越函数形式；非解析形式，例如递推关系时，精确的方程解析一般难以进行，因为代数上还没发展出任意形式的求根公式。而零点判定定理求解效率也较低，需要不停试错。

因此，引入今天的主题——牛顿迭代法，服务于工程数值计算。

2.牛顿迭代算法求根

记第k轮迭代后，自变量更新为x_k，令目标函数f(x)在x=x_k泰勒展开：

f(x)=f(x_k)+f′(x_k)(x−x_k)+o(x)

我们希望下一次迭代到根点，忽略泰勒余项，令f(x_k+1)=0，则

x_k+1=x_k−f(x_k)/f'(x_k)

不断重复运算即可逼近根点。

在几何上，上面过程实际上是在做f(x)在x=x_k处的切线，并求切线的零点，在工程上称为局部线性化。如图所示，若x_k在x₀的左侧，那么下一次迭代方向向右。

若x_k在x₀的右侧，那么下一次迭代方向向左。

3.牛顿迭代优化

将优化问题转化为求目标函数一阶导数零点的问题，即可运用上面说的牛顿迭代法。

具体地，记第k轮迭代后，自变量更新为x_k ，令目标函数f(x)在x=x_k泰勒展开：

f(x)=f(x_k)+f′(x_k)(x−x_k)+1/2f′′(x_k)(x−x_k)²+o(x)

两边求导得

f′(x)=f′(x_k)+f′′(x_k)(x−x_k)

令f′(x_k+1)=f′(x_k)+f′′(x_k)(x_k+1−x_k)=0，从而得到

x_k+1=x_k−f′(x_k)/f'′(x_k)

对于向量x=[x₁ x₂⋯x_d]^T，将上述迭代公式推广为

x_k+1=x_k−[∇²f(x_k)]⁻¹∇f(x_k)

其中∇²f(x_k)是Hessian矩阵，当其正定时可以保证牛顿优化算法往减小的方向迭代

牛顿法的特点如下：

① 以二阶速率向最优点收敛，迭代次数远小于梯度下降法，优化速度快；

梯度下降法的解析参考图文详解梯度下降算法的原理及Python实现

②学习率为[∇²f(x_k)]⁻¹ ，包含更多函数本身的信息，迭代步长可实现自动调整，可视为自适应梯度下降算法；

③ 耗费CPU计算资源多，每次迭代需要计算一次Hessian矩阵，且无法保证Hessian矩阵可逆且正定，因而无法保证一定向最优点收敛。

在实际应用中，牛顿迭代法一般不能直接使用，会引入改进来规避其缺陷，称为拟牛顿算法簇，其中包含大量不同的算法变种，例如共轭梯度法、DFP算法等等，今后都会介绍到。

4 代码实战：Logistic回归

import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import matplotlib as mpl
from Logit import Logit

'''
* @breif: 从CSV中加载指定数据
* @param[in]: file -> 文件名
* @param[in]: colName -> 要加载的列名
* @param[in]: mode -> 加载模式, set: 列名与该列数据组成的字典, df: df类型
* @retval: mode模式下的返回值
'''
def loadCsvData(file, colName, mode='df'):
    assert mode in ('set', 'df')
    df = pd.read_csv(file, encoding='utf-8-sig', usecols=colName)
    if mode == 'df':
        return df
    if mode == 'set':
        res = {}
        for col in colName:
            res[col] = df[col].values
        return res

if __name__ == '__main__':
    # ============================
    # 读取CSV数据
    # ============================
    csvPath = os.path.abspath(os.path.join(__file__, "../../data/dataset3.0alpha.csv"))
    dataX = loadCsvData(csvPath, ["含糖率", "密度"], 'df')
    dataY = loadCsvData(csvPath, ["好瓜"], 'df')
    label = np.array([
        1 if i == "是" else 0
        for i in list(map(lambda s: s.strip(), list(dataY['好瓜'])))
    ])

    # ============================
    # 绘制样本点
    # ============================
    line_x = np.array([np.min(dataX['密度']), np.max(dataX['密度'])])
    mpl.rcParams['font.sans-serif'] = [u'SimHei']
    plt.title('对数几率回归模拟\nLogistic Regression Simulation')
    plt.xlabel('density')
    plt.ylabel('sugarRate')
    plt.scatter(dataX['密度'][label==0],
                dataX['含糖率'][label==0],
                marker='^',
                color='k',
                s=100,
                label='坏瓜')
    plt.scatter(dataX['密度'][label==1],
                dataX['含糖率'][label==1],
                marker='^',
                color='r',
                s=100,
                label='好瓜')

    # ============================
    # 实例化对数几率回归模型
    # ============================
    logit = Logit(dataX, label)

    # 采用牛顿迭代法
    logit.logitRegression(logit.newtomMethod)
    line_y = -logit.w[0, 0] / logit.w[1, 0] * line_x - logit.w[2, 0] / logit.w[1, 0]
    plt.plot(line_x, line_y, 'g-', label="牛顿迭代法")

    # 绘图
    plt.legend(loc='upper left')
    plt.show()

其中更新权重代码为

    '''
    * @breif: 牛顿迭代法更新权重
    * @param[in]: None
    * @retval: 优化参数的增量dw
    '''
    def newtomMethod(self):
        wTx = np.dot(self.w.T, self.X).reshape(-1, 1)
        p = Logit.sigmod(wTx)
        dw_1 = -self.X.dot(self.y - p)
        dw_2 = self.X.dot(np.diag((p * (1 - p)).reshape(self.N))).dot(self.X.T)
        dw = np.linalg.inv(dw_2).dot(dw_1)
        return dw

到此这篇关于图文详解牛顿迭代算法原理及Python实现的文章就介绍到这了,更多相关Python牛顿迭代算法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python编程实现二分法和牛顿迭代法求平方根代码

求一个数的平方根函数sqrt(int num) ,在大多数语言中都提供实现.那么要求一个数的平方根,是怎么实现的呢? 实际上求平方根的算法方法主要有两种:二分法(binary search)和牛顿迭代法(Newton iteration) 1:二分法求根号5 a:折半: 5/2=2.5 b:平方校验: 2.5*2.5=6.25>5,并且得到当前上限2.5 c:再次向下折半:2.5/2=1.25 d:平方校验:1.25*1.25=1.5625<5,得到当前下限1.25 e:再次折半:2.5-(
Gauss-Seidel迭代算法的Python实现详解

import numpy as np import time 1.1 Gauss-Seidel迭代算法 def GaussSeidel_tensor_V2(A,b,Delta,m,n,M): start=time.perf_counter() find=0 X=np.ones(n) d=np.ones(n) m1=m-1 m2=2-m for i in range(M): print('X',X) x=np.copy(X) #迭代更新 for j in range(n): a=np.copy(A
python计算牛顿迭代多项式实例分析

本文实例讲述了python计算牛顿迭代多项式的方法.分享给大家供大家参考.具体实现方法如下: ''' p = evalPoly(a,xData,x). Evaluates Newton's polynomial p at x. The coefficient vector 'a' can be computed by the function 'coeffts'. a = coeffts(xData,yData). Computes the coefficients of Newton's po
图文详解感知机算法原理及Python实现

目录写在前面 1.什么是线性模型 2.感知机概述 3.手推感知机原理 4.Python实现 4.1 创建感知机类 4.2 更新权重与偏置 4.3 判断误分类点 4.4 训练感知机 4.5 动图可视化 5.总结写在前面机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用.“深”在详细推导算法模型背后的数学原理:“广”在分析多个机器学习模型:决策树.支持向量机.贝叶斯与马尔科夫决策.强化学习等. 本期目标:实现这样一个效果 1.什么是线性模型线性模型的假设形式是属性权重.偏置与属性
图文详解梯度下降算法的原理及Python实现

目录 1.引例 2.数值解法 3.梯度下降算法 4.代码实战:Logistic回归 1.引例给定如图所示的某个函数,如何通过计算机算法编程求f(x)min? 2.数值解法传统方法是数值解法,如图所示按照以下步骤迭代循环直至最优: ① 任意给定一个初值x0: ② 随机生成增量方向,结合步长生成Δx: ③ 计算比较f(x0)与f(x0+Δx)的大小,若f(x0+Δx)<f(x0)则更新位置,否则重新生成Δx: ④ 重复②③直至收敛到最优f(x)min. 数值解法最大的优点是编程简明,但缺陷也很
Jacobi迭代算法的Python实现详解

import numpy as np import time 1.1 Jacobi迭代算法 def Jacobi_tensor_V2(A,b,Delta,m,n,M): start=time.perf_counter()#开始计时 find=0#用于标记是否在规定步数内收敛 X=np.ones(n)#迭代起始点 x=np.ones(n)#用于存储迭代的中间结果 d=np.ones(n)#用于存储Ax**(m-2)的对角线部分 m1=m-1 m2=2-m for i in range(M): pr
图文详解牛顿迭代算法原理及Python实现

目录 1.引例 2.牛顿迭代算法求根 3.牛顿迭代优化 4 代码实战:Logistic回归 1.引例给定如图所示的某个函数,如何计算函数零点x0 在数学上我们如何处理这个问题? 最简单的办法是解方程f(x)=0,在代数学上还有著名的零点判定定理如果函数y=f(x)在区间[a,b]上的图象是连续不断的一条曲线,并且有f(a)⋅f(b)<0,那么函数y=f(x)在区间(a,b)内有零点,即至少存在一个c∈(a,b),使得f(c)=0,这个c也就是方程f(x)=0的根. 然而,数学上的方法并不一定
详解Java Bellman-Ford算法原理及实现

目录一点睛二算法步骤三算法实现四测试一点睛如果遇到负权边,则在没有负环(回路的权值之和为负)存在时,可以采用 Bellman-Ford 算法求解最短路径.该算法的优点是变的权值可以是负数.实现简单,缺点是时间复杂度过高.但是该算法可以进行若干种优化,以提高效率. Bellman-Ford 算法与 Dijkstra 算法类似,都是以松弛操作作为基础.Dijkstra 算法以贪心法选取未被处理的具有最小权值的节点,然后对其进行松弛操作:而 Bellman-Ford 算法对所有边
SSH原理及两种登录方法图文详解

SSH(Secure Shell)是一套协议标准,可以用来实现两台机器之间的安全登录以及安全的数据传送,其保证数据安全的原理是非对称加密. 传统的对称加密使用的是一套秘钥,数据的加密以及解密用的都是这一套秘钥,可想而知所有的客户端以及服务端都需要保存这套秘钥,泄露的风险很高,而一旦秘钥便泄露便保证不了数据安全. 非对称加密解决的就是这个问题,它包含两套秘钥 - 公钥以及私钥,其中公钥用来加密,私钥用来解密,并且通过公钥计算不出私钥,因此私钥谨慎保存在服务端,而公钥可以随便传递,即使泄露也无风险.
通俗易懂的C++前缀和与差分算法图文详解

目录 1.前缀和 2.前缀和算法有什么好处? 3.二维前缀和 4.差分 5.一维差分 6.二维差分 1.前缀和前缀和是指某序列的前n项和,可以把它理解为数学上的数列的前n项和,而差分可以看成前缀和的逆运算.合理的使用前缀和与差分,可以将某些复杂的问题简单化. 2.前缀和算法有什么好处? 先来了解这样一个问题: 输入一个长度为n的整数序列.接下来再输入m个询问,每个询问输入一对l, r.对于每个询问,输出原序列中从第l个数到第r个数的和. 我们很容易想出暴力解法,遍历区间求和. 代码如下: in
Android 图文详解Binder进程通信底层原理

之前了解到进程与多进程,涉及多进程不可避免的遇到了进程间通信,说到进程间通信,Binder 成了一道绕不过的坎.接下来咱们逐一了解.
图文详解go语言反射实现原理

Go反射的实现和 interface 和 unsafe.Pointer 密切相关.如果对golang的 interface 底层实现还没有理解,可以去看我之前的文章: Go语言interface底层实现 , unsafe.Pointer 会在后续的文章中做介绍. (本文目前使用的Go环境是Go 1.12.9) interface回顾首先我们简单的回顾一下interface的结构,总体上是: 细分下来分为有函数的 iface 和无函数的 eface (就是 interface{} ); 无函数的
vue2从数据变化到视图变化之diff算法图文详解

目录引言 1.isUndef(oldStartVnode) 2.isUndef(oldEndVnode) 3.sameVnode(oldStartVnode, newStartVnode) 4.sameVnode(oldEndVnode, newEndVnode) 5.sameVnode(oldStartVnode, newEndVnode) 6.sameVnode(oldEndVnode, newStartVnode) 7.如果以上都不满足小结引言 vue数据的渲染会引入视图的重新渲染.
Android Binder 通信原理图文详解

目录前言 1. Binder的作用 2. 进程与Binder驱动如何通信 3. ServiceManager进程的作用 Binder Client.Binder Server.ServiceManager关系 ServiceManager注册进Binder 4. 进程添加服务到ServiceManager的流程其它进程找到SM 添加服务到ServiceManager BBinder作用 5. 进程从ServiceManager获取服务的流程其它进程找到SM 从ServiceManager获

图文详解牛顿迭代算法原理及Python实现

目录

1.引例

2.牛顿迭代算法求根

3.牛顿迭代优化

4 代码实战：Logistic回归

相关推荐

随机推荐