关于MD5算法原理与常用实现方式

2025-04-03 02:20:52

定义

MD全称Message-Digest，即信息摘要，所以MD家族的算法也叫信息摘要算法

MD家族有MD2、MD3、MD4、MD5，一代比一代强。

所以MD5是MD算法家族中，目前最常用的一种加密算法。

任何信息，都可以通过MD5算法运算生成一个16字节（128位）的散列值，但却无法通过这16个字节的散列值获得加密前的信息。

最终这16个散列值，通常用一个长度为32的十六进制字符串来表示。

这就是MD5最重要的一个特性：加密不可逆。

MD5特点

加密不可逆，即无法通过密文得到原文。

不变性，即相同的原文，通过MD5算法得到的密文总是相同的。

散列性，即对原文作轻微的改动，都可导致最终的密文完全改变。

常见应用场景

1、校验文件的完整性

如果张三给李四传了一个文件，如何确认这个文件传给李四是完整的呢

张三传文件前，先对文件做一个MD5加密，同时把MD5加密的密文传给李四

李四收到文件，也对该文件做MD5加密，如果得到的密文和张三给的密文一样，就说明文件是完整的。

2、存储用户密码

用户密码，理论上也不能直接明文存储在数据库中，因为一旦数据库被破解，用户的密码就全部丢失了

所以可以将用户密码做一个MD5加密，然后将密文存在数据库中

用户登录的时候，可以将用户的密码进行MD5加密，然后比对密文和数据库中的密文是否一致，来判断用户前台填的密码是否正确。

这只是一个思路，一般不会这么简单，一般生产环境会对用户密码加盐加密等等的处理，用户信息更加重要的，则需要更加复杂的计算逻辑。

原理

MD5的加密过程，整体来看，就是先定义四个值，然后用这四个值，对原文信息进行计算，并得到新的四个值，然后再对原文进行计算，再得到新的四个值，如此循环一定次数，最终对最后的这四个值进行简单的字符串拼接，就得到了最终的密文。

主要就是下面这3步：

1、填补信息

用原文长度位数对512求余，如果结果不为448，就填充到448位。填充是第一位填1，后面填0。512-448=64，用这剩余的64位，记录原文长度。

最终得到一个填补完的信息（总长=原文长度+512位）

2、拿到初始值

四个初始值，是MD5这个算法提前定义好的，分别是4个32位的值，总共刚好128位。

我们用ABCD命名：

A=0x01234567
B=0x89ABCDEF
C=0xFEDCBA98
D=0x76543210

3、真正的计算

计算分为多次循环，每次循环，都是用ABCD和原文在第一步填补完的信息，进行计算，最终得到新的ABCD。最后将最后一次ABCD拼成字符串，就是最终的密文。

循环先分为主循环，每个主循环中又套有子循环。
主循环次数 = 原文长度/512。
子循环次数 = 64次。

我们看看单次子循环都做了什么：

下面是单次子循环真正的计算逻辑（这段实现摘自网友）：

图中，A，B，C，D就是哈希值的四个分组。每一次循环都会让旧的ABCD产生新的ABCD。一共进行多少次循环呢？由处理后的原文长度决定。

假设处理后的原文长度是M
主循环次数 = M / 512
每个主循环中包含 512 / 32 * 4 = 64 次子循环。

上面这张图所表达的就是单次子循环的流程。

下面对图中其他元素一一解释：

1.绿色F

图中的绿色F，代表非线性函数。官方MD5所用到的函数有四种：

F(X, Y, Z) =(X&Y) | ((~X) & Z)
G(X, Y, Z) =(X&Z) | (Y & (~Z))
H(X, Y, Z) =X^Y^Z
I(X, Y, Z)=Y^(X|(~Z))

在主循环下面64次子循环中，F、G、H、I 交替使用，第一个16次使用F，第二个16次使用G，第三个16次使用H，第四个16次使用I。

2.红色“田”字

很简单，红色的田字代表相加的意思。

3.Mi

Mi是第一步处理后的原文。在第一步中，处理后原文的长度是512的整数倍。把原文的每512位再分成16等份，命名为M0 ~ M15，每一等份长度32。在64次子循环中，每16次循环，都会交替用到M1 ~ M16之一。

4.Ki

一个常量，在64次子循环中，每一次用到的常量都是不同的。

5.黄色的<<

FF(a,b,c,d,Mj,s,ti)表示a=b+((a+F(b,c,d)+Mj+ti)<<<s)

<<<s表示循环左移s位

第一轮
 a=FF(a,b,c,d,M0,7,0xd76aa478)
 b=FF(d,a,b,c,M1,12,0xe8c7b756)
 c=FF(c,d,a,b,M2,17,0x242070db)
 d=FF(b,c,d,a,M3,22,0xc1bdceee)
 a=FF(a,b,c,d,M4,7,0xf57c0faf)
 b=FF(d,a,b,c,M5,12,0x4787c62a)
 c=FF(c,d,a,b,M6,17,0xa8304613)
 d=FF(b,c,d,a,M7,22,0xfd469501)
 a=FF(a,b,c,d,M8,7,0x698098d8)
 b=FF(d,a,b,c,M9,12,0x8b44f7af)
 c=FF(c,d,a,b,M10,17,0xffff5bb1)
 d=FF(b,c,d,a,M11,22,0x895cd7be)
 a=FF(a,b,c,d,M12,7,0x6b901122)
 b=FF(d,a,b,c,M13,12,0xfd987193)
 c=FF(c,d,a,b,M14,17,0xa679438e)
 d=FF(b,c,d,a,M15,22,0x49b40821)

第二轮
 a=GG(a,b,c,d,M1,5,0xf61e2562)
 b=GG(d,a,b,c,M6,9,0xc040b340)
 c=GG(c,d,a,b,M11,14,0x265e5a51)
 d=GG(b,c,d,a,M0,20,0xe9b6c7aa)
 a=GG(a,b,c,d,M5,5,0xd62f105d)
 b=GG(d,a,b,c,M10,9,0x02441453)
 c=GG(c,d,a,b,M15,14,0xd8a1e681)
 d=GG(b,c,d,a,M4,20,0xe7d3fbc8)
 a=GG(a,b,c,d,M9,5,0x21e1cde6)
 b=GG(d,a,b,c,M14,9,0xc33707d6)
 c=GG(c,d,a,b,M3,14,0xf4d50d87)
 d=GG(b,c,d,a,M8,20,0x455a14ed)
 a=GG(a,b,c,d,M13,5,0xa9e3e905)
 b=GG(d,a,b,c,M2,9,0xfcefa3f8)
 c=GG(c,d,a,b,M7,14,0x676f02d9)
 d=GG(b,c,d,a,M12,20,0x8d2a4c8a)

第三轮
 a=HH(a,b,c,d,M5,4,0xfffa3942)
 b=HH(d,a,b,c,M8,11,0x8771f681)
 c=HH(c,d,a,b,M11,16,0x6d9d6122)
 d=HH(b,c,d,a,M14,23,0xfde5380c)
 a=HH(a,b,c,d,M1,4,0xa4beea44)
 b=HH(d,a,b,c,M4,11,0x4bdecfa9)
 c=HH(c,d,a,b,M7,16,0xf6bb4b60)
 d=HH(b,c,d,a,M10,23,0xbebfbc70)
 a=HH(a,b,c,d,M13,4,0x289b7ec6)
 b=HH(d,a,b,c,M0,11,0xeaa127fa)
 c=HH(c,d,a,b,M3,16,0xd4ef3085)
 d=HH(b,c,d,a,M6,23,0x04881d05)
 a=HH(a,b,c,d,M9,4,0xd9d4d039)
 b=HH(d,a,b,c,M12,11,0xe6db99e5)
 c=HH(c,d,a,b,M15,16,0x1fa27cf8)
 d=HH(b,c,d,a,M2,23,0xc4ac5665)

第四轮
 a=II(a,b,c,d,M0,6,0xf4292244)
 b=II(d,a,b,c,M7,10,0x432aff97)
 c=II(c,d,a,b,M14,15,0xab9423a7)
 d=II(b,c,d,a,M5,21,0xfc93a039)
 a=II(a,b,c,d,M12,6,0x655b59c3)
 b=II(d,a,b,c,M3,10,0x8f0ccc92)
 c=II(c,d,a,b,M10,15,0xffeff47d)
 d=II(b,c,d,a,M1,21,0x85845dd1)
 a=II(a,b,c,d,M8,6,0x6fa87e4f)
 b=II(d,a,b,c,M15,10,0xfe2ce6e0)
 c=II(c,d,a,b,M6,15,0xa3014314)
 d=II(b,c,d,a,M13,21,0x4e0811a1)
 a=II(a,b,c,d,M4,6,0xf7537e82)
 b=II(d,a,b,c,M11,10,0xbd3af235)
 c=II(c,d,a,b,M2,15,0x2ad7d2bb)
 d=II(b,c,d,a,M9,21,0xeb86d391)

MD5为什么不可逆

MD5不可逆的原因，从原理上来看，

第一是他使用了散列函数，即上面的FGHI函数。
第二是他在里面用了大量的移位操作，即<<<，这些是不可逆的

比如有10110011，我们左移三位，变成了10011000，高三位的101被顶了，低三位用0代替了，那此时就绝对不可能用10011000再逆向得到10110011了。

java实现和使用

public class MD5Util {
    public static void main(String[] args) throws IOException {
        System.out.println(encodeString("123"));
    }
    public static String encodeString(String plainText) throws UnsupportedEncodingException {
        return encodeBytes(plainText.getBytes("UTF-8"));
    }
    public static String encodeBytes(byte[] bytes) {
        try {
            MessageDigest md = MessageDigest.getInstance("MD5");
            md.update(bytes);
            byte b[] = md.digest();
            int i;
            StringBuffer buf = new StringBuffer("");
            for (int offset = 0; offset < b.length; offset++) {
                i = b[offset];
                if (i < 0) {
                    i += 256;
                }
                if (i < 16) {
                    buf.append("0");
                }
                buf.append(Integer.toHexString(i));
            }
            return buf.toString();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return "";
    }
}

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

java 实现MD5加密算法的简单实例

java 实现MD5加密算法的简单实例实现代码: import java.security.NoSuchAlgorithmException; public class MD5HashUtil { private MessageDigest md = null; private static MD5HashUtil md5 = null; private static final char[] hexChars ={'0','1','2','3','4','5','6','7','8','9'
Java MD5消息摘要算法原理及实现代码

md5 属于hash算法一类,是不可逆的消息摘要算法.与对称加密和非对称加密算法不一样,不需要加密密钥. 注意: md5不是加密算法,只是将数据进行散列计算后生成一个唯一值的算法,没有加密密钥也没有解密密钥. 下面说的md5加密是指对密码加密成32位长度字符串的过程 md5可以用于密码的加密,如123456,加密后的字符串,在很大条件下不能被电脑强行破解出来,只能通过字典匹配的方式同样用md5加密后的字符串进行比较破解. MessageDigest消息摘要是安全的单向散列函数,它将任意大小的字符
一文搞懂Java MD5算法的原理及实现

目录 MD5加密简介 MD5加密原理 MD5加密常用方法 MD5加密简介哈希算法又称散列算法,是将任何数据转换成固定长度的算法的统称. 从本质上讲,MD5也是一种哈希算法,其输出是生成128位的输出结果. 如果输入两个不同的明文,就会输出两个不同的输出值,并且根据输出值,不能得到原始的明文,这个过程是不可逆的. MD5加密原理 MD5算法对512位报文的输入信息进行处理,每个报文被分成16个32位报文. 经过一系列处理后,算法的输出由4个32位的数据包组成,这些数据包级联生成一个128位的哈希
关于MD5算法原理与常用实现方式

目录定义 MD5特点常见应用场景 1.校验文件的完整性 2.存储用户密码原理 1.填补信息 2.拿到初始值 3.真正的计算 MD5为什么不可逆 java实现和使用定义 MD全称Message-Digest,即信息摘要,所以MD家族的算法也叫信息摘要算法 MD家族有MD2.MD3.MD4.MD5,一代比一代强. 所以MD5是MD算法家族中,目前最常用的一种加密算法. 任何信息,都可以通过MD5算法运算生成一个16字节(128位)的散列值,但却无法通过这16个字节的散列值获得加密前的信息.
关于SHA算法原理与常用实现方式

目录定义 MD5和SHA-1的碰撞问题常见应用场景 1.类似MD5的应用场景 2.比特币 3.https签名算法会用到 SHA-256算法原理 1.填补信息 2.拿到初始值 3.真正的计算 java实现和使用看本文前,最好先看看之前的这一篇关于MD5算法的介绍. MD5算法原理与常用实现定义 SHA算法(Secure Hash Algorithm),又叫安全散列算法. SHA算法是基于MD4算法的基础上,演变而来. 但SHA算法出生好,是美国国家安全局设计的. SHA算法,是一个系列家族
详解MD5算法的原理以及C#和JS的实现

目录一.简介二.C# 代码实现三.js 代码实现一.简介 MD5 是哈希算法(散列算法)的一种应用.Hash 算法虽然被称为算法,但实际上它更像是一种思想.Hash 算法没有一个固定的公式,只要符合散列思想的算法都可以被称为是 Hash 算法. 算法目的就是,把任意长度的输入(又叫做预映射 pre-image),通过散列算法变换成固定长度的输出,该输出就是散列值. 注意,不同的输入可能会散列成相同的输出,所以不能从散列值来确定唯一的输入值. 散列函数简单的说就是:一种将任意长度的消息压缩
C语言压缩文件和用MD5算法校验文件完整性的实例教程

使用lzma SDK对7z文件简单解压缩有时候我们只需要单纯对lzma算法压缩的7z文件进行解压,有时需要在嵌入式设备上解压,使用p7zip虽然支持多种格式,但是不容易裁剪,使用lzma SDK是首选: 可以在这里找到各种版本:http://zh.sourceforge.jp/projects/sfnet_sevenzip/releases/ 我下载了4.65版本,这个对文件名编码支持没有9.20的好,中文可能有问题,但是我的需求不需要支持中文文件名,所以足够用了. 解压后先看一下7z这个工程
机器学习之KNN算法原理及Python实现方法详解

本文实例讲述了机器学习之KNN算法原理及Python实现方法.分享给大家供大家参考,具体如下: 文中代码出自<机器学习实战>CH02,可参考本站: 机器学习实战 (Peter Harrington著) 中文版机器学习实战 (Peter Harrington著) 英文原版 [附源代码] KNN算法介绍 KNN是一种监督学习算法,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判(投票法)或者回归.若K=1,新数据被简单分配给其近邻的类. KNN算法
Python深度强化学习之DQN算法原理详解

目录 1 DQN算法简介 2 DQN算法原理 2.1 经验回放 2.2 目标网络 3 DQN算法伪代码 DQN算法是DeepMind团队提出的一种深度强化学习算法,在许多电动游戏中达到人类玩家甚至超越人类玩家的水准,本文就带领大家了解一下这个算法,论文的链接见下方. 论文:Human-level control through deep reinforcement learning | Nature 代码:后续会将代码上传到Github上... 1 DQN算法简介 Q-learning算法采用一
图文详解感知机算法原理及Python实现

目录写在前面 1.什么是线性模型 2.感知机概述 3.手推感知机原理 4.Python实现 4.1 创建感知机类 4.2 更新权重与偏置 4.3 判断误分类点 4.4 训练感知机 4.5 动图可视化 5.总结写在前面机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用.“深”在详细推导算法模型背后的数学原理:“广”在分析多个机器学习模型:决策树.支持向量机.贝叶斯与马尔科夫决策.强化学习等. 本期目标:实现这样一个效果 1.什么是线性模型线性模型的假设形式是属性权重.偏置与属性
使用Python检测文章抄袭及去重算法原理解析

在互联网出现之前,"抄"很不方便,一是"源"少,而是发布渠道少:而在互联网出现之后,"抄"变得很简单,铺天盖地的"源"源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让"抄"完全自动化不费劲.这就导致了互联网上的"文章"重复性很高.这里的"文章"只新闻.博客等文字占据绝大部分内容的网页. 中文新闻网站的"转载"(其实就是抄)现象非
php的RSA加密解密算法原理与用法分析

本文实例讲述了php的RSA加密解密算法原理与用法.分享给大家供大家参考,具体如下: 最近因为工作的需要,要倒腾支付宝支付相关的知识,因为支付宝应用了RSA加密机制,个人对此并不了解,所以在这里写下一篇总结. 1.生成公钥和私钥要应用RSA算法,必须先生成公钥和私钥,公钥和私钥的生成可以借助openssl工具. 本次测验是在windows下进行的,可以到以下的地址下载windows安装包:http://gnuwin32.sourceforge.net/packages/openssl.htm,