hashlib 摘要算法 -MD5

Python 的 hashlib 提供了常见的摘要算法,如 MD5,SHA1 等等。
什么是摘要算法呢?摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用 16 进制的字符串表示)。

举个例子,你写了一篇文章,内容是一个字符串'how to use python hashlib - by Michael',并附上这篇文章的摘要是'2d73d4f15c0db7f5ecb321b6a65e5d6d'。如果有人篡改了你的文章,并发表为'how to use python hashlib - by Bob',你可以一下子指出 Bob 篡改了你的文章,因为根据'how to use python hashlib - by Bob'计算出的摘要不同于原始文章的摘要。

可见,摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡改过。

摘要算法之所以能指出数据是否被篡改过,就是因为摘要函数是一个单向函数,计算f(data)很容易,但通过digest反推data却非常困难。而且,对原始数据做一个 bit 的修改,都会导致计算出的摘要完全不同。

我们以常见的摘要算法 MD5 为例,计算出一个字符串的 MD5 值:
import hashlib

md5 = hashlib.md5()
md5.update(‘how to use md5 in python hashlib?’.encode(‘utf-8’))
print(md5.hexdigest())
计算结果如下:
d26a53750bc40b38b65a520292f69306
如果数据量很大,可以分块多次调用 update(),最后计算的结果是一样的:
import hashlib

md5 = hashlib.md5()
md5.update(’how to use md5 in ’.encode(‘utf-8’))
md5.update(‘python hashlib?’.encode(‘utf-8’))
print(md5.hexdigest())
试试改动一个字母,看看计算的结果是否完全不同。

MD5 是最常见的摘要算法,速度很快,生成结果是固定的 128 bit 字节,通常用一个 32 位的 16 进制字符串表示。