base64编码过程

Base64是一种基于64个可打印字符来表示二进制数据的表示方法

Base64是一种编码方式,提及编码方式,必然有其对应的字符集合。在Base64编码中,相互映射的两个集合是:

二进制数据{0, 1}
{A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, +, /}
Base64编码方式可使得信息在这两种字符集表示法之间相互等价转换。

因为Base64的编码方式是公开的,所以base64也可以算是公开算法的加密方法;但是只能简单的“加密”保护某些数据,决不能在需要安全等级较高的场景中使用,因为可以使用公开的编码方法轻易从base64字符表示的数据解码二进制数据。

  1. base64编码过程
    由于base64的字符集大小为64,那么,需要6个比特的二进制数作为一个基本单元表示一个base64字符集中的字符。因为6个比特有2^6=64种排列组合。

具体来说,编码过程如下:

将每三个字节作为一组,共24bit,若不足24bit在其后补充0;
将这24个bit分为4组,每一组6个bit;
在每组前加00扩展为8个bit,形成4个字节,每个字节表示base64字符集索引;
扩展后的8bit表示的整数作为索引,对应base64字符集的一个字符,这就是base64编码值;在处理最后的不足3字节时,缺一个字节索引字节取3个,最后填充一个=,;缺两个字节取2个索引字节,最后填充==。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
base64_list = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P',
'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f',
'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v',
'w', 'x', 'y', 'z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '+', '/']


def encode_ascii(string: str) -> str:
temp = ''
base = ''

# 把原始字符串转换为二进制,用bin转换后去掉开头的0b,首位补0补齐8位
for i in string:
temp += '{:08}'.format(int(str(bin(ord(i))).replace('0b', '')))

# 6位一组截取,最后一组不足6位的后面补0,获取base_list中对应的字符
for j in range(0, len(temp), 6):
t = '{:<06}'.format(temp[j: j + 6])
base += base64_list[int(t, 2)]

# 判断base字符长度结尾补‘=’
if len(string) % 3 == 1:
base += '=='
elif len(string) % 3 == 2:
base += '='
return base


def decode_ascii(base: str) -> str:
temp = ''
string = ''

# 去掉尾补的‘=’
base = base.replace('=', '')
# 获取base在base_list中的索引,转换为二进制,用bin转换后去掉开头的0b,首位补0补齐6位
for s in range(len(base)):
temp += '{:06}'.format(int(str(bin(base64_list.index(base[s]))).replace('0b', '')))

# 8位一组截取(已忽略最后一组),转10进制,获取ASCII字符
for i in range(len(temp) // 8):
string += chr(int(temp[8 * i: 8 * i + 8], 2))

return string


# 使用utf8支持中文
def encode(string: str, encoding: str = 'utf8') -> str:
temp = ''
base = ''

# 获取字符串编码
string = string.encode(encoding)

# 把字符串编码为二进制,用bin转换后去掉开头的0b,首位补0补齐8位
for i in string:
temp += '{:08}'.format(int(str(bin(i)).replace('0b', '')))

# 6位一组截取,最后一组不足6位的后面补0,获取base_list中对应的字符
for j in range(0, len(temp), 6):
t = '{:<06}'.format(temp[j: j + 6])
base += base64_list[int(t, 2)]

# 判断base字符长度结尾补‘=’
if len(string) % 3 == 1:
base += '=='
elif len(string) % 3 == 2:
base += '='
return base


def decode(base: str, encoding: str = 'utf8') -> str:
temp = ''
string_bytes = []

# 去掉尾补的‘=’
base = base.replace('=', '')
# 获取base在base_list中的索引,转换为二进制,用bin转换后去掉开头的0b,首位补0补齐6位
for s in range(len(base)):
temp += '{:06}'.format(int(str(bin(base64_list.index(base[s]))).replace('0b', '')))

# 8位一组截取(已忽略最后一组),转10进制
for i in range(len(temp) // 8):
string_bytes.append(int(temp[8 * i: 8 * i + 8], 2))

# 根据编码获取源字符串
return bytes(string_bytes).decode(encoding)


# Demo
v = '人人a'
print(v)

v = encode(v)
print(v)

v = decode(v)
print(v)