Protobuf 为啥比 JSON、XML 牛?

2021年11月26日 阅读数:4
这篇文章主要向大家介绍Protobuf 为啥比 JSON、XML 牛?,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

收录于 《深刻微服务》git

你们好,我是 “潇洒哥老苗”。github

今天,我带你们更深层次的认识认识 Protobuf,若是你对 Protobuf 的用法还不熟悉,直接前往:https://developers.google.com/protocol-buffers/docs/proto3算法

当对 Protobuf 有了基本的认识后,就会明白了 Protobuf 序列化的数据会比 JSON、XML 传输效率更高。shell

那为啥会高呢?本篇就带着这个问题一探究竟。json

看表面

对于 JSON、XML,为了便于数据传输时的可阅读性,会保留数据的结构化信息,举个 JSON 例子,以下:数组

{
  "name": "laomiao",
  "age": 18
}

当发送该信息时,接受方收到后就会明白,这是个 “key/value” 形式的数据,而且"name" 后是姓名,"age" 后是年龄。app

那如何压缩该数据呢?微服务

咱们能够删除 “花括号”、“name”、“age” 以及其它的 “冒号”、“逗号”、“引号” 等结构数据。ui

laomiao18

那这样删除了,接收方怎么知道,哪一个是姓名?哪一个是年龄?google

删除 ”结构“

只须要发送方和接收方都保留这份数据的 ”结构“ 就行,发送方只发送数据,接收方接收到数据后,根据本地保留的 ”结构“ 去解析数据就 OK。

假设,该 "结构" 以下,这不是真实存在的,只是为了方便给你们描述。

{
  name string 7
  age int 1
}

经过该 ”结构“ 就能够知道:

  • name 数据在 age 数据以前。
  • name 数据类型为 string,age 数据类型为 int。
  • name 数据字节长度为 7,age 数据字节长度为 1。

接收方只须要拿着这份 ”结构“ 就知道了 "laomiao18" 数据如何解析。

自描述

但这样仍是有这些问题:

  1. name 数据若是超过 7 个字节怎么办?
  2. age 数据超过 1 个字节怎么办?
  3. 结构中的顺序不能调整,太死了,怎么办?

固然,发送方和接收方都更新下本身的 ”结构“ 数据,但这样显然不现实,由于数据你不能保证是固定长度。

对于 age 数据,咱们能够定义为 4 个字节或 8 个字节,只要能够应对本身的业务便可。但这样仍是有问题,空间浪费?

假如,age 定义为 4 个字节,传输的数据为 18,而对于 18 这个数字,只须要 1 个字节就足以了,而剩下 3 个字节都浪费着。但咱又不能定义为 1 个字节,由于有可能会有大数。

那如何压缩 age 数据呢?

对于 Protobuf,会在数据中加入解决以上问题的信息,即数据本身描述本身,简称 ”自描述“。

总结下 Protobuf 作了哪些?以下:

  • 数据中加入 ”字段“ 顺序的信息。
  • 数据中加入类型信息。
  • 最小化压缩整形数据。

Protobuf

Protobuf 在序列化数据时,将 Protobuf 数据类型总共划分为 6 大类,英文称为 "wire type"。

wire type proto 类型 含义
0 int32, int64, uint32, uint64, sint32, sint64, bool, enum Varint
1 fixed64, sfixed64, double 64-bit
2 string, bytes, embedded messages, packed repeated fields Length-delimited
3 groups (废弃) Start group
4 groups (废弃) End group
5 fixed32, sfixed32, float 32-bit

"wire type" 中的 ”3“ 和 ”4“ 类型已废弃,这块不作讲解。

下来经过一个 message 信息展开说明,以下:

message HelloRequest {
  string name = 1;
  int32 num = 2;
  float height = 3;
  repeated int32 hobbies= 4;
}

这就比如我上面所说的 ”结构“,发送方和接收方就是经过该结构去解析数据。如今咱们就针对上面留下的问题一一说明。

1. 类型和顺序

那传输的数据中如何保存 ”数据类型“ 和 ”顺序“?

数据类型对应到 "wire type",顺序对应到 ”field number“。假如 int32 num = 2 对应以下:

  • wire type:0,经过上面表格对应。
  • field number:2,字段后的惟一编码。

将这两个信息按照以下公式组装:

(field_number << 3) | wire_type

带入得:

(2 << 3) | 0 
→ 16

2. Varint

对于 num 字段保存的数据如何如何压缩?假如 num 存储的数据为 300。按照 4 字节存储以下:

00000000 00000000 00000001 00101100

从结果能够看到,真实有效的数据只有 2 字节,为了压缩,面对不一样的数据大小会占用不用的字节数。

那如何记录数据长度?咱们能够再增长一个字节去记录真实数据所占用的实际字节数。对于 300 数据,增长一个字节记录长度,那下来和数据一块总共须要 3 个字节。那还有什么办法再减小字节数吗?

固然会有呀,否则我就说了一堆废话,咱继续。

请出 Varint 算法,过程以下:

  • 将数据以 7 位为一组进行分割;
  • 将组的顺序颠倒,即:将 ”高位 → 低位“ 规则,改成 ”低位 → 高位“;
  • 识别每一组,若是该组后还有数据,就在该组前增长一位 ”1”,不然增长 “0”。

将数据 300 带入该算法,过程以下:

300: 00000000 00000000 00000001 00101100
→ 7 位分割:0000 0000000 0000000 0000010 0101100
→ 颠倒顺序:0101100 0000010 0000000 0000
→ 组前加 1/0:10101100 00000010
→ 十进制:172 2

按照这套算法下来,将数据压缩为 2 个字节存储。而接收方拿到字节数据后,只须要按照高位识别,若是为 0,说明以后没有数据了。

最终,对于 int32 num = 2 结构和数据 300,压缩后的结果为:

16 172 2

3. Length-delimited

如今说说 string name = 1 ,该类型对应的 "wire type" 为 2,"field number" 为 2。记录 “顺序” 和 “类型” 方式和上面讲的同样。

重点说说数据如何记录,相比 Varint 算法,该类型就简单多了,只须要使用 Varint 算法记录数据的字节长度。

假如,name 的值为 "miao",最终结果为:

10 4 109 105 97 111

解释:

  • 10:(2 << 3) | 2
  • 4:字符串长度。
  • 以后:按照 "UTF-8" 编码保存。

对于 message 嵌套、repeated (数组或切片)、字节数组,也是按照该算法获得。

例如,repeated int32 hobbies= 4 ,假设 hobbies 数据为 [10, 20],最终结果为:

34 2 10 20

4. 浮点数

针对浮点类型,就更简单了,浮点数据使用固定字节保存,记录 “顺序” 和 “类型” 依然是上面讲的。

假如,float height = 3 ,该类型对应的 "wire type" 为 5,数据假设为 52.1,最终结果为:

29 102 102 80 66

解释:

  • 29:(3 << 3) | 5
  • 以后:使用固定字节数 4。

若是使用了双精度,那对应的 "wire type" 为 1,数据占用字节数为 8。

5. sint32/sint64

这两个类型不知道你在写 proto 文件时有没有用到,明白这个很重要,否则有时候数据就不能起被到压缩的做用。

上面讲到的 Varint 算法中,咱们知道了以 7 位一组,再增长一位 “识别位” 来起到压缩数据的做用。但存在一个问题,假若存在负数时,那这种压缩方式就失效了。

至于为啥?如何解决的?

我先说结果,若是写 proto 文件时,设置的数据类型为 sint32 或 sint64 时,将采用 ZigZag 算法进行数据压缩。

ZigZag 算法我就不重复讲解了,直接看上一篇

小结

学完本篇咱们知道了 Protobuf 怎么作到了压缩数据。简单说下,就是删除一些没用的信息,采用自描述的方式记录 “类型”、“顺序”、“数据”。

而对于类型,只记录了 "wire type",该类型肯定了数据的大概处理方式。

那说它就必定比 JSON、XML 好吗?也不是。

由于要采用 Protobuf 方式传输数据,发送方和接收方必须采用同一套结构规则,也能够说 “协议”。因此,若是想提升数据的阅读性,下降这种规则的配合,就可使用 JSON、XML。

后面我会使用 Go 语言实现 Protobuf 序列化和反序列化的核心算法,只要这样我才以为真的明白了该算法的真谛。

可持续关注该项目:https://github.com/miaogaolin/gofirst,该系列的全部代码日后都会加入进去。

参考