利用C++开发一个protobuf动态解析工具

2025-02-28 08:29:51

为什么需要这个工具

数据库中存储的protobuf序列化的内容，有时候查问题想直接解析查看内容。很多编码在网上很容易找到编解码工具，但protobuf没有找到编解码工具，可能这样的需求比较少吧，那就自己用C++实现一个。

需求描述

我们知道，要解析protobuf，需要有proto定义，所以我们的输入参数需要包含序列化的数据以及proto定义，如果proto中包含多个message，还需要指定解析到哪个message。所以一共是三个输入参数。

此外，为了方便使用，我们的工具不要求给出完整的proto定义，如果有嵌套的message没有定义，不应影响其他字段解析。

开发

搜索现成方案

网上搜索了一圈，找到的类似方案大多需要导入完整的proto文件：

int DynamicParseFromPBFile(const std::string& file, const std::string& classname,
      const std::string& pb_str) {
  // ...
  // 导入proto文件
  ::google::protobuf::compiler::Importer importer(&sourceTree, NULL);
  importer.Import(file);

  // 找到要解析的message
  auto descriptor = importer.pool()->FindMessageTypeByName(classname);
  ::google::protobuf::DynamicMessageFactory factory;
  auto message = factory.GetPrototype(descriptor);

  // 动态创建message对象
  auto msg = message->New();
  msg->ParseFromString(pb_str);
  // msg即为解析到的结构
}

这样可以实现动态解析，但仍不满足我们的需求——即使proto不完整，也希望能解析。

举个例子：

message MyMsg {
  optional uint64 id = 1;
  optional OtherMsg other = 2;
}

MyMsg中包含OtherMsg类型，但并没有给出OtherMsg的定义，所以无法正常解析。

AST在哪里

事实上，在解析proto文件时，肯定需要先将其解析为抽象语法树(AST)，在AST中，我们可以很容易修改proto的定义，例如将other字段删掉，或者将其类型改为bytes，这样就可以正常解析了。

那么，proto文件解析成的AST结构在哪里呢？只能从源码中寻找答案了。

一番查找后，终于看到了FindFileByName方法的这段代码：

bool SourceTreeDescriptorDatabase::FindFileByName(const std::string& filename,
                                                  FileDescriptorProto* output) {
  // ...
  io::Tokenizer tokenizer(input.get(), &file_error_collector);

  Parser parser;

  // Parse it.
  output->set_name(filename);
  return parser.Parse(&tokenizer, output) && !file_error_collector.had_errors();
}

从这段代码中可以看到，FileDescriptorProto就是我们要找的AST结构。那么这到底是个什么结构呢？

其实，FileDescriptorProto本身也是一个proto定义的message：

message FileDescriptorProto {
  optional string name = 1;     // file name, relative to root of source tree
  optional string package = 2;  // e.g. "foo", "foo.bar", etc.

  // All top-level definitions in this file.
  repeated DescriptorProto message_type = 4;
  repeated EnumDescriptorProto enum_type = 5;
  repeated ServiceDescriptorProto service = 6;
  repeated FieldDescriptorProto extension = 7;

  // ...
}

从它的字段中可以看到，其代表的是整个proto文件，包括文件中的所有message、enum等定义。

开始写代码

第一步

仿照上面的源码，将输入的proto定义解析为FileDescriptorProto对象：

// proto输入
istringstream ss(proto);
istream* is = &ss;
io::IstreamInputStream input(is);

// 解析到FileDescriptorProto AST
io::Tokenizer tokenizer(&input, nullptr);
FileDescriptorProto output;
compiler::Parser parser;
if (!parser.Parse(&tokenizer, &output)) {
  err_msg = "parse proto failed";
  return -1;
}
output.set_name("proto");
output.clear_source_code_info();
printf("MSG: proto parsed output: %s\n", output.DebugString().c_str());

第2步

处理FileDescriptorProto对象，将没有给定义的字段类型都改成bytes，保证proto可以正常解析：

int ConvertUnknownType2Bytes(FileDescriptorProto& file_descriptor_proto) {
  // 找出所有给出定义的message类型名
  set<string> typename_set;
  for (auto const& msgtype : file_descriptor_proto.message_type()) {
    typename_set.insert(msgtype.name());
    // message内嵌套定义的message也要包含在内
    for (auto const& subtype : msgtype.nested_type()) {
      typename_set.insert(subtype.name());
    }
  }

  // 遍历所有field，检查其类型是否存在定义
  for (auto& msgtype : *file_descriptor_proto.mutable_message_type()) {
    for (auto& field : *msgtype.mutable_field()) {
      auto type_name = field.type_name();
      // 基本类型的type_name是空的
      if (!type_name.empty()) {
        // 如果typename_set中找不到该类型名，则转为bytes类型
        if (typename_set.find(type_name) == typename_set.end()) {
          field.clear_type_name();
          field.set_type(FieldDescriptorProto_Type_TYPE_BYTES);
        }
      }
    }
  }
  return 0;
}

第3步

解析修改后的FileDescriptorProto对象，创建指定message类型对象。

// 解析proto并检查错误
SimpleDescriptorDatabase db;
db.Add(output);
DescriptorPool pool(&db);
auto descriptor = pool.FindMessageTypeByName(msg_type_name);
if (descriptor == nullptr) {
  // proto结构有错
  err_msg = "parse proto failed. FindMessageTypeByName result is null";
  return -1;
}

DynamicMessageFactory factory;
auto message = factory.GetPrototype(descriptor);
unique_ptr<Message> msg(message->New());

第4步

将序列化的数据解析到msg中：

msg->ParseFromString(serilized_pb);
cout << "proto msg: " << msg->ShortDebugString().c_str() << endl;

这样，我们就成功实现了动态解析，也成功将不可读的二进制数据serilized_pb以可读的形式打印出来了。

总结

我们为了实现动态解析不完整的proto，我们首先从源码中找到了将proto定义转化为AST——也就是FileDescriptorProto——的方法。

接着，我们将AST对象进行修改，将不合法的proto改成合法的。

最后，我们再利用修改后的FileDescriptorProto构造出需要的message对象，解析序列化的数据。

到此这篇关于利用C++开发一个protobuf动态解析工具的文章就介绍到这了,更多相关C++ protobuf动态解析内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

基于Protobuf C++ serialize到char*的实现方法分析

protobuf的Demo程序是 C++版本的protubuf有几种serialize和unSerialize的方法: 方法一: 官方demo程序采用的是复制代码代码如下: // Write the new address book back to disk. fstream output(argv[1], ios::out | ios::trunc | ios::binary); if (!address_book.SerializeToOstream(&output)) { cerr &l
关于c++编译protobuf时提示LNK2001 无法解析的外部符号的问题

在所在配置完成后编译protobuf时还是提示如下 LNK2001 无法解析的外部符号 "union google::protobuf::internal::EmptyString google::protobuf::internal::fixed_address_empty_string" (?fixed_address_empty_string@internal@protobuf@google@@3TEmptyString@123@A) 真坑啊,各种操作猛如虎后结果还是不行. vs
protobuf c++编程笔记

目录字段内容的定义修饰符字段类型引用方式不同字段的方法 1)optional修饰的基本类型: 2)optional修饰的对象类型: 3)repeated修饰的基本类型: 4)repeated修饰的对象类型: 序列化反序列化总结字段内容的定义 //文件名:addressbook.proto syntax = "proto2";//proto版本 //.proto文件新增一个可选的package声明符,用来防止不同的消息类型有命名冲突. //包的声明符会根据使用语言的不同影
C++中protobuf 的交叉编译使用详解

目录前言简介使用方式编译安装使用步骤常见问题解决方案前言为了提高通信效率,可以采用 protobuf 替代 XML 和 Json 数据交互格式,protobuf 相对来说数据量小,在进程间通信或者设备之间通信能够提高通信速率.下面介绍 protobuf 在 ARM 平台上的使用. 简介官方文档给出的定义和描述: protocol buffers 是一种语言无关.平台无关.可扩展的序列化结构数据的方法,它可用于(数据) 通信协议 .数据存储等. Protocol Buffers
基于Protobuf动态解析在Java中的应用包含例子程序

最近在做ProtoBuf相关的项目,其中用到了动态解析,网上看了下相关资料和博文都比较少,自己来写一个记录一下学习过程. Protocol Buffers是结构化数据格式标准,提供序列化和反序列方法,用于存储和交换.语言中立,平台无关.可扩展.目前官方提供了C++.Java.Python API,也有其他语言的开源api(比如php).可通过 .proto文件生成对应语言的类代码如果已知protobuf内容对应的是哪个类对象,则可以直接使用反序列化方法搞定(Xxx.parseFrom(inpu
利用 Python 开发一个 Python 解释器

目录 1.标记(Token) 2.词法分析器(Lexer) 3.巴科斯-诺尔范式(Backus-Naur Form,BNF) 4.解析器(Parser) 前言: 计算机只能理解机器码.归根结底,编程语言只是一串文字,目的是为了让人类更容易编写他们想让计算机做的事情.真正的魔法是由编译器和解释器完成,它们弥合了两者之间的差距.解释器逐行读取代码并将其转换为机器码. 在本文中,我们将设计一个可以执行算术运算的解释器. 我们不会重新造轮子.文章将使用由 David M. Beazley 开发的词法解析
C#使用TcpListener及TcpClient开发一个简单的Chat工具实例

本文使用的开发环境是VS2017及dotNet4.0,写此随笔的目的是给自己及新开发人员作为参考, 本例子比较简单,使用的是控制台程序开发,若需要使用该软件作为演示,必须先运行服务端,再运行客户端. 因为是首次接触该方面的知识,写得比较简陋,如有更好的建议,请提出,谢谢! 一.编写服务器端代码,如下: using System; using System.Text; using System.Net; using System.Net.Sockets; using System.Threadin
如何利用Python实现一个论文降重工具

前言时值毕业季,有不少小伙伴深受论文查重的困扰.因此我便想到做一个简单的自动去重的工具,先看看效果,我们再对原理或是代码实现做进一步的分析. 首先需要输入appid以及key,这些可以在百度翻译开放平台申请一个账号,可以免费申请一个账号.接着将需要进行降重的文本内容复制到相应的输入框内,点击开始按钮,即可输出不同但意思相近的语句,即达到降重去重的作用.点击复制按钮便可以将得到的新文本复制到剪贴板上,点击清楚按钮可以重新输入需要降重的文本,并且循环往复地进行. 去重原理论文查重的粒度是句子,两
利用Python实现一个简易的截图工具

这是工作期间同事想要个截完图之后可以显示并且永远前置的截图小工具(即不会被其他程序覆盖)直接上代码: # # -*- coding: utf-8 -*- import tkinter as tk import pyautogui import tkinter from PIL import ImageTk from PIL import Image root = tk.Tk() root.wm_attributes('-topmost', 1) root.overrideredirect(Tru
利用Javascript开发一个二维周视图日历

前言本文给大家介绍了Javascript开发二维周视图日历的相关内容,即之前实现了一个月视图日历,我们今天来实现一个二维周视图的日历. 以下进行分析其中的关键部分. 结构准备不同之处在于其在日历的基础上还有一个分类轴,用于展示不同的类目,主要用于一周内的日程安排.会议安排等. 二维则和之前单独的有所不同,二维日历再切换日期时不用全部重新渲染,分类是不用变的,仅仅改变显示的日期即可. 而且由于是二维的,插入的内容必定是同时属于一个分类和一个时间段的,内容肯定是可以跨越时间(即日期轴)的,因此不
利用vue开发一个所谓的数独方法实例

1.前言最近工作中遇到一个问题,因为后台管理系统页面功能暂时没有新的需求,就在想首页放什么东西,最近我想到的就是放个所谓的数独,为什么是所谓的数独,因为规则不同于标准的数独,只要求每一行每一列数字不一样就可以了!这个实例也是基于vue的,代码分享给大家.给大家代码,并不是要让大家直接拷贝代码,而是希望能让大家当做是一个练手的项目,或者学习到知识.如果大家觉得我哪里写得不好,写错了,欢迎指出,让大家交流意见,一起进步. 代码上传到github了:有需要的可以star一下!vue-demos 2.
利用Angular7开发一个Radio组件的全过程

一.准备工作 Angular7(以下简称ng7),已经跟之前版本大有不同.新建工程后,可方便创建library(简称lib),lib是什么呢?就是一个npm包的源码包.npm作为强大的包管理器,已经成为很多FEer分享智慧成果的法器.本文主要介绍本人写的一个radio组件. 二.开发组件radio过程 1.使用ng cli,新建工程,创建lib // 安装ng cli npm install -g @angular/cli // 新建工程 ng new ng-project // 进入ng-pr
如何利用Python开发一个简单的猜数字游戏

前言本文介绍如何使用Python制作一个简单的猜数字游戏. 游戏规则玩家将猜测一个数字.如果猜测是正确的,玩家赢.如果不正确,程序会提示玩家所猜的数字与实际数字相比是"大(high)"还是"小(low)",如此往复直到玩家猜对数字. 准备好Python3 首先,需要在计算机上安装Python.可以从Python官网下载并安装.本教程需要使用最新版的Python 3(版本3.x.x). 确保选中将Python添加到PATH变量的框.如果不这样做,将很难运行该程序.
如何利用node.js开发一个生成逐帧动画的小工具

前言在实际工作中我们已经下下来不下于一万个npm包了,像我们熟悉的 vue-cli,react-native-cli 等,只需要输入简单的命令 vue init webpack project,即可快速帮我们生成一个初始项目.在实际开发项目中,我们也可以定制一个属于自己的npm包,来提高自己的工作效率. 为什么要开发一个工具包? 减少重复性的工作,不再需要复制其他项目再删除无关代码,或者从零创建一个项目和文件. 根据交互动态生成项目结构和所需要的文件等. 减少人工检查的成本. 提高工作效率,解