浅谈使用Rapidxml 库遇到的问题和分析过程(分享)

C++解析xml的开源库有很多,在此我就不一一列举了,今天主要说下Rapidxml,我使用这个库也并不是很多,如有错误之处还望大家能够之处,谢谢。

附:

官方链接:http://rapidxml.sourceforge.net/

官方手册:http://rapidxml.sourceforge.net/manual.html

之前有一次用到,碰到了个"坑",当时时间紧迫并未及时查找,今天再次用到这个库,对这样的"坑"不能踩第二次,因此我决定探个究竟。

先写两段示例:

创建xm:

void CreateXml()
{
  rapidxml::xml_document<> doc;

  auto nodeDecl = doc.allocate_node(rapidxml::node_declaration);
  nodeDecl->append_attribute(doc.allocate_attribute("version", "1.0"));
  nodeDecl->append_attribute(doc.allocate_attribute("encoding", "UTF-8"));
  doc.append_node(nodeDecl);//添加xml声明

  auto nodeRoot = doc.allocate_node(rapidxml::node_element, "Root");//创建一个Root节点
  nodeRoot->append_node(doc.allocate_node(rapidxml::node_comment, NULL, "编程语言"));//添加一个注释内容到Root,注释没有name 所以第二个参数为NULL
  auto nodeLangrage = doc.allocate_node(rapidxml::node_element, "language", "This is C language");//创建一个language节点
  nodeLangrage->append_attribute(doc.allocate_attribute("name", "C"));//添加一个name属性到language
  nodeRoot->append_node(nodeLangrage); //添加一个language到Root节点
  nodeLangrage = doc.allocate_node(rapidxml::node_element, "language", "This is C++ language");//创建一个language节点
  nodeLangrage->append_attribute(doc.allocate_attribute("name", "C++"));//添加一个name属性到language
  nodeRoot->append_node(nodeLangrage); //添加一个language到Root节点

  doc.append_node(nodeRoot);//添加Root节点到Document
  std::string buffer;
  rapidxml::print(std::back_inserter(buffer), doc, 0);
  std::ofstream outFile("language.xml");
  outFile << buffer;
  outFile.close();
}

结果:

 <?xml version="1.0" encoding="UTF-8"?>
 <Root>
   <!--编程语言-->
   <language name="C">This is C language</language>
   <language name="C++">This is C++ language</language>
 </Root>

修改xml:

void MotifyXml()
{
  rapidxml::file<> requestFile("language.xml");//从文件加载xml
  rapidxml::xml_document<> doc;
  doc.parse<0>(requestFile.data());//解析xml

  auto nodeRoot = doc.first_node();//获取第一个节点,也就是Root节点
  auto nodeLanguage = nodeRoot->first_node("language");//获取Root下第一个language节点
  nodeLanguage->first_attribute("name")->value("Motify C");//修改language节点的name属性为 Motify C
  std::string buffer;
  rapidxml::print(std::back_inserter(buffer), doc, 0);
  std::ofstream outFile("MotifyLanguage.xml");
  outFile << buffer;
  outFile.close();
}

结果:

 <Root>
   <language name="Motify C">This is C language</language>
   <language name="C++">This is C++ language</language>
 </Root>

由第二个结果得出:

第一个language的name属性确实改成我们所期望的值了,不过不难发现xml的声明和注释都消失了。是怎么回事呢?这个问题也困扰了我一段时间,既然是开源库,那我们跟一下看看他都干了什么,从代码可以看出可疑的地方主要有两处:print和parse,这两个函数均需要提供一个flag,这个flag到底都干了什么呢,从官方给的教程来看 均使用的0,既然最终执行的是print我们就从print开始调试跟踪吧

找到了找到print调用的地方:

template<class OutIt, class Ch>
   inline OutIt print(OutIt out, const xml_node<Ch> &node, int flags = 0)
   {
     return internal::print_node(out, &node, flags, 0);
   }

继续跟踪:

// Print node
    template<class OutIt, class Ch>
    inline OutIt print_node(OutIt out, const xml_node<Ch> *node, int flags, int indent)
    {
      // Print proper node type
      switch (node->type())
      {

      // Document
      case node_document:
        out = print_children(out, node, flags, indent);
        break;

      // Element
      case node_element:
        out = print_element_node(out, node, flags, indent);
        break;

      // Data
      case node_data:
        out = print_data_node(out, node, flags, indent);
        break;

      // CDATA
      case node_cdata:
        out = print_cdata_node(out, node, flags, indent);
        break;

      // Declaration
      case node_declaration:
        out = print_declaration_node(out, node, flags, indent);
        break;

      // Comment
      case node_comment:
        out = print_comment_node(out, node, flags, indent);
        break;

      // Doctype
      case node_doctype:
        out = print_doctype_node(out, node, flags, indent);
        break;

      // Pi
      case node_pi:
        out = print_pi_node(out, node, flags, indent);
        break;

        // Unknown
      default:
        assert(0);
        break;
      }

      // If indenting not disabled, add line break after node
      if (!(flags & print_no_indenting))
        *out = Ch('\n'), ++out;

      // Return modified iterator
      return out;
    }

跟进print_children 发现这实际是个递归,我们继续跟踪

// Print element node
template<class OutIt, class Ch>
inline OutIt print_element_node(OutIt out, const xml_node<Ch> *node, int flags, int indent)
{
  assert(node->type() == node_element);

  // Print element name and attributes, if any
  if (!(flags & print_no_indenting))
  ...//省略部分代码

  return out;
}

我们发现第8行有一个&判断 查看print_no_indenting的定义:

// Printing flags
const int print_no_indenting = 0x1;  //!< Printer flag instructing the printer to suppress indenting of XML. See print() function.

据此我们就可以分析了,按照开发风格统一的思想,parse也应该有相同的标志定义

省略分析parse流程..

我也顺便去查看了官方文档,确实和我预想的一样,贴一下头文件中对这些标志的描述,详细信息可参考官方文档

// Parsing flags

  //! Parse flag instructing the parser to not create data nodes.
  //! Text of first data node will still be placed in value of parent element, unless rapidxml::parse_no_element_values flag is also specified.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_no_data_nodes = 0x1;      

  //! Parse flag instructing the parser to not use text of first data node as a value of parent element.
  //! Can be combined with other flags by use of | operator.
  //! Note that child data nodes of element node take precendence over its value when printing.
  //! That is, if element has one or more child data nodes <em>and</em> a value, the value will be ignored.
  //! Use rapidxml::parse_no_data_nodes flag to prevent creation of data nodes if you want to manipulate data using values of elements.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_no_element_values = 0x2;

  //! Parse flag instructing the parser to not place zero terminators after strings in the source text.
  //! By default zero terminators are placed, modifying source text.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_no_string_terminators = 0x4;

  //! Parse flag instructing the parser to not translate entities in the source text.
  //! By default entities are translated, modifying source text.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_no_entity_translation = 0x8;

  //! Parse flag instructing the parser to disable UTF-8 handling and assume plain 8 bit characters.
  //! By default, UTF-8 handling is enabled.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_no_utf8 = 0x10;

  //! Parse flag instructing the parser to create XML declaration node.
  //! By default, declaration node is not created.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_declaration_node = 0x20;

  //! Parse flag instructing the parser to create comments nodes.
  //! By default, comment nodes are not created.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_comment_nodes = 0x40;

  //! Parse flag instructing the parser to create DOCTYPE node.
  //! By default, doctype node is not created.
  //! Although W3C specification allows at most one DOCTYPE node, RapidXml will silently accept documents with more than one.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_doctype_node = 0x80;

  //! Parse flag instructing the parser to create PI nodes.
  //! By default, PI nodes are not created.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_pi_nodes = 0x100;

  //! Parse flag instructing the parser to validate closing tag names.
  //! If not set, name inside closing tag is irrelevant to the parser.
  //! By default, closing tags are not validated.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_validate_closing_tags = 0x200;

  //! Parse flag instructing the parser to trim all leading and trailing whitespace of data nodes.
  //! By default, whitespace is not trimmed.
  //! This flag does not cause the parser to modify source text.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_trim_whitespace = 0x400;

  //! Parse flag instructing the parser to condense all whitespace runs of data nodes to a single space character.
  //! Trimming of leading and trailing whitespace of data is controlled by rapidxml::parse_trim_whitespace flag.
  //! By default, whitespace is not normalized.
  //! If this flag is specified, source text will be modified.
  //! Can be combined with other flags by use of | operator.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_normalize_whitespace = 0x800;

  // Compound flags

  //! Parse flags which represent default behaviour of the parser.
  //! This is always equal to 0, so that all other flags can be simply ored together.
  //! Normally there is no need to inconveniently disable flags by anding with their negated (~) values.
  //! This also means that meaning of each flag is a <i>negation</i> of the default setting.
  //! For example, if flag name is rapidxml::parse_no_utf8, it means that utf-8 is <i>enabled</i> by default,
  //! and using the flag will disable it.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_default = 0;

  //! A combination of parse flags that forbids any modifications of the source text.
  //! This also results in faster parsing. However, note that the following will occur:
  //! <ul>
  //! <li>names and values of nodes will not be zero terminated, you have to use xml_base::name_size() and xml_base::value_size() functions to determine where name and value ends</li>
  //! <li>entities will not be translated</li>
  //! <li>whitespace will not be normalized</li>
  //! </ul>
  //! See xml_document::parse() function.
  const int parse_non_destructive = parse_no_string_terminators | parse_no_entity_translation;

  //! A combination of parse flags resulting in fastest possible parsing, without sacrificing important data.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_fastest = parse_non_destructive | parse_no_data_nodes;

  //! A combination of parse flags resulting in largest amount of data being extracted.
  //! This usually results in slowest parsing.
  //! <br><br>
  //! See xml_document::parse() function.
  const int parse_full = parse_declaration_node | parse_comment_nodes | parse_doctype_node | parse_pi_nodes | parse_validate_closing_tags;

根据以上提供的信息我们改下之前的源代码:

 doc.parse<0>(requestFile.data());//解析xml
 auto nodeRoot = doc.first_node("");//获取第一个节点,也就是Root节点
 

改为

 doc.parse<rapidxml::parse_declaration_node | rapidxml::parse_comment_nodes | rapidxml::parse_non_destructive>(requestFile.data());//解析xml
 auto nodeRoot = doc.first_node("Root");//获取第一个节点,也就是Root节点

这里解释一下,parse加入了三个标志,分别是告诉解析器创建声明节点、告诉解析器创建注释节点、和不希望解析器修改传进去的数据,第二句是当有xml的声明时,默认的first_node并不是我们期望的Root节点,因此通过传节点名来找到我们需要的节点。

注:

1、这个库在append的时候并不去判断添加项(节点、属性等)是否存在

2、循环遍历时对项(节点、属性等)进行修改会导致迭代失效

总结:用别人写的库,总会有些意想不到的问题,至今我只遇到了这些问题,如果还有其它问题欢迎补充,顺便解释下"坑"并不一定是用的开源库有问题,更多的时候可能是还没有熟练的去使用这个工具。

感谢rapidxml的作者,为我们提供一个如此高效便利的工具。

以上这篇浅谈使用Rapidxml 库遇到的问题和分析过程(分享)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • 浅谈使用Rapidxml 库遇到的问题和分析过程(分享)

    C++解析xml的开源库有很多,在此我就不一一列举了,今天主要说下Rapidxml,我使用这个库也并不是很多,如有错误之处还望大家能够之处,谢谢. 附: 官方链接:http://rapidxml.sourceforge.net/ 官方手册:http://rapidxml.sourceforge.net/manual.html 之前有一次用到,碰到了个"坑",当时时间紧迫并未及时查找,今天再次用到这个库,对这样的"坑"不能踩第二次,因此我决定探个究竟. 先写两段示例:

  • 浅谈将JNI库打包入jar文件

    在Java开发时,我们有时候会接触到很多本地库,这样在对项目打包的时候我们不得不面临一个选择:要么将库文件与包好的jar文件放在一起:要么将库文件包入jar. 将一个不大的项目包成一个jar有诸多发布优势,本次将分享一个将JNI包入jar的方法. [实现思路] 将JNI库(dll.so等)包入jar后,我们无法通过路径来访问它们,而库的读取依赖一个java.library.path下对应名称的外部库文件,我们仅仅需要在调用JNI前将其由jar包释放出来,这类似于文件的拷贝过程. [部署位置的选取

  • 浅谈哪个Python库才最适合做数据可视化

    数据可视化是任何探索性数据分析或报告的关键步骤,它可以让我们一眼就能洞察数据集.目前有许多非常好的商业智能工具,比如Tableau.googledatastudio和PowerBI,它们可以让我们轻松地创建图形. 然而,数据分析师或数据科学家还是习惯使用 Python 在 Jupyter notebook 上创建可视化效果.目前最流行的用于数据可视化的 Python 库:Matplotlib.Seaborn.plotlyexpress和Altair.每个可视化库都有自己的特点,没有完美的可视化库

  • 浅谈C++标准库

    目录 C++模板 C++标准库 C++ 面向对象类库 string 标准模板库 vector set list map queue priority_queue stack pair algorithm下的常用函数 C++模板 模板是泛型编程的基础,泛型编程即以一种独立于任何特定类型的方式编写代码 模板是创建泛型类或函数的蓝图或公式 可以使用模板来定义函数和类 //函数模板 template <typename type> ret-type func-name(parameter list)

  • 浅谈JavaScript事件绑定的常用方法及其优缺点分析

    传统方式  element.onclick = function(e){ // ... };  1.  传统绑定的优点 非常简单和稳定,可以确保它在你使用的不同浏览器中运作一致 处理事件时,this关键字引用的是当前元素,这很有帮组 2. 传统绑定的缺点 传统方法只会在事件冒泡中运行,而非捕获和冒泡 一个元素一次只能绑定一个事件处理函数.新绑定的事件处理函数会覆盖旧的事件处理函数 事件对象参数(e)仅非IE浏览器可用 W3C方式  element.addEventListener('click'

  • 浅谈PHP接入(第三方登录)QQ登录 OAuth2.0 过程中遇到的坑

    前言 绝大多数网站都集成了第三方登录,降低了注册门槛,增强了用户体验.最近看了看 QQ 互联上 QQ 登录的接口文档.接入 QQ 登录的一般流程呢,是这样的:先申请开发者 -> 然后创建应用(拿到一组 AppId 和 AppKey)-> 获取 access_token -> 获取 openid -> 调用 openApi 访问或修改用户信息. 然而,从申请个人开发者开始,坑就来了. 1. 申请(个人)开发者 QQ 互联中申请开发者信息的页面,一些重点太过简陋,缺失细节,比如身份证正

  • 浅谈Mybatis版本升级踩坑及背后原理分析

    1.背景 某一天的晚上,系统服务正在进行常规需求的上线,因为发布时,提示统一的pom版本需要升级,于是从 1.3.9.6 升级至 1.4.2.1. 当服务开始上线后,开始陆续出现了一些更新系统交互日志方面的报警,属于系统辅助流程,报警下图所示, 具体系统数据已脱敏,内容是Mybatis相关的报警,在进行类型转换的时候,产生了强转错误. 更新开票请求返回日志, id:{#######}, response:{{"code":XXX,"data":{"call

  • 浅谈Java安全之C3P0链利用与分析

    目录 0x00 前言 0x01 利用方式 利用方式 http base使用 0x02 C3P0分析 构造分析 利用分析 HEX序列化字节加载器 JNDI利用 0x03 结尾 0x00 前言 在一些比较极端情况下,C3P0链的使用还是挺频繁的. 0x01 利用方式 利用方式 在C3P0中有三种利用方式 http base JNDI HEX序列化字节加载器 在原生的反序列化中如果找不到其他链,则可尝试C3P0去加载远程的类进行命令执行.JNDI则适用于Jackson等利用.而HEX序列化字节加载器的

  • 浅谈Linux的库文件

    最近在Linux下使用第三方库Protobuf时,遇到一个问题:可执行程序在运行时报错:"error while loading shared libraries: libprotobuf.so.7: cannot open shared object file: No such file or directory".于是花时间弄清楚原因,找到解决方案,跟大家共享一下. 1. 什么是库 在windows平台和linux平台下都存在着大量的库. 本质上来说库是一种可执行代码的二进制形式,

  • 浅谈python标准库--functools.partial

    一.简单介绍: functools模块用于高阶函数:作用于或返回其他函数的函数.一般而言,任何可调用对象都可以作为本模块用途的函数来处理. functools.partial返回的是一个可调用的partial对象,使用方法是partial(func,*args,**kw),func是必须要传入的,而且至少需要一个args或是kw参数. 创建一个功能函数,实现三个数的相加,如果其中的一个或是多个参数不变,那么可以使用partial,实例化一个传入了add和12参数的对象,如上图所示,传入两个参数后

随机推荐