C++中输出十六进制形式的字符串

前言

在进行 i18n 相关的开发时,经常遇到字符编码转换的错误。这时如果能把相关字符串用十六进制的形式打印出来,例如,"abc" 输出成 "\\x61\\x62\\x63" 这对于 i18n 的除错来说是很有帮助的。Python 里面,只需要使用 repr() 函数就行了。可在 C++ 中如何做到这点呢?

下面是用 ostream 的格式化功能的一个简单的实现:

std::string get_raw_string(std::string const& s)
{
 std::ostringstream out;
 out << '\"';
 out << std::hex;
 for (std::string::const_iterator it = s.begin(); it != s.end(); ++it)
 {
 out << "\\x" << *it;
 }
 out << '\"';
 return out.str();
}

看上去简单直接,但很可惜这段代码不能实现我们的意图。它还是按字面输出了每个字符。可我们明明指定了使用 std::hex 来格式化输出啊!?问题原来是出在 std::hex 只是一个针对整数类型的输出格式设置,当输出字符类型时,C++ 流还是按照字面输出。到 ostream 的文档去细查才知,原来 C++ 标准输出流对于格式化输出的控制很弱,只能提供有限的几种格式定制,而且大部分都是针对整数和浮点数类型的,对于字符类型完全没有参数可以控制。有点讽刺的是, ostream 利用了 C++ 的函数重载和强类型机制做到了在表达力不输于 C 的同时,又杜绝了臭名昭著的 printf 带来的无穷的麻烦,大大增加了安全。可在这里,强类型安全反而是我们达到目的的障碍:我就是想让 ostream 把字符当成整数打印啊!还好,C++ 还有类型强转这招可以让我们绕过强类型匹配这道安全闸门:

out << std::hex << "\\x" << static_cast<int>(*it);

好了,这下字符都按整数来输出了,而 std::hex 又指示 ostream 用十六进制表示去输出整数。问题解决了。且慢,为什么输出 UTF-8 中文编码的时候会变成这样:

"\xffffffe4\xffffffb8\xffffffad" // get_raw_string("中")

这么多的 F word 太影响市容了。能不能把它们去掉?其实原因在于,我们输出的是强制类型转换成 int 的整形数值,而 int 是 32 bit 长,所以会多出前面这么多位来。如果要去掉,只要转成 8 bit 的整数不就行了吗。可惜 C/C++ 中没有 8 bit 的整数,你唯一能做到的是

typedef char int8_t;

可是用这样得来的 int8_t 去转也还是不行,因为在 C++ 中,typedef 并没有产生一个新的类型,而只是定义了一个原来类型的别名。而这个别名是不参与到函数重载的匹配计算当中的。换言之,ostream 说了,别以为你披上件 int8_t 的马甲我就不认识你了,我还是把你当 char 来输出。此路不通!

那我们就放弃利用 ostream 了吗?且慢,其实 ostream 默认是不会输出前面的 0 的,那只要把最后 8 bit 之前的位都抹成 0 不就能达到我们的要求了吗。

好了,下面就是无错最终版:

std::string get_raw_string(std::string const& s)
{
 std::ostringstream out;
 out << '\"';
 out << std::hex;
 for (std::string::const_iterator it = s.begin(); it != s.end(); ++it)
 {
 // AND 0xFF will remove the leading "ff" in the output,
 // So that we could get "\xab" instead of "\xffab"
 out << "\\x" << (static_cast<short>(*it) & 0xff);
 }
 out << '\"';
 return out.str();
}

经历了几番波折,终于成功利用了 ostream 提供的十六进制输出的功能实现了打印字符串十六进制的功能。其实细究起来,之所以那么绕,还是因为 ostream 本身在格式化输出控制方面太弱了。进一步的,C++ 里还有更好的工具做这件事吗? boost::format 看起来象是,但它依然不能正确处理我们上面遇到的两难境地。好在,另一个 boost 库给出了合适的答案: boost::spirit::karma

Karma 是 boost::spirit 库的一部分。大家可能比较熟悉的是用 spirit 库做 parser 来解析字符串。而 spirit 通过 Karma 提供的功能就恰好相反,它是专门用来将 C++ 数据结构格式化为字符流的。

我们恰好就需要它,下面就是用 karma 库重写的代码:

template <typename OutputIterator>
bool generate_raw(OutputIterator sink, std::string s)
{
 using boost::spirit::karma::hex;
 using boost::spirit::karma::generate;

 return generate(sink, '\"' << *("\\x" << hex) << '\"', s);
}

std::string get_raw_string_k(std::string const& s)
{
 std::string result;
 if (!generate_raw(std::back_inserter(result), s))
 {
 throw std::runtime_error("parse error");
 }

 return result;
}

这里面最主要就是利用了 karma 内置的一个输出模块 karam::hex 来帮我们完成工作,而这个 hex 是一个多态的生成器。它不象 ostream 的类型重载,只能针对某些类型输出 hex 格式,而是针对所有类型都能输出 hex 格式,包括 char 。还有一个优点,代码的表达力更强了,输出的格式完全在一行代码中体现:

// 输出格式为 "\x61\x62\x63",方便直接贴到 python 或 C++ 的代码中
'\"' << *("\\x" << hex) << '\"'

如果想要改变输出格式,只需要改这行代码即可,例如:

// 输出格式变为 "0x61 0x62 0x63 "
'\"' << *("0x" << hex << " ") << '\"'

那么效率方面有没有任何性能损失呢?下面是一段测试代码,分别用两种算法转换相同的字符串:

#include "boost/test/unit_test.hpp"
#include "boost/../libs/spirit/optimization/measure.hpp"
#include "string.hpp" // The function for test

static std::string const message = "hex output performance test data 中文";

struct using_karma : test::base
{
 void benchmark()
 {
 this->val += get_raw_string_c(message).size();
 }
};

struct using_ostream : test::base
{
 void benchmark()
 {
 this->val += get_raw_string(message).size();
 }
};

BOOST_AUTO_TEST_CASE(TestStringPerformance)
{
 BOOST_SPIRIT_TEST_BENCHMARK(
 100,
 (using_karma)
 (using_ostream)
 );

 BOOST_CHECK_NE(0, live_code);
}

下面是运行的结果,分别是两种算法需要的时间,值越小越好:

算法 耗时(s)
karma 6.97
ostream 14.24

可能出乎意料,大致来说 karma 比 ostream 快了一倍。这也与 spirit 官方给出的性能数据差不多。这里的函数返回值是通过 std::string 值拷贝返回的,消耗了不少时间,如果纯从格式化输出来说,猜测 karma 的性能优势只会更大。另一份测试 表明,karma 应该是 C/C++ 里面你能找到的速度最快的格式化字符流方案了。

对于这么简单的功能来说,这篇文章已经显得太长了,庆幸的是,我们最终还是找到了一个表达力强,性能高的十六进制输出方案。人说好事难双,可 C++ 这门复杂的语言,却经常能找执行飞快又高度抽象的代码方案。只是有些过于复杂了 ...

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

(0)

相关推荐

  • C++中带空格字符串的输入问题解决

    前言 字符串一直是一个重点加难点,很多笔试面试都会涉及,带空格的字符串更是十分常见,现在对字符串的输入问题进行一下总结. C++用cin输入的时候会忽略空格以后的字符,比如 char a[100]; cin>>a; C++用cin输入的时候会忽略空格以后的字符,输入"hello world"输出的是"hello": 如果用循环输入 for(int i=0;i<100;i++) { cin>>a[i]; } 这样输入100个数吗?或者定义

  • VC++ 字符串String MD5计算小工具 VS2008工程

    基于字符串加密的MD5算法,VS2008 VC++,多字节编译工程.主要代码如下,实现了ANSI字符串加密与Unicode字符串加密. 运行效果如下: 核心代码: void CEncryptByMd5Dlg::OnButtonOk() { // TODO: Add your control notification handler code here UpdateData(true); unsigned int len=0; char *cTemp =NULL; if(m_bType==0) {

  • 详解C++中十六进制字符串转数字(数值)

    详解C++中十六进制字符串转数字(数值) 主要有两个方法,其实都是对现有函数的使用: 方法1: sscanf()   函数名: sscanf 功  能: 从字符串格式化输入 用  法: int sscanf(char *string, char *format[,argument,...]); 以上的 format 为 %x 就是将字符串格式化为 16 进制数 例子:  #include <stdio.h> void main() { char* p = "0x1a"; i

  • C/C++ 实现递归和栈逆序字符串的实例

    C/C++ 实现递归和栈逆序字符串的实例 递归函数调用模型 逆序方法 void revers(char *buf){ char *p = buf; if (p == NULL) { return; } //递归结束条件 if (*p == '\0') { return; } //递归调用 revers(p + 1); //在字符串的结尾追加n个字符 strncat(buf_g, p, 1); } 调用 int main(int argc, const char * argv[]) { char

  • C++ 中字符串操作--宽窄字符转换的实例详解

    C++ 中字符串操作--宽窄字符转换的实例详解 MultiByteToWideChar int MultiByteToWideChar( _In_ UINT CodePage, _In_ DWORD dwFlags, _In_ LPCSTR lpMultiByteStr, _In_ int cbMultiByte, _Out_opt_ LPWSTR lpWideCharStr, _In_ int cchWideChar ); 参数描述: CodePage:常用CP_ACP.CP_UTF8 dwF

  • 详解NSString 与C++ string字符串的互转

    NSString 与C++ string字符串的互转实例详解 1.  string 转换为 NSString std::string str("hello"); NSString *str=[NSString stringWithString:str.c_str()]; NSString *istr=[NSString stringWithString:@"zsh"]; str=[istr cStringUsingEncoding: NSUTF8StringEnco

  • c++中数字与字符串之间的转换方法(推荐)

    1.字符串数字之间的转换 (1)string --> char * string str("OK"); char * p = str.c_str(); (2)char * -->string char *p = "OK"; string str(p); (3)char * -->CString char *p ="OK"; CString m_Str(p); //或者 CString m_Str; m_Str.Format(&q

  • C++/C 回文字符串的实例详解

    C++/C回文字符串的实例详解 判断输入的字符串是不是回文字符串,正反读一样. .C版 #include<stdio.h> int main() { char he[100]; char a; int i=0,flag=1; while((a=getchar())!='\n') { he[i]=a; i++; } int n=i; for(i=0;i<n/2;i++) { printf("%c\t%c\n",he[i],he[n-1-i]); if(he[i]!=he

  • C++ string 字符串查找匹配实例代码

    在写C++程序中,总会遇到要从一个字符串中查找一小段子字符串的情况,对于在C中,我们经常用到strstr()或者strchr()这两种方法.而对于C++的string,我们往往会用到find(). C++:#inlcude<string> C: #include<string.h> find():在一个字符串中查找一个指定的单个字符或字符数组.如果找到,就返回首次匹配的开始位置:如果没有查找到匹配的内容,就返回string::npos. find_first_of():在一个目标串

  • C++中输出十六进制形式的字符串

    前言 在进行 i18n 相关的开发时,经常遇到字符编码转换的错误.这时如果能把相关字符串用十六进制的形式打印出来,例如,"abc" 输出成 "\\x61\\x62\\x63" 这对于 i18n 的除错来说是很有帮助的.Python 里面,只需要使用 repr() 函数就行了.可在 C++ 中如何做到这点呢? 下面是用 ostream 的格式化功能的一个简单的实现: std::string get_raw_string(std::string const& s

  • java和javascript中过滤掉img形式的字符串不显示图片的方法

    本文实例讲述了java和javascript中过滤掉img形式的字符串不显示图片的方法.分享给大家供大家参考.具体实现方法如下: 1. javascript过滤掉<img></img>和<img />形式的字符串 复制代码 代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml

  • PHP7中对十六进制字符串处理的问题详解

    本篇文章由PHP7教程栏目给大家介绍一下关于 php7 中 "0xFFFFFFFF" 和 0xFFFFFFFF 的问题.有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助. 具体问题: $t1 = 0x3FFFFFFF & (1 * (0xd5b42e11)); $t2 = 0x3FFFFFFF & (1 * ("0xd5b42e11")); var_dump($t1,$t2); 以上代码在 php7(不含)以下平台的值为: int(36

  • 在C#及.NET框架中使用StringBuilder类操作字符串的技巧

    但如果性能的优劣很重要,则应该总是使用 StringBuilder 类来串联字符串.下面的代码使用 StringBuilder 类的 Append 方法来串联字符串,因此不会有 + 运算符的链接作用产生. class StringBuilderTest { static void Main() { string text = null; // Use StringBuilder for concatenation in tight loops. System.Text.StringBuilder

  • Java用正则表达式实现${name}形式的字符串模板实例

    前言 相信大家可能曾遇到过这种情况,在开发中类似站内信的需求时,我们经常要使用字符串模板,比如 尊敬的用户${name}.... 里面的${name}就可以替换为用户的用户名. 下面使用正则表达式简单实现一下这个功能: /** * 根据键值对填充字符串,如("hello ${name}",{name:"xiaoming"}) * 输出: * @param content * @param map * @return */ public static String r

  • jquery实现将获取的颜色值转换为十六进制形式的方法

    本文实例讲述了jquery实现将获取的颜色值转换为十六进制形式的方法.分享给大家供大家参考.具体分析如下: 大家或许已经注意到了,在谷歌.火狐和IE8以上浏览器中,获取的颜色值是RGB形式,例如rgb(255,255,0),感觉非常不适应,或者在实际编码中不方便使用,这个时候就需要进行转换,下面就提供一段相关转换代码. 具体代码如下: 复制代码 代码如下: <!DOCTYPE html> <html> <head> <meta charset=" utf

  • Python3中的列表,元组,字典,字符串相关知识小结

    一.知识概要 1. 列表,元组,字典,字符串的创建方式 2. 列表,元组,字典,字符串的方法调用 3. 列表,元组,字典,字符串的常规用法 二.列表 # 列 表 # 列表基础 list_1 = ['a','b','c','d','e','f'] list_2 = ['apple','banana','watermelon','strawberry','banana','apple'] print(list_1) print("##########") # 列表得下标是从0开始的,之后的

  • 在javascript中如何得到中英文混合字符串的长度

    有同事在公司的OA上发了个贴子,介绍在javascript中如何得到中英文混合字符串的长度. 用的是正则表达式. 复制代码 代码如下: var str = "坦克是tank的音译"; var len = str.match(/[^ -~]/g) == null ? str.length : str.length + str.match(/[^ -~]/g).length ; 我查了一下书,有点明白了: 西文常用字符集由空格" "(0x20)到"~"

  • ASP.NET Razor模板引擎中输出Html的两种方式

    本文实例讲述了ASP.NET Razor模板引擎中输出Html的两种方式.分享给大家供大家参考,具体如下: Razor中所有的Html都会自动编码,这样就不需要我们手动去编码了(安全),但在需要输出Html时就是已经转义过的Html文本了,如下所示: @{ string thisTest = "<span style=\"color:#f00;\">qubernet</span>"; } @thisTest; 这样在页面输出的文本就是:<

  • PHP 中使用explode()函数切割字符串为数组的示例

    explode()函数的作用:使用一个字符串分割另一个字符串,打散为数组. 例如: 字符串 $pizza = "第1 第2 第3 第4 第5 第6"; 根据空格分割后:$pieces = explode(" ", $pizza); $pieces是分割后的数组,我们打印出来看下 <?php $pizza = "第1 第2 第3 第4 第5 第6"; $pieces = explode(" ", $pizza); fore

随机推荐