C++中可正确获取UTF-8字符长度的函数分享

2025-04-09 02:47:19

在C++的char*以及string中，使用的是字节流编码，即sizeof(char) == 1。

也就是说，C++是不区分字符的编码的。

而一个合法UTF8的字符长度可能为1～4位。

现在假设一串输入为UTF8编码，如何能准确的定位到每个UTF8字符的“CharPoint”，而不会错误的分割字符呢？

参考这个页面：http://www.nubaria.com/en/blog/?p=289

可以改造出下面的函数：

const unsigned char kFirstBitMask = 128; // 1000000
const unsigned char kSecondBitMask = 64; // 0100000
const unsigned char kThirdBitMask = 32; // 0010000
const unsigned char kFourthBitMask = 16; // 0001000
const unsigned char kFifthBitMask = 8; // 0000100

int utf8_char_len(char firstByte)
{
  std::string::difference_type offset = 1;

  if(firstByte & kFirstBitMask) // This means the first byte has a value greater than 127, and so is beyond the ASCII range.
  {
    if(firstByte & kThirdBitMask) // This means that the first byte has a value greater than 224, and so it must be at least a three-octet code point.
    {
      if(firstByte & kFourthBitMask) // This means that the first byte has a value greater than 240, and so it must be a four-octet code point.
        offset = 4;
      else
        offset = 3;
    }
    else
    {
      offset = 2;
    }
  }
  return offset;
}

浅析c++ 宏 #val 在unicode下的使用

#define CHECK(condition) cout<<check failed:<<#condition<<endl; 上面这句宏,当你 CHECK(myfunc()); 时,假设myfunc返回false,会输出:check failed:myfunc() 在宏中,#condition 是把参数转换为字符串,这在打印log时,可以很方便的打印出函数名称等等这个大家可能都知道了,太小儿科了,但是,当你在unicode下用的时候,很可能会出现乱码解决的办法是
C++使用WideCharToMultiByte函数生成UTF-8编码文件的方法

WideCharToMultiByte函数映射一个unicode字符串到一个多字节字符串. 函数原型: int WideCharToMultiByte UINT CodePage, //指定执行转换的代码页 DWORD dwFlags, //允许你进行额外的控制,它会影响使用了读音符号(比如重音)的字符 LPCWSTR lpWideCharStr, //指定要转换为宽字节字符串的缓冲区 int cchWideChar, //指定由参数lpWideCharStr指向的缓冲区的字符个数 LPSTR
C++中可正确获取UTF-8字符长度的函数分享

在C++的char*以及string中,使用的是字节流编码,即sizeof(char) == 1. 也就是说,C++是不区分字符的编码的. 而一个合法UTF8的字符长度可能为1-4位. 现在假设一串输入为UTF8编码,如何能准确的定位到每个UTF8字符的"CharPoint",而不会错误的分割字符呢? 参考这个页面:http://www.nubaria.com/en/blog/?p=289 可以改造出下面的函数: const unsigned char kFirstBitMask =
iOS中如何判断中英文混合的字符长度

废话不多说,直接给大家贴代码了. 一,代码. - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. //第一种方法 NSLog(@"--first-%i",[self convertToInt:@"123我爱你"]); //第二种方法 NSLog(@"--second--%ld",[self getToInt:@&
php中解析带中文字符的url函数分享

很多时候,在书写网页应用程序时候,会遇到中文和其他字符冲突的问题,例如有的url链接中包含中文字符,那么在使用wget/curl/file_get_contents等等获取信息时候会直接撞上一个大大的"404",会很无语. 这里写了一个小函数来解决这个问题,只是限于在path中进行解析而已,涉及到的相关函数使用大家可以查看手册就行. 复制代码代码如下: function urlConvert($url){ $pathArr = array();
Oracle中获取会话信息的两个函数分享

1. USERENV(OPTION) 返回当前的会话信息. OPTION='ISDBA'若当前是DBA角色,则为TRUE,否则FALSE. OPTION='LANGUAGE'返回数据库的字符集. OPTION='SESSIONID'为当前会话标识符. OPTION='ENTRYID'返回可审计的会话标识符. OPTION='LANG'返回会话语言名称的ISO简记. OPTION='INSTANCE'返回当前的实例. OPTION='terminal'返回当前计算机名 S
javascript 判断中文字符长度的函数代码

JS的字符串都是string对象,可以用string对象的length属性可以获取其长度,但是无论是中文.全角符号以及英文最小长度单位都是1,这与php的strlen()并不相同. 复制代码代码如下: function strlen(str) { var s = 0; for(var i = 0; i < str.length; i++) { if(str.charAt(i).match(/[u0391-uFFE5]/)) { s += 2; } else { s++; } } return
php中把美国时间转为北京时间的自定义函数分享

由于最近做邮件系统用到了时间转化,需要把从谷歌gmail下载下来的邮件时间转化为北京时间,于是乎就写了一个时间转化函数,希望对有需要的盆友所有启迪,我们都知道中美时间相差13个小时,下面直接上代码: function datezhuanhuan($dateparams) { $ccc=strtotime($dateparams); $date=date('Y-m-d'); $bjtime=date('Y-m-d',$ccc); if($date==$bjtime) { $sbjtime=date
javascript使用for循环批量注册的事件不能正确获取索引值的解决方法

本文实例讲述了javascript使用for循环批量注册的事件不能正确获取索引值的解决方法.分享给大家供大家参考.具体分析如下: 可能不少朋友会遇到一个问题,那就是当使用for循环批量注册事件处理函数,然后最后通过事件处理函数获取当前元素的索引值的时候会失败,先看一段代码实例: 复制代码代码如下: <!DOCTYPE html> <html> <head> <meta charset=" utf-8"> <meta name=&q
php检查字符串中是否包含7位GSM字符的方法

本文实例讲述了php检查字符串中是否包含7位GSM字符的方法.分享给大家供大家参考.具体分析如下: 下面的代码检查一个字符串是否包含任何7位GSM字符.它对短信平台上工作的人非常有用. <?php function check_gsm($str) { $arr = array( "0x00", "0x01", "0x02", "0x03", "0x04", "0x05","
在Python中通过getattr获取对象引用的方法

getattr函数 (1)使用 getattr 函数,可以得到一个直到运行时才知道名称的函数的引用. >>> li = ["Larry", "Curly"] >>> li.pop <built-in method pop of list object at 0x7fb75c255518> // 该语句获取列表的 pop 方法的引用,注意该语句并不是调用 pop 方法,调用 pop 方法的应该是 li.pop(), 这里
Java实现链表中元素的获取、查询和修改方法详解

本文实例讲述了Java实现链表中元素的获取.查询和修改方法.分享给大家供大家参考,具体如下: 本节是在上一小节Java链表中添加元素的基础上继续完善我们的链表相关方法的编写,在本节中我们着重对如何获取链表中元素.查询元素以及修改元素进行学习. 一.获取元素 1.关于获取链表中元素的方法的分析由于我们使用了虚拟头结点,而我们每次都需要从第一个真实节点开始,因此需要首先得到虚拟头结点的下一个节点是谁,然后在此基础上进行遍历工作,相关代码如下: //获取链表的第index(0-based)个位置的元

C++中可正确获取UTF-8字符长度的函数分享

相关推荐

随机推荐