redis的hGetAll函数的性能问题(记Redis那坑人的HGETALL)

2025-03-30 16:17:14

在没关注这个函数之前，一直用的Memcache的数据存储方式，但是自从更换了redis之后，对于一个hash的数据存与取对于Memcache方便甚多，但是问题来了，一个hash的列表如果量不大的情况，用hGetAll函数几乎看不出问题，一旦这个列表超过50或者更多时，此时用hGetAll函数便能很直观的看到性能问题，这里就不作数据分析了。

Redis是单线程的！当它处理一个请求时其他的请求只能等着。通常请求都会很快处理完，但是当我们使用HGETALL的时候，必须遍历每个字段来获取数据，这期间消耗的CPU资源和字段数成正比，如果还用了PIPELINING，无疑更是雪上加霜。

代码如下:

PERFORMANCE = CPUs / OPERATIONs

也就是说，此场景下为了提升性能，要么增加运算过程中的CPU数量；要么降低运算过程中的操作数量。在为了继续使用hash结构的数据，又要解决此问题，比较方便的方法就是将hash以序列化字符串存储，取的时候先取出反序列化的数据，再用hGet(key,array(hash..))。

例如：

代码如下:

....
$arrKey = array('dbfba184bef630526a75f2cd073a6098','dbfba184bef630526a75f2cd0dswet98')
$strKey = 'test';
$obj->hGet($strKey,$arrKey);

把原本的hGetAll操作简化为hGet，也就是说，不再需要遍历hash中的每一个字段，因此即便不能让多个CPU参与运算，但是却大幅降低了操作数量，所以性能的提升仍然是显著的；当然劣势也很明显，和所有的冗余方式一样，此方案浪费了大量的内存。

有人会问，这样虽然没有了遍历字段的过程，但是却增加了反序列化的过程，而反序列化的成本往往也是很高的，难道这样也能提升性能？问题的关键在于开始我们遍历字段的操作是在一个cpu上完成的，后来反序列化的操作，不管是什么语言，都可以通过多进程或多线程来保证是在多个cpu上完成的，所以性能总体上是提升的。

另外，很多人直觉是通过运行redis多实例来解决问题。确实，这样可以增加运算过程中的CPU数量，有助于提升性能，但是需要注意的是，hGetAll和PIPELINING往往会让运算过程中的操作数量呈几何级爆炸式增长，相比之下，我们能增加的redis多实例数量简直就是杯水车薪，所以本例中这种方法不能彻底解决问题。

记Redis那坑人的HGETALL

世上本没有坑，摔的人多了，也便成了坑。

早就听人说过Redis的HGETALL是个坑，可我偏偏不信邪：不管什么坑，一定要自己踩上去跺两脚才肯罢休。说好听点这是不到黄河心不死，说难听点就是不见棺材不落泪。

开始程序运行的非常稳定，稳定到我想送所有说HGETALL是个坑的人一个字：呸！此时的我就像温水里的青蛙一样忘记了危险的存在，时间就这样一天一天的过去，突然有一天需求变了，我不得不把HASH数据的内容从十几个字段扩展到一百多个字段，同时使用了Pipelining一次性获取上百个HGETALL的结果。于是我掉坑里了：服务器宕机。

为什么会这样？Redis是单线程的！当它处理一个请求时其他的请求只能等着。通常请求都会很快处理完，但是当我们使用HGETALL的时候，必须遍历每个字段来获取数据，这期间消耗的CPU资源和字段数成正比，如果还用了PIPELINING，无疑更是雪上加霜。

如何解决这个问题？请容许我煞有其事的给出一个公式：

代码如下:

PERFORMANCE = CPUs / OPERATIONs

也就是说，此场景下为了提升性能，要么增加运算过程中的CPU数量；要么降低运算过程中的操作数量。具体来说，我大致想到了以下几种方法：

借助Memcached

Redis存储方式不做任何改变，额外的，我们借助Memcached实现一套缓存，里面存储原本需要在Redis里HGETALL的HASH，当然，由于Memcached里存储的都是字符串，所以当我们存储HASH的时候，实际上存储的是HASH序列化后的字符串，查询的时候再反序列化即可，通常Memcached客户端驱动可以透明实现序列化和反序列化的过程。此方案的优势在于因为Memcached支持多线程，所以可以让更多的CPU参与运算，同时由于不用再遍历每一个字段，所以相应的操作会减少；当然劣势也不少，因为引入了一个新的缓存层，所以浪费了内存，增加了复杂性，另外，有时候即便我们只需要获取少数几个字段的数据，也不得不先查询完整的数据，然后再筛选，这无疑浪费了带宽。当然这种情况下我们可以直接查询Redis，但是无疑又提升了一些复杂性。

顺便说一句，Memcached支持Multiget，可以实现类似Pipelining的效果，但你要格外小心这里面有关Memcached的坑，也就是Mulitiget无底洞问题。

序列化字段冗余

Redis在存储HASH的时候，多保存一个名为「all」的字段，其内容是原HASH数据的序列化，实际查询的时候，只要HGET这个冗余字段后再反序列化即可。此方案的优势在于通过序列化字段冗余，我们把原本的HGETALL操作简化为HGET，也就是说，不再需要遍历HASH中的每一个字段，因此即便不能让多个CPU参与运算，但是却大幅降低了操作数量，所以性能的提升仍然是显著的；当然劣势也很明显，和所有的冗余方式一样，此方案浪费了大量的内存。

有人会问，这样虽然没有了遍历字段的过程，但是却增加了反序列化的过程，而反序列化的成本往往也是很高的，难道这样也能提升性能？问题的关键在于开始我们遍历字段的操作是在一个CPU上完成的，后来反序列化的操作，不管是什么语言，都可以通过多进程或多线程来保证是在多个CPU上完成的，所以性能总体上是提升的。

…

另外，很多人直觉是通过运行Redis多实例来解决问题。确实，这样可以增加运算过程中的CPU数量，有助于提升性能，但是需要注意的是，HGETALL和PIPELINING往往会让运算过程中的操作数量呈几何级爆炸式增长，相比之下，我们能增加的Redis多实例数量简直就是杯水车薪，所以本例中这种方法不能彻底解决问题。

…

坑，就是用来踩的。不用怕掉进去，当然前提是你能自己爬出来！

在CenOS系统下安装和配置Redis数据库的教程

一:安装redis wget http://redis.googlecode.com/files/redis-2.6.14.tar.gz tar zxvf redis-2.6.14.tar.gz cd redis-2.6.14 make PREFIX=/usr/local/redis install 二:配置redis 使用默认配置文件,稍作修改就可以了 1.习惯做法,配置文件放在源码安装的文件夹下,便于管理吧 mkdir /usr/local/redis/etc/ cp redis-2.6.1
Nginx配置srcache_nginx模块搭配Redis建立缓存系统

1. nginx模块 --add-module=../modules/ngx_devel_kit-0.2.18 --add-module=../modules/set-misc-nginx-module-0.22rc8 --add-module=../modules/srcache-nginx-module-0.22 --add-module=../modules/redis-nginx-module-0.3.6 --add-module=../modules/redis2-nginx-modu
浅谈Redis在分布式系统中的协调性运用

在分布式系统中,各个进程(本文使用进程来描述分布式系统中的运行主体,它们可以在同一个物理节点上也可以在不同的物理节点上)相互之间通常是需要协调进行运作的,有时是不同进程所处理的数据有依赖关系,必须按照一定的次序进行处理,有时是在一些特定的时间需要某个进程处理某些事务等等,人们通常会使用分布式锁.选举算法等技术来协调各个进程之间的行为.因为分布式系统本身的复杂特性,以及对于容错性的要求,这些技术通常是重量级的,比如 Paxos 算法,欺负选举算法,ZooKeeper 等,侧重于消息的通信而不是共享
C++开发的Redis数据导入工具优化

背景使用C++开发了一个Redis数据导入工具从oracle中将所有表数据导入到redis中: 不是单纯的数据导入,每条oracle中的原有记录,需要经过业务逻辑处理, 并添加索引(redis集合): 工具完成后,性能是个瓶颈: 优化效果使用了2个样本数据测试: 样本数据a表8763 条记录: b表940279 条记录: 优化前,a表耗时11.417s: 优化后,a表耗时1.883s: 用到的工具 gprof, pstrace,time 使用time工具查看每次执行的耗时,分别包含用户时间
Java连接Vmware中的redis

本文使用的vmware 11,安装的系统是centos6.7,redis版本是3..0.2 .如何安装请参考上一篇文章<Linux下安装Redis并设置相关服务>. 安装完redis以后,我们是不是要迫不及待的想使用一下呢.那么我们要在程序中对redis进行操作的话,操作redis的插件有好几种,这里使用的jedis. 我们新建一个java程序以后,添加上Jedis.jar以后,并添加junit 的类库.创建一个java类进行测试.项目架构如图所示. Ja
php基于redis处理session的方法

一个基于redis的处理session的方法,如下. <?php class Session_custom { private $redis; // redis实例 private $prefix = 'sess_'; // session_id前缀 // 会话开始时,会执行该方法,连接redis服务器 public function open($path, $name) { $this->redis = new Redis(); return $this->redis->conn
PHP的Laravel框架结合MySQL与Redis数据库的使用部署

相对于熟读官方文档,更重要的是要把框架环境搭起来. 零.环境介绍操作系统:centOS 数据库: mysql 5.6 (阿里云RDS) PHP 5.4.4 (>=5.4即可) Laravel 5.0 一.安装LNMP 在安装Laravel之前,需要把Linux + Nginx + Mysql + Php的环境搭建好.具体的搭建步骤这里就不再详述了. P.S. Linux阿里云已经自带了,本文使用的是centOS 6.5 64位的ECS 关于Nginx和Apache的选择看自己喜好,本文使用的是
Python使用Redis实现作业调度系统(超简单)

概述 Redis是一个开源,先进的key-value存储,并用于构建高性能,可扩展的Web应用程序的完美解决方案. Redis从它的许多竞争继承来的三个主要特点: Redis数据库完全在内存中,使用磁盘仅用于持久性. 相比许多键值数据存储,Redis拥有一套较为丰富的数据类型. Redis可以将数据复制到任意数量的从服务器. Redis 优势异常快速:Redis的速度非常快,每秒能执行约11万集合,每秒约81000+条记录. 支持丰富的数据类型:Redis支持最大多数开发人员已经知道像列表,集
C++访问Redis的mset 二进制数据接口封装方案

需求 C++中使用hiredis客户端接口访问redis: 需要使用mset一次设置多个二进制数据以下给出三种封装实现方案: 简单拼接方案在redis-cli中,mset的语法是这样的: 复制代码代码如下: /opt/colin$./redis-cli mset a 11 b 22 c 333 OK 按照这样的语法拼接后,直接使用hiredis字符串接口redisCommand传递: void msetNotBinary(redisContext *c, const vector<stri
Linux下Redis的安装和部署

一.Redis介绍 Redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统.和Memcache类似,但很大程度补偿了Memcache的不足,它支持存储的value类型相对更多,包括string.list.set.zset和hash.这些数据类型都支持push/pop.add/remove及取交集并集和差集及更丰富的操作.在此基础上,Redis支持各种不同方式的排序. 和Memcache一样,Redis数据都是缓存在计算机内存中,不同的是,Memcache只能将数据缓存到

redis的hGetAll函数的性能问题(记Redis那坑人的HGETALL)

相关推荐

随机推荐