Ruby使用GDBM操作DBM数据存储方法实例详解

2025-02-17 10:23:11

DBM简介

dbm(database manager) 是使用本地文件来存储数据的数据库，基于Key -Value对数据进行存储、读取，且有些dbm的实现( berkeley db)还支持BTree索引。dbm效率相对较高,甚至在某些情况下比关系型数据库系统的速度还更高，因为几乎所有dbm都支持比BTree效率要高的hash索引方式。

有多种dbm实现:标准dbm、ndbm( new dbm)、gdbm(GNU DBM)、sdbm( small dbm)、Berkeley db等, gdbm是对ndbm的扩展,它支持缓存功能。

DBM数据存储原理

dbm的数据存取基于key-value的hash格式
dbm/ndbm中，key单独存放在一个文件中，key+value存放在另一个文件中。对于gdbm，则是key作为索引数据单独存放在db文件中的一个地方(索引区)，key+value存放在db文件中的另一个地方(数据区)
为了高效率查询，除了key作为索引单独存放外，还额外存放key+value在db文件中的偏移位置以及大小，使得可以直接seek()跳转到指定位置处读取指定大小的数据
删除记录时，只是删除索引区的key，数据区的key+value不方便删除也没必要删除，数据区这段孤儿空间称为保留空间或碎片空间，可以作为空闲空间留待后续复用
gdbm在执行读取操作之后会将数据缓存下来，因此，第一次读取可能速度慢，但是第二次速度将非常快。keys、values等操作的的结果也都会被缓存下来
因为碎片空间可被复用，所以dbm还会记录所有的碎片空间的位置以及大小，gdbm中以链表方式记录之
因删除记录不会释放空间，所以db文件大小不会减小。换句话说，dbm的文件会随着时间的推移不断增大，除非重组dbm，重组时，将根据索引区存在的key找到数据区所有对应的key+value数据，并将它们写入临时文件，最后重命名覆盖原db文件
插入数据时，如果没有碎片空间，默认将插入在尾部，如果中间有碎片空间，则判断待写入数据的大小是否能够插入在碎片空间中
更新数据时，如果更新后的数据变大，且该数据后面没有碎片空间，则直接原地移除并在文件尾部插入更新后的数据，如果有足够的空间存放更新后的数据，则原地更新
dbm只能存储字符串，数值、布尔、对象等都不能直接存储

Ruby使用gdbm

Ruby中要使用gdbm，它依赖于gdbm扩展库和头文件，所以需先安装：

# sudo yum install gdbm-devel
# Windows：
#   ridk exec uname -a确定32位还是64位，
#   然后ridk exec pacman -S mingw-w64-<$arch>-gdbm
sudo apt install libgdbm-dev
gem install gdbm

使用类方法GDBM.new()或者GDBM.open()可打开gdbm来操作db文件。

require 'gdbm'

gdbm = GDBM.new("/tmp/lang.db")
gdbm["perl"] = "Perl"
gdbm["shell"] = "Shell"
gdbm["php"] = "PHP"
gdbm.close

查看其文件内容：

$ ls -l /tmp/lang.db
-rw-rw-rw- 1 longshuai longshuai 8192 May 17 21:22 /tmp/lang.db

$ cat /tmp/lang.db
P |...x...l9php...rdshe...}N;iperl...perlPerlshellShellphpPHP

其中…表示的是乱码部分。

注意其大小为8K，且数据区默认在db文件的尾部，包含了key和value。

从db中检索数据：

gdbm = GDBM.open("/tmp/lang.db")
pp gdbm["perl"]
pp gdbm["php"]
gdbm.close

new()、open()

new()或open()：open()可给定语句块，语句块退出时自动关闭IO流，未给定语句块时，open()等价于new()。

new(filename, mode = 0666, flags = nil)
open(filename, mode = 0666, flags = nil)
open(filename, mode = 0666, flags = nil) { |gdbm| ... }

当指定要操作的db文件不存在时，会创建文件，可指定创建文件时的权限。此外，flag参数接受如下值：

### 注意：writer方式可读可写
READER  - 以只读方式打开，即返回一个reader
WRITER  - 以可读写方式打开，即返回一个writer
WRCREAT - writer，如果数据库文件不存在，则创建
NEWDB   - writer，总是截断覆盖已存在的数据库文件

# 上面的三个writer可使用位或(|)的方式结合下面的选项：
SYNC   - 以sync模式写入数据库文件
NOLOCK - 打开时不锁定数据库文件

在未给定任何选项时，即默认情况下，总是先尝试以WRCREAT的方式打开，即以writer打开且文件不存在时创建。但如果打开失败(比如另一个进程已经打开且还未关闭)，则尝试使用reader方式打开。

reader和reader之间互相兼容，writer和writer之间以及writer和reader之间互斥。所以，在某一时刻，允许同时有多个reader，但只能有一个writer。

当打开gdbm实例后，它可以按照操作hash结构的方式去操作db，此外，gdbm已经mix-in Enumerable模块，所以可以直接使用该模块中的一些方法，比如find、grep、map等。

gdbm方法

######### 查询、插入、更新 #########
["key"]
fetch(key [, default]) → value
检索指定的key。
使用`[]`检索时，如果key不存在将返回nil，
使用fetch检索时，如果key不存在则报错，或者返回指定的默认值

values_at(key, ...) → array
检索一个或多个key，并以数组方式返回对应的value

["key"]= value
store(key, value) → value
更新指定的key，如果key不存在则插入

########## 遍历 #########
each_pair { |key, value| block } → gdbm
each_key { |key| block } → gdbm
each_value { |value| block } → gdbm
分别根据key-value、key、value遍历db

######### 其它检索、筛选方式 #########
key(value) → key
根据value找到其key，如果有多个相同的value，返回第一个

keys → array
以数组方式返回db中所有的key

values → array
以数组方式返回所有value

select { |key, value| block } → array
筛选所有满足条件的key-value

######### 判断key或value是否存在 #########
has_key?(k) → true or false
include?(k) → true or false
key?(k) → true or false
member?(k) → true or false
判断key是否存在

has_value?(v) → true or false
value?(v) → true or false
判断指定的value是否存在

######### 删除 #########
delete(key) → value or nil
根据key移除key-value并返回被移除的Key-value，db若空，返回nil

shift → (key, value) or nil
移除指定的key-value，并以数组方式返回之，db若空，则返回nil

delete_if { |key, value| block } → gdbm
移除满足条件(语句块返回true)的key-value，直接修改gdbm

reject { |key, value| block } → hash
等价于delete_if，但不修改gdbm，而是以hash的方式返回

reject! { |key, value| block } → gdbm
等价于delete_if，直接修改gdbm

clear → gdbm
清空db中所有key-value

######## 大小判断 #########
empty? → true or false
db是否为空

length → fixnum
size → fixnum
等价，返回db中的key-value数量

####### 其它操作 #########
invert → hash
反转gdbm中key-value：key作为value，value作为key，并以hash的方式返回

close → nil
关闭已打开的db文件

closed? → true or false
判断db文件是否已关闭

replace(other) → gdbm
将另一个gdbm(即other)的内容覆盖替换到当前的gdbm

update(other) → gdbm
用另一个gdbm(即Other)合并到当前gdbm，若key冲突，则当前gdbm的key被覆盖

reorganize → gdbm
重组gdbm

cachesize = size → size
设置gdbm内部的hash桶缓存大小

######## gdbm模式 #########
sync → gdbm
将IO buffer中的数据刷入磁盘中的db文件，全部写入成功才返回
如果以SYNC标记打开，则无需sync()

fastmode = boolean → boolean
syncmode = boolean → boolean
打开或关闭sync模式。
sync模式下，写入操作需要写入磁盘db文件成功(或失败)后才返回，
非sync模式下，只需写入io buffer即可返回。
syncmode方法在gdbm >= 1.8才可用，在此版本之前，使用方法fastmode=

######### 转换 #########
to_a → array
to_hash → hash
转换为数组、转换为hash

更多关于Ruby使用GDBM操作DBM数据存储的方法请查看下面的相关链接

在Ruby程序中连接数据库的详细教程

本章节将向您讲解如何使用 Ruby 访问数据库.Ruby DBI 模块为 Ruby 脚本提供了类似于 Perl DBI 模块的独立于数据库的接口. DBI 即 Database independent interface,代表了 Ruby 独立于数据库的接口.DBI 在 Ruby 代码与底层数据库之间提供了一个抽象层,允许您简单地实现数据库切换.它定义了一系列方法.变量和规范,提供了一个独立于数据库的一致的数据库接口. DBI 可与下列进行交互: ADO (ActiveX Data Object
Ruby中访问SQL Server数据库的配置实例

因为工作需要,要分析存放在SQL Server上的数据,所以不得不研究一下如何使用Ruby访问SQL Server,发现其实还是很简单的: 安装FreeTDS 下载FreeTDS源代码解压编译安装: 复制代码代码如下: ./configure --prefix=/usr/local/freetds && make && sudo make install 安装Tiny_TDS Tiny_TDS,安装和使用非常简单,推荐使用: 复制代码代码如下: sudo gem in
Ruby连接使用windows下sql server数据库代码实例

require 'win32ole' class SqlServer # This class manages database connection and queries attr_accessor :connection, :data, :fields def initialize @connection = nil @data = nil end def open # Open ADO connection to the SQL Server database connection_st
ruby+nokogori抓取糗事百科前10页并存储进数据库示例

ruby,nokogori,爬取糗事百科最新的10页加图片比并同时保存进文本跟数据库复制代码代码如下: #encoding:utf-8require "open-uri"require "nokogiri"require "mysql"@dbh=Mysql.real_connect("localhost","root","dengli","pachong")@fi
浅谈Ruby on Rails下的rake与数据库数据迁移操作

不知道你有没有把数据迁移写入Migration文件的经历,相信无论是老鸟还是新手都这样干过吧.事实上,这样做并不是行不通,只不过这样的实践慢慢会给你引入一些不必要的麻烦. 一般认为db/migrate文件夹里的内容是关于你数据库Schema的演变过程,每个新的开发或线上环境都要通过这些Migration来构建可用的数据库.但如果这里装入了,负责细节的业务代码,比如一些历史遗留数据的迁移代码之类的,当一段时间后,数据库的结构变化了,但Migration没有跟着变化,渐渐的曾经的辅助代码,就成了垃圾
Ruby使用GDBM操作DBM数据存储方法实例详解

DBM简介 dbm(database manager) 是使用本地文件来存储数据的数据库,基于Key -Value对数据进行存储.读取,且有些dbm的实现( berkeley db)还支持BTree索引.dbm效率相对较高,甚至在某些情况下比关系型数据库系统的速度还更高,因为几乎所有dbm都支持比BTree效率要高的hash索引方式. 有多种dbm实现:标准dbm.ndbm( new dbm).gdbm(GNU DBM).sdbm( small dbm).Berkeley db等, gdbm是对
vue实现todolist基本功能以及数据存储功能实例详解

实现todolist功能,具体实现如下: 可以实现对list添加.移除以及状态转变,其中添加功能既可以通过鼠标点击按钮实现,也可以通过回车键按下实现,通过使用v-model对checked的值进行双向绑定来完成状态的改变.在本次实际操作中仍存在一个小问题就是methods中函数调用,在完成数据存储前可以通过this.$options.methods.addFun();进行调用. <div id="app"> <input type="text" v
python连接、操作mongodb数据库的方法实例详解

本文实例讲述了python连接.操作mongodb数据库的方法.分享给大家供大家参考,具体如下: 数据库连接 from pymongo import MongoClient import pandas as pd #建立MongoDB数据库连接 client = MongoClient('162.23.167.36',27101)#或MongoClient("mongodb://162.23.167.36:27101/") #连接所需数据库,testDatabase为数据库名: db=
java 交换两个数据的方法实例详解

java 交换两个数据的方法 1:利用数组,即先把要交换的数字放在数组中 ,比如在一些数组排序中可能用到 public static void swap2(int[] arr,int a,int b){ int temp =arr[a]; arr[a] = arr[b]; arr[b] = temp; } 2:通过创建对象,这样就把两个整数的值引入到了对象中可以实现两个整数的交换.当然 ,若要其他基本数据类型只需要更改一下A中的类型即可. public static void swap(
Python数据存储之 h5py详解

1.Python数据存储(压缩) (1)numpy.save , numpy.savez , scipy.io.savemat numpy和scipy内建的数据存储方式. (2)cPickle + gzip cPickle是pickle内建的数据存储方式,gzip是常用的文件压缩模块. (3)h5py h5py是对HDF5文件格式进行读写的python包,关于h5py更多介绍与安装,参考官方网站关于HDF5,参考官方网站.: 一个HDF5文件就是一个由两种基本数据对象(groups and d
Oracle表中重复数据去重的方法实例详解

Oracle表中重复数据去重的方法实例详解我们在项目中肯定会遇到一种情况,就是表中没有主键有重复数据或者有主键但是部分字段有重复数据而我们需要过滤掉重复数据下面是一种解决方法 delete from mytest ms where rowid in (select aa.rid from (select rowid as rid, row_number() over(partition by s.name order by s.id) as nu from mytest s) aa
C语言数据存储方式知识点详解

C语言数据存储方式一.源码一个数的原码(原始的二进制码)有如下特点: 最高位做为符号位,0表示正,为1表示负其它数值部分就是数值本身绝对值的二进制数负数的原码是在其绝对值的基础上,最高位变为1 下面数值以1字节的大小描述: 十进制数原码 +15 0000 1111 -15 1000 1111 +0 0000 0000 -0 1000 0000 注:原码表示法简单易懂,与带符号数本身转换方便,只要符号还原即可,但当两个正数相减或不同符号数相加时,必须比较两个数哪个绝对值大,才能决定谁减
Vue中使用方法、计算属性或观察者的方法实例详解

熟悉 Vue 的都知道方法methods.计算属性computed.观察者watcher 在 Vue 中有着非常重要的作用,有些时候我们实现一个功能的时候可以使用它们中任何一个都是可以的,但是它们之间又存在一些不同之处,每一个都有一些适合自己的场景,我们要想知道合适的场景,肯定先对它们有一个清楚的了解,先看一个小例子. <div id="app"> <input v-model="firstName" type="text"&
Python数据类型之列表和元组的方法实例详解

引言我们前面的文章介绍了数字和字符串,比如我计算今天一天的开销花了多少钱我可以用数字来表示,如果是整形用 int ,如果是小数用 float ,如果你想记录某件东西花了多少钱,应该使用 str 字符串型,如果你想记录表示所有开销的物品名称,你应该用什么表示呢? 可能有人会想到我可以用一个较长的字符串表示,把所有开销物品名称写进去,但是问题来了,如果你发现你记录错误了,想删除掉某件物品的名称,那你是不是要在这个长字符串中去查找到,然后删除,这样虽然可行,那是不是比较麻烦呢. 这种情况下,你是不是
apache zookeeper使用方法实例详解

本文涉及了Apache Zookeeper使用方法实例详解的相关知识,接下来我们就看看具体内容. 简介 Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目.Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以为分布式应用提供相当多的服务,诸如统一命名服务,配置管理,状态同步和组服务等. Zookeeper 接口简单,开发人员不必过多地纠结在分布式系统编程难于处理的同步和一致性问