Java HashSet(散列集),HashMap(散列映射)的简单介绍

2026-03-16 16:55:36

简介

本篇将简单讲解Java集合框架中的HashSet与HashMap。

散列集（HashSet）

快速入门

底层原理：动态数组加单向链表或红黑树。JDK 1.8之后，当链表长度超过阈值8时，链表将转换为红黑树。
查阅HashSet的源码，可以看到HashSet的底层是HashMap，HashSet相当于只用了HashMap键Key的部分，当需要进行添加元素操作时，其值Value始终为常量PRESENT = new Object()。以下为HashSet的代码片段：

private transient HashMap<E,Object> map;

public HashSet() {
 map = new HashMap<>();
}

public boolean add(E e) {
 return map.put(e, PRESENT)==null;
}

public Iterator<E> iterator() {
  return map.keySet().iterator();
}

上面说到，在JDK 1.8之后，当链表长度超过阈值8时，链表将转为红黑树；当链表长度小于6时，红黑树重新转为链表。那么为什么阈值是8呢？
阈值定义为8，符合数学概率论上的泊松分布Poisson。根据泊松分布，一个桶bucket是很难被填满达到长度8的。
一旦用于存储数据的链表长度达到阈值8，则很大的可能是该HashSet所使用的散列函数性能不佳、或存在恶意代码向集中添加了很多具有相同散列码的值，此时转为平衡二叉树可以提高性能。

散列表

链表LinkedList、数组Array或数组列表ArrayList都有一个共同的缺点：根据值查找元素速度慢。一旦存放的数据较多，查找速度将十分缓慢。
如果应用中开发者不在意元素的排列顺序，此时推荐使用的数据结构为散列表。散列表用于快速查找对象。
使用散列表的关键是对象必须具备一个散列码，通过对象内HashCode()方法即可计算得到对象的散列码。一般情况下，不同数据的对象将产生不同的散列码。
下表显示了使用String类中hashCode()方法成的散列码：

字符串	散列码
"Lee"	76268
"lee"	107020
"eel"	100300

在Java中，散列表HashTable使用动态数组加链表或红黑树的形式实现。
动态数组中的每个位置被称为桶bucket。要想查找元素位于散列表中的位置，需要首先计算元素的散列码，然后与桶的总数取余，所得到的结果就是保存这个元素的桶的索引。
假设动态数组为table，对象a的散列码为hashCode，则元素将存放在table的索引为hashCode % table.size()，通常将该索引值成为散列值，它与散列码是不一样的。

例如，如果某个对象的散列码为76268，并且有128个桶，那么这个对象应该保存在第108号桶中，因为76268%128=108。
如果在这个桶中没有其他的元素，此时将元素直接插入到桶中即可；但如果桶已经被填充，这种现象被称为散列冲突hash collision。发生散列冲突，需要将新对象与桶中的所有对象进行比较，查看这个对象是否已经存在。
此时如果散列码合理地随机分布（可以理解为散列函数hashCode()合理），桶的数目也足够大，需要比较的次数就会很少。
在Java 8中，桶满时会从链表变为平衡二叉树。如果选择的散列函数不好，会产生很多冲突，或者如果有恶意代码试图在散列表中填充多个有相同散列码的值，这样改为平衡二叉树能提高性能。
如果需要更多地控制散列表的性能，可以指定一个初始的桶数。桶数是指用于收集具有相同散列值的桶的数目。如果要插入到散列表中的元素太多，就会增加冲突数量，降低检索的性能。
如果大致知道最终会有多少个元素要插入到散列表中，就可以设置桶数。通常，将桶数设置为预计元素个数的75%~150%。有些研究人员认为：最好将桶数设置为一个素数，以防止键的聚集。不过，对此并没有确凿的证据。
标准类库使用的桶数是2的次幂，默认值为16（为表大小提供的任何值，都将自动转换为2的下一个幂值）。
但是，并不总能够知道需要存储多少个元素，也有可能最初的估计过低。如果散列表太满，就需要再散列rehashed。如果要对散列表再散列，就需要创建一个桶数更多的表，并将所有元素插入到这个新表中，然后丢弃原来的表。装填因子load factor可以确定何时对散列表进行再散列。
例如，如果装填因子是0.75（默认值），说明表中已经填满了75%以上，就会自动再散列，新表的桶数是原来的两倍。对于大多数程序来说，装填因子为0.75是合理的。
散列表可以用于实现很多重要的数据结构，其中最简单的是集类型。集是没有重复元素的元素集合，其中add方法首先会在这个集中查找要添加的对象，如果不存在，就添加这个对象。
Java集合框架提供了一个HashSet类，它实现了基于散列表的集。可以用add方法添加元素。contains方法已经被重新定义，用来快速查找某个元素是否已经在集中。它只查看一个桶中的元素，而不必查看集合中所有元素。
散列集迭代器将依次访问所有的桶，由于散列将元素分散在表中，所以会以一种看起来随机的顺序访问元素。只有不关心集合中元素的顺序时，才应该使用HashSet。
而HashSet的实现基于HashMap，在随后会对HashMap的部分源码进行分析，以了解其初始容量及扩容机制。

散列映射（HashMap）

快速入门

底层原理：动态数组加单向链表或红黑树。JDK 1.8之后，当链表长度超过阈值8时，链表将转换为红黑树。默认散列表中的动态数组长度为16，散列因子为0.75，扩容阈值为12。
扩容机制：扩容后散列表中的动态数组长度，变为旧动态数组的两倍。扩容阈值为散列因子与动态数组长度的乘积。
以下为HashMap中代表单向链表结构的Node<K, V>类，与代表红黑树结构的TreeNode<K, V>类。

// HashMap.java源码
// 基于单向链表的用于存储数据的对象
static class Node<K,V> implements Map.Entry<K,V> {
 final int hash;
 final K key;
 V value;
 Node<K,V> next;

 Node(int hash, K key, V value, Node<K,V> next) {
  this.hash = hash;
  this.key = key;
  this.value = value;
  this.next = next;
 }
 ...
}

// 基于红黑树的用于存储数据的对象
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
 TreeNode<K,V> parent; // red-black tree links
 TreeNode<K,V> left;
 TreeNode<K,V> right;
 TreeNode<K,V> prev; // needed to unlink next upon deletion
 boolean red;
 TreeNode(int hash, K key, V val, Node<K,V> next) {
  super(hash, key, val, next);
 }
 ...
}

二次散列

散列映射HashMap只对键进行散列，与键关联的值不进行散列。以下为HashMap中的部分源码：

public V put(K key, V value) {
 return putVal(hash(key), key, value, false, true);
}

static final int hash(Object key) {
 int h;
 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

所有使用put()方法存入HashMap中的键值对，都会在内部调用putVal()进行添加元素操作。putVal()方法的第一个参数则需要提供key的散列码。
此处并没有直接使用key.hashCode()，而是使用了HashMap中的hash()方法对key进行二次散列。二次散列可以理解为在对象调用它的散列函数之后，再进行一次额外的计算。二次散列有助于获得更好的散列码。

扩容机制

HashMap中的动态数组初始容量为16，默认的散列因子为0.75，即在容量到达16 * 0.75 = 12时，会对动态数组进行扩容处理，上限容量被称为threshold。
扩容后的HashMap，其动态数组容量为原来的2倍，由于散列因子不会改变，因此threshold也为原来的2倍。
以下为HashMap中resize()、putVal()的源码：

final Node<K,V>[] resize() {
 Node<K,V>[] oldTab = table;
 int oldCap = (oldTab == null) ? 0 : oldTab.length;
 int oldThr = threshold;
 int newCap, newThr = 0;
 if (oldCap > 0) {
  if (oldCap >= MAXIMUM_CAPACITY) {
   threshold = Integer.MAX_VALUE;
   return oldTab;
  }
  else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
     oldCap >= DEFAULT_INITIAL_CAPACITY)
   newThr = oldThr << 1; // double threshold
 }
 else if (oldThr > 0) // initial capacity was placed in threshold
  newCap = oldThr;
 else {    // zero initial threshold signifies using defaults
  newCap = DEFAULT_INITIAL_CAPACITY;
  newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
 }
 if (newThr == 0) {
  float ft = (float)newCap * loadFactor;
  newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
     (int)ft : Integer.MAX_VALUE);
 }
 threshold = newThr;
 @SuppressWarnings({"rawtypes","unchecked"})
 Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
 table = newTab;
 if (oldTab != null) {
  for (int j = 0; j < oldCap; ++j) {
   Node<K,V> e;
   if ((e = oldTab[j]) != null) {
    oldTab[j] = null;
    if (e.next == null)
     newTab[e.hash & (newCap - 1)] = e;
    else if (e instanceof TreeNode)
     ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
    else { // preserve order
     Node<K,V> loHead = null, loTail = null;
     Node<K,V> hiHead = null, hiTail = null;
     Node<K,V> next;
     do {
      next = e.next;
      if ((e.hash & oldCap) == 0) {
       if (loTail == null)
        loHead = e;
       else
        loTail.next = e;
       loTail = e;
      }
      else {
       if (hiTail == null)
        hiHead = e;
       else
        hiTail.next = e;
       hiTail = e;
      }
     } while ((e = next) != null);
     if (loTail != null) {
      loTail.next = null;
      newTab[j] = loHead;
     }
     if (hiTail != null) {
      hiTail.next = null;
      newTab[j + oldCap] = hiHead;
     }
    }
   }
  }
 }
 return newTab;
}

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
    boolean evict) {
 Node<K,V>[] tab; Node<K,V> p; int n, i;
 if ((tab = table) == null || (n = tab.length) == 0)
  n = (tab = resize()).length; // 第一个resize()是进行动态数组Node<K, V>[]初始化的操作，不会进行扩容
 if ((p = tab[i = (n - 1) & hash]) == null)
  tab[i] = newNode(hash, key, value, null);
 else {
  Node<K,V> e; K k;
  if (p.hash == hash &&
   ((k = p.key) == key || (key != null && key.equals(k))))
   e = p;
  else if (p instanceof TreeNode)
   e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
  else {
   for (int binCount = 0; ; ++binCount) {
    if ((e = p.next) == null) {
     p.next = newNode(hash, key, value, null);
     if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
      treeifyBin(tab, hash);
     break;
    }
    if (e.hash == hash &&
     ((k = e.key) == key || (key != null && key.equals(k))))
     break;
    p = e;
   }
  }
  if (e != null) { // existing mapping for key
   V oldValue = e.value;
   if (!onlyIfAbsent || oldValue == null)
    e.value = value;
   afterNodeAccess(e);
   return oldValue;
  }
 }
 ++modCount;
 // 当HashMap中元素数量大于阈值threshold，则会进行扩容resize()操作
 if (++size > threshold)
  resize();
 afterNodeInsertion(evict);
 return null;
}

通过源码可以知道，HashMap在初始化的时候并不会立即为动态数组分配内存，直到调用putVal()为止，才会在putVal()中调用resize()方法初始化动态数组。
动态数组Node<K, V>[]将在resize()中完成初始化或扩容的操作。
其中有关初始化的关键代码为：

newCap = DEFAULT_INITIAL_CAPACITY; // DEFAULT_INITIAL_CAPACITY = 1 << 4，即默认大小为16。
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); // threshold = newCap * 0.75，即默认为12。

有关于扩容的关键代码为：

if (oldCap > 0) { // 当动态数组拥有默认容量时，如果再次调用resize()，则一定会进行扩容操作
 if (oldCap >= MAXIMUM_CAPACITY) {
  threshold = Integer.MAX_VALUE;
  return oldTab;
 } else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) { // 容量为原来的2倍
  newThr = oldThr << 1; // 阈值为原来的2倍
 }
}

总结

以上为所有关于HashSet、HashMap的粗略介绍。
如果希望了解更多的内容，可以前往JDK阅读源码。

以上就是Java HashSet(散列集),HashMap(散列映射)的简单介绍的详细内容，更多关于Java HashSet和HashMap的资料请关注我们其它相关文章！

java 中HashMap、HashSet、TreeMap、TreeSet判断元素相同的几种方法比较

java 中HashMap.HashSet.TreeMap.TreeSet判断元素相同的几种方法比较 1.1 HashMap 先来看一下HashMap里面是怎么存放元素的.Map里面存放的每一个元素都是key-value这样的键值对,而且都是通过put方法进行添加的,而且相同的key在Map中只会有一个与之关联的value存在.put方法在Map中的定义如下. V put(K key, V value); 它用来存放key-value这样的一个键值对,返回值是key在Map中存放的旧va
Java中HashSet和HashMap的区别_动力节点Java学院整理

什么是HashSet? HashSet实现了Set接口,它不允许集合中有重复的值,当我们提到HashSet时,第一件事情就是在将对象存储在HashSet之前,要先确保对象重写equals()和hashCode()方法,这样才能比较对象的值是否相等,以确保set中没有储存相等的对象.如果我们没有重写这两个方法,将会使用这个方法的默认实现.. public boolean add(Object o)方法用来在Set中添加元素,当元素值重复时则会立即返回false,如果成功添加的话会返回true. 什
浅析Java中Map与HashMap,Hashtable,HashSet的区别

HashTable和HashMap区别第一,继承的父类不同.Hashtable继承自Dictionary类,而HashMap继承自AbstractMap类.但二者都实现了Map接口. 复制代码代码如下: public class Hashtable<K,V>extends Dictionary<K,V>implements Map<K,V>, Cloneable, Serializable public class HashMap<K,V>extends
Java中HashMap和Hashtable及HashSet的区别

Hashtable类 Hashtable继承Map接口,实现一个key-value映射的哈希表.任何非空(non-null)的对象都可作为key或者value. 添加数据使用put(key,value),取出数据使用get(key),这两个基本操作的时间开销为常数. Hashtable通过initial capacity和load factor两个参数调整性能.通常缺省的load factor 0.75较好地实现了时间和空间的均衡.增大load factor可以节省空间但
Java HashSet(散列集),HashMap(散列映射)的简单介绍

简介本篇将简单讲解Java集合框架中的HashSet与HashMap. 散列集(HashSet) 快速入门底层原理:动态数组加单向链表或红黑树.JDK 1.8之后,当链表长度超过阈值8时,链表将转换为红黑树. 查阅HashSet的源码,可以看到HashSet的底层是HashMap,HashSet相当于只用了HashMap键Key的部分,当需要进行添加元素操作时,其值Value始终为常量PRESENT = new Object().以下为HashSet的代码片段: private transi
Java HashSet添加遍历元素源码分析

目录 HashSet 类图 HashSet 简单说明 HashSet 底层机制说明模拟数组+链表的结构 HashSet 添加元素底层机制 HashSet 添加元素的底层实现 HashSet 扩容机制 HashSet 添加元素源码 HashSet 遍历元素底层机制 HashSet 遍历元素底层机制 HashSet 遍历元素源码 HashSet 类图 HashSet 简单说明 1.HashSet 实现了 Set 接口 2.HashSet 底层实际上是由 HashMap 实现的 public Has
Java基于elasticsearch实现集群管理

这篇文章主要介绍了java基于elasticsearch实现集群管理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下本篇文章主要是查看集群中的相关信息,具体请看代码和注释 @Test public void test45() throws UnknownHostException{ //1.指定es集群 cluster.name 是固定的key值,my-application是ES集群的名称 Settings settings = Settin
Java实现并查集示例详解

目录题目思路 find实现 join的实现整体代码题目题目背景若某个家族人员过于庞大,要判断两个是否是亲戚,确实还很不容易,现在给出某个亲戚关系图,求任意给出的两个人是否具有亲戚关系. 思路对于该题而言,考察的是并查集,也就是小怪兽逐个找上级领导的思路,指导找到最终的Boss停止下来,如果两个怪兽要打架,需要问一问他们的上级领导,领导再问领导,逐级向上,最终发现它们属于同一个Boss的部署的话就不能再打架了,这道题同样的思路,如果斗罗大陆的一开始白沉香不知道唐三是亲戚的话,他们就
Java 深入浅出掌握Map集合之双列集合

目录前言 Map集合 Map概述 Map特点 Map集合的功能 Map集合的遍历 Map集合的各个子类集合框架图总结前言友友们,大家好哇!这一期我为大家带来双列集合(Map)的相关知识点讲解,那么什么是双列集合呢?Map集合就是采用了key-value键值对映射的方式进行存储.通俗的讲,和查字典类似,查字典时,我们通过偏旁或笔画等查询汉字,集合里通过key找到对应的value,用学生类来说,key相当于学号,value对应name. Map集合 Map概述 Map是一种依照键(key)
在Java中如何决定使用 HashMap 还是 TreeMap

HashMap简单总结: 1.HashMap 是链式数组(存储链表的数组)实现查询速度可以,而且能快速的获取key对应的value: 2.查询速度的影响因素有容量和负载因子,容量大负载因子小查询速度快但浪费空间,反之则相反: 3.数组的index值是(key 关键字, hashcode为key的哈希值, len 数组的大小):hashcode%len的值来确定,如果容量大负载因子小则index相同(index相同也就是指向了同一个桶)的概率小,链表长度小则查询速度快,反之index相同的概率大
使用java反射将结果集封装成为对象和对象集合操作

java反射机制是什么反射机制是在运行状态中,可以知道任何一个类的属性和方法,并且调用类的属性和方法: 反射机制能够做什么 1.判断运行对象的所属类 2.构造任意一个类的对象 3.获取任意一个类的属性和方法 4.调用任意属性和方法 5.生成动态代理利用反射将结果集封装成为对象或者集合(实测可用) package coral.base.util; import java.beans.IntrospectionException; import java.beans.PropertyDescri
java实现将结果集封装到List中的方法

本文实例讲述了java实现将结果集封装到List中的方法.分享给大家供大家参考,具体如下: import java.sql.Connection; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; import java.util.ArrayList; import java.util.List; public class TestResultSet { public stati
Java ArrayList与LinkedList及HashMap容器的用法区别

目录前言一.ArrayList 1.原理 2.用法二.LinkedList 1.原理 2.用法三.HashMap 1.原理 2.用法四.对比优缺点及区别前言 Java中容器对象主要用来存储其他对象,根据实现原理不同,主要有3类常用的容器对象: 1.ArrayList 使用数组结构存储容器中的元素 2.LinkedList 使用链表结构存储容器中的元素 3.HashMap 使用Hash原理,同时使用数组和链表结构一.ArrayList 1.原理 2.用法打开Idea新建项目,右击s
实例讲解Java HashSet

HashSet 基于 HashMap 来实现的,是一个不允许有重复元素的集合. HashSet 允许有 null 值. HashSet 是无序的,即不会记录插入的顺序. HashSet 不是线程安全的, 如果多个线程尝试同时修改 HashSet,则最终结果是不确定的. 您必须在多线程访问时显式同步对 HashSet 的并发访问. HashSet 实现来 Set 接口. HashSet 中的元素实际上是对象,一些常见的基本类型可以使用它的包装类. 基本类型对应的包装类表如下: 基本类型引用类型

Java HashSet(散列集),HashMap(散列映射)的简单介绍

简介

散列集（HashSet）

快速入门

散列表

散列映射（HashMap）

快速入门

二次散列

扩容机制

总结

相关推荐

随机推荐