Java面试题冲刺第三十天--数据库(6)

目录
  • 面试题1:有个需求需要快速删除MySQL表中一亿条数据,表中有2亿数据,能说一下你的思路么?
    • 1、复制表+删除索引
    • 2、分批插入数据
    • 3、drop删除掉老表
    • 4、重命名新表为new_T
  • 面试题2:刚才你提到了逻辑删除,你是怎么看逻辑删除和物理删除的?
  • 面试题3:大型项目中,mysql的主键需要全局唯一怎么办?
  • 总结

面试题1:有个需求需要快速删除MySQL表中一亿条数据,表中有2亿数据,能说一下你的思路么?

我们知道MySQL删除数据的方式有多种比如DELETE、TRUNCATE、DROP等,都属于物理删除,但在实际场景中,很多时候是不能直接用的。

比如咱们说的这张表中有2亿条数据,要删其中1亿条,以InnoDB引擎为例,直接加WHERE条件DELETE是不现实的,因为DELETE是一条一条删,要把操作记录到binlog日志(前提开启了binlog),删除少量数据还可以,删除1亿条会非常慢,并且不会释放出磁盘空间,还得用optimize或repair来压缩数据表来释放硬盘空间。如果字段内容多,IO成本很高,CPU各种过高,耗时更长,不可行。

如果我用truncate删数据,速度倒是很快,能直接释放磁盘空间,但这是全表数据删除,直接清空数据文件或分区磁盘空间,剩下不用删的1亿条又怎么办呢?

因此我们要根据实际情况入手,比如表中有2亿条数据,要删其中1亿条;

方法一:着急的话,可以临时使用逻辑删除,选一个字段或加一个字段如is_deleted,作为逻辑删除标志,然后通过该字段过滤后继续处理数据,等到夜深人静。。。

方法二:可以新建一张表结构一致的表,把不用删除的数据导进去,然后drop原表,再把新表名称改为原表名称;这是一种比较常见的方式,要注意的是,如果索引较多或索引字段较大的话,记得先导数据,再加索引,别问我为什么。

我们简单看一下方法二的操作流程:

1、复制表+删除索引

create table new_T like T;
ALTER TABLE new_T DROP INDEX index_name1;
ALTER TABLE new_T DROP INDEX index_name2;

2、分批插入数据

建议为10w-50w一次,根据你的MySQL服务器性能来定,可以按ID查询后插入,也可以null as id按新顺序插入。

如:

insert into new_T (select null as id,col1,col2,col3 from T where id>500000 and id<=600000);
insert into new_T (select null as id,col1,col2,col3 from T where id>600000 and id<=700000);
...

3、drop删除掉老表

drop table T;

4、重命名新表为new_T

alter table new_T rename to T;

面试题2:刚才你提到了逻辑删除,你是怎么看逻辑删除和物理删除的?

我理解物理删除指的将数据从磁盘中真实删除,而逻辑删除则是在代码层面的,多是将删除数据行的is_deleted字段置成1,后续只操作is_deleted=0的那些未被删除的数据。

在严谨的开发环境中,实际上是没有删除这一说的。订单作废,用户禁用,优惠券作废都是状态的变化,而不应该让数据从磁盘消失。所以 SQL 里面 DELETE 在真实生产环境里都不应该出现,除DBA账号外的其他用户不应有DELETE、TRUNCATE、DROP权限,而只有UPDATE权限。

我还见过有单位将MySQL的update命令封装成删除命令的~~然后用户只能看到表中或视图中is_deleted=0的数据,好像是实现了权限隔离,其实就是闲的慌。

当然了,逻辑删除其实也是有问题的,逻辑删除的设计还会导致常用的unique key 失效;脏数据量大的时候研发人员可能会发现表中明明数据不多,但检索速度很慢,可能会误导研发人员的维护工作。

面试题3:大型项目中,mysql的主键需要全局唯一怎么办?

在只使用单数据库时,使用自增主键ID无疑是最适合的。但在集群、主从架构上时就会有一些问题,比如怎么做到主键的全局唯一。

使用UUID

这时我们首先想到的解决方法可能是以UUID为主键,对于InnoDB这种聚集主键类型的引擎来说,数据会按照主键进行排序,由于UUID的无序性,InnoDB会产生巨大的IO压力,此时不适合使用UUID做物理主键,但可以把它作为逻辑主键,物理主键依然使用自增ID。

另外,innodb会对主键进行物理排序,这对auto_increment_int是个好消息,因为后一次插入的主键位置总是在最后。但是对uuid来 说,这却是个坏消息,因为uuid是杂乱无章的,每次插入的主键位置是不确定的,可能在开头,也可能在中间,在进行主键物理排序的时候,势必会出现大量 IO操作影响效率。

使用自增ID

  • 方法一:比如4台数据库,第一台mysql主键从1开始每次加4,第二台从2开始每次加4,以此类推。这里的4代表数据库总量,我们叫它步长,从而保证主键的全局唯一,我们需要保证的就是确保自增 ID 起始点(auto_increment_offset)以及 ID 自增步长(auto_increment_increment)的正确性即可。

修改MySQL默认自动增长的步长

-- 设置序列的增长值
set global auto_increment_increment=1;
  • 方法二:通过集群编号加集群内的自增(auto_increment类型)两个字段共同组成唯一主键。优点是实现简单,维护也比较简单,对应用透明。缺点是引用关联操作相对比较复杂,需要两个字段,主键占用空间较大,在使用 InnoDB 的时候这一点的副作用很明显(但是这方式仅仅多了一个smallint两个字节,100W也就多2M)。

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注我们的更多内容!

(0)

相关推荐

  • Java面试题冲刺第十二天--数据库(2)

    目录 面试题2:并发场景下事务会存在哪些数据问题? 正经回答: 深入追问: 追问1:那Innodb是如何解决幻读问题的呢? 面试题3:说一下MySQL中你都知道哪些锁? 正经回答: 深入追问: 追问1:那你来谈一谈你对表锁.行锁的理解吧. 追问2:那全局锁是什么时候用的呢? 追问2:那你再说一下按锁级别划分的那几种锁的使用场景和理解吧? 总结 面试题1:先说一下什么是MySQL事务吧 正经回答: 简单说,事务就是一组原子性的SQL执行单元.如果数据库引擎能够成功地对数据库应 用该组査询的全部语句

  • Java面试题冲刺第二十八天--数据库(5)

    目录 面试题1:MySQL数据库cpu飙升到500%的话你会怎么处理? 面试题2:什么是存储过程?有哪些优缺点 优点 在数据库中集中业务逻辑 使数据库更安全 较快的执行速度 缺点 不可移植性 复杂存储过程消耗资源多 故障排除难 维护成本高 面试题3:比如有个用户表,身份证号字段唯一,那么基于这个字段建索引的话,从效率上讲,你会有哪些考虑呢? 总结 面试题1:MySQL数据库cpu飙升到500%的话你会怎么处理? 当 cpu 飙升到 500%时,先用操作系统命令 top 命令观察是不是 mysql

  • Java面试题冲刺第四天--数据库

    目录 面试题1:你对数据库优化有哪些了解呀? 正经回答: 深入追问: 追问1:那你对SQL优化方面有哪些技巧呢? 追问2:嗯,那你说一下为什么不建议用SELECT * 呢? 二.SELECT语句的一些其他优化 面试题2:你对分库分表是怎么看的呀? 正经回答: 1.垂直分表 2.水平分表 3.垂直分库 4.水平分库 深入追问: 追问1:毫无意义,我真的不想问他MySQL问题了 面试题3:MySQL删除数据的方式都有哪些? 正经回答: 深入追问: 追问1:说一下 delete.truncate.dr

  • Java面试题冲刺第十九天--数据库(4)

    目录 面试题1:说一下你对聚集索引与非聚集索引的理解,以及他们的区别? 1.聚集索引 2.非聚集索引 追问1:为什么聚集索引可以创建在任何一列上,如果此表没有主键约束,即有可能存在重复行数据呢? 追问2:聚集索引一定比非聚集索引性能优么? 面试题2:说一说你对 B树 和 B+树 的理解吧 1.B树(Balanced Tree)多路平衡查找树 多叉 2.B+ Tree (B+树是B树的变体,也是一种多路搜索树) 面试题3:说一下你对最左前缀原则的理解吧 一.最左匹配原则的原理 二.违背最左原则导致

  • Java面试题冲刺第十三天--数据库(3)

    目录 面试题1:MySQL有哪些数据类型? 追问1:char 和 varchar 的区别是什么? 1.固定长度 & 可变长度 2.存储方式 3.存储容量 4.思考:既然VARCHAR长度可变,那我要不要定到最大? 5.在SQL中需要注意的点 追问2:varchar(50).char(50)中50的涵义是什么? 追问3:那int(10)中10的涵义呢?int(1)和int(20)有什么不同? 面试题2:MySQL 的内连接.左连接.右连接有什么区别? 面试题3:MySQL的隐式转换问题遇到过么?说

  • Java面试题冲刺第三十天--数据库(6)

    目录 面试题1:有个需求需要快速删除MySQL表中一亿条数据,表中有2亿数据,能说一下你的思路么? 1.复制表+删除索引 2.分批插入数据 3.drop删除掉老表 4.重命名新表为new_T 面试题2:刚才你提到了逻辑删除,你是怎么看逻辑删除和物理删除的? 面试题3:大型项目中,mysql的主键需要全局唯一怎么办? 总结 面试题1:有个需求需要快速删除MySQL表中一亿条数据,表中有2亿数据,能说一下你的思路么? 我们知道MySQL删除数据的方式有多种比如DELETE.TRUNCATE.DROP

  • Java面试题冲刺第三天--集合框架篇

    目录 面试题1:对比 Vector.ArrayList.LinkedList 有何区别?适合在什么场景下使用 正经回答: 深入追问: 追问1:多线程场景下就不能使用ArrayList么? 追问2:说一下 HashSet 的实现原理? 追问3:HashSet是如何保证Key不重复的? 面试题2:List 和 Set 有哪些区别? 正经回答: 面试题3:Array 和 ArrayList 有何区别? 正经回答: 总结 面试题1:对比 Vector.ArrayList.LinkedList 有何区别?

  • Java面试题冲刺第十四天--PRC框架

    目录 面试题1:说说你对RPC框架的理解? 追问1:RPC框架实现原理是什么样的 1.建立通信 2.服务寻址 3.网络传输 4.服务调用 面试题2:常见的RPC框架有哪些? 面试题3:说说RPC和SOA.SOAP.REST的区别吧 1.REST 2.SOAP 3.SOA 总结 面试题1:说说你对RPC框架的理解?   RPC (Remote Procedure Call)即远程过程调用,是分布式系统常见的一种通信方法.它允许程序调用另一个地址空间(通常是共享网络的另一台机器上)的过程或函数,而不

  • Java面试题冲刺第十四天--基础篇3

    目录 面试题1:JDK1.8的新特性有哪些? 接口的默认和静态方法: Lambda 表达式: 方法与构造函数引用: 函数式接口: Annotation 注解:支持多重注解: 新的日期时间 API: Base64编码: JavaScript引擎Nashorn: Stream的使用: Optional: 扩展注解的支持: 并行(parallel)数组: 编译器优化: 其他核心 API 的改进 Java IO改进 集合 API 的改进 面试题2:什么是内部类?内部类的作用? 内部类的作用 内部类特点

  • Java面试题冲刺第二十四天--并发编程

    目录 面试题1:说一下你对ReentrantLock的理解? CAS: AQS: 追问1:你认为 ReentrantLock 相比 synchronized 都有哪些区别? 面试题2:解释一下公平锁和非公平锁? 面试题3:能详细说一下CAS具体实现原理么? 追问1:那CAS的缺陷有哪些呢? 1.ABA: 2.自旋消耗资源: 3.多变量共享一致性问题: 追问2:讲一下什么是ABA问题?怎么解决? 总结 面试题1:说一下你对ReentrantLock的理解? ReentrantLock是JDK1.5

  • Java面试题冲刺第二十五天--实战编程2

    目录 面试题2:怎么理解负载均衡的?你处理负载均衡都有哪些途径? 1.[协议层]http重定向 2.[协议层]DNS轮询 3.[协议层]CDN 4.[协议层]反向代理负载均衡 5.[网络层]IP负载均衡 面试题3:你平时是怎样定位线上问题的? 总结 面试题1:当你发现一条SQL很慢,你的处理思路是什么? 发现Bug 确定Bug不是自己造成的,如果无法确定,不要理会步骤1 向组内宣传"程序里有一个未知Bug,错不在我" 谁响应,谁对Bug负责 没人响应,就要求特定人员配合调试 如果不配合

  • Java面试题冲刺第二十六天--实战编程

    目录 面试题1:你们是怎样保存用户密码等敏感数据的? 面试题2:怎么控制用户请求的幂等性的? 1.设置唯一索引:防止新增脏数据 2.token机制:防止页面重复提交 3.悲观锁 4.乐观锁 5.分布式锁 面试题3:你们是如何预防SQL注入问题的? 预防方式: 1.PreparedStatement(简单有效) 2.使用正则表达式过滤传入的参数 3.使用正则表达式过滤传入的URL 总结 面试题1:你们是怎样保存用户密码等敏感数据的? 本题回答参考朱晔的<Java业务开发常见错误100例> 我们知

  • Java面试题冲刺第二十五天--JVM2

    目录 面试题1:简单说一下java的垃圾回收机制. 面试题2:JVM会在什么时候进行GC呢? 追问1:介绍一下不同代空间的垃圾回收机制 追问2:能说一下新生代空间的构成与执行逻辑么? 追问3:说一下发生OOM时,垃圾回收机制的执行流程. 面试题3:Full GC .Major GC和 Minor GC有什么不同 (1)Minor GC / Young GC (2)Old GC (3)Full GC (4)Major GC (5)Mixed GC 总结 面试题1:简单说一下java的垃圾回收机制.

  • Java面试题冲刺第二十六天--实战编程2

    目录 面试题2:怎么理解负载均衡的?你处理负载均衡都有哪些途径? 1.[协议层]http重定向 2.[协议层]DNS轮询 3.[协议层]CDN 4.[协议层]反向代理负载均衡 5.[网络层]IP负载均衡 面试题3:你平时是怎样定位线上问题的? 总结 面试题1:当你发现一条SQL很慢,你的处理思路是什么? 发现Bug 确定Bug不是自己造成的,如果无法确定,不要理会步骤1 向组内宣传"程序里有一个未知Bug,错不在我" 谁响应,谁对Bug负责 没人响应,就要求特定人员配合调试 如果不配合

  • Java面试题冲刺第十六天--消息队列

    目录 面试题1:说说你对消息队列的理解,消息队列为了解决什么问题? 解耦 异步 削峰 追问1:消息队列有什么优缺点 面试题2:对于消息中间机,你们是怎么做技术选型的? 面试题3:如何确保消息正确地发送至 RabbitMQ?如何确保消息接收方消费了消息? 发送方确认模式 接收方确认机制 追问1:如何保证MQ消息的可靠传输? 总结 面试题1:说说你对消息队列的理解,消息队列为了解决什么问题? 我们公司业务系统一开始体量较小,很多组件都是单机版就足够,后来随着用户量逐渐扩大,我们程序也采用了微服务的设

随机推荐