2025/3/19

2025-03-19 14:36:09 +08:00
commit abb37c49a7
18 changed files with 2005 additions and 0 deletions
--- a/技术/MySQL/基础.md
+++ b/技术/MySQL/基础.md
@@ -0,0 +1,121 @@
+## 1. 关系型数据库和非关系型数据库的区别
+
+| **对比维度**       | **关系型数据库**                                                                                   | **非关系型数据库**                                                                                      |
+|--------------------|--------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------|
+| **数据存储方式**   | 数据以二维表格形式存储，结构化组织，强调行和列的关系 。                                      | 存储方式多样，如键值对、文档（JSON）、列族或图结构，适合非结构化或半结构化数据 。                 |
+| **数据模型**       | 基于关系模型，强调数据的一致性和完整性 。                                                    | 数据模型灵活，支持分布式架构，适合动态变化的数据需求 。                                           |
+| **事务特性**       | 遵循ACID原则（原子性、一致性、隔离性、持久性），确保强一致性 。                                | 基于CAP理论（一致性、可用性、分区容错性），通常牺牲部分一致性以换取高可用性和扩展性 。            |
+| **扩展性**         | 通常采用垂直扩展（增加硬件性能），扩展性有限 。                                               | 支持水平扩展（增加节点），适合大规模分布式系统，扩展性更强 。                                      |
+| **查询语言**       | 使用SQL（结构化查询语言），通用性强且易于理解 。                                              | 通常使用特定API或查询语言，灵活性更高但学习成本较大 。                                             |
+| **适用场景**       | 适合需要复杂查询、事务处理和强一致性的场景，如银行系统、ERP等 。                              | 适合大数据、高并发、实时性要求高的场景，如社交网络、物联网等 。                                    |
+
+## 2. 为什么我们需要索引
+
+* 通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。
+* 可以大大加快数据的检索速度，这也是创建索引的最主要的原因。
+* 帮助服务器避免排序和临时表
+* 将随机IO变为顺序IO。
+* 可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。
+
+## 3. mysql优化了解吗-说一下从哪些方面可以做到性能优化
+
+* 为搜索字段创建索引
+* 避免使用 Select \*，列出需要查询的字段
+* 垂直分割分表
+* 选择正确的存储引擎
+
+## 隔离级别和问题避免
+
+* 脏读：读到其他事务未提交的数据；
+* 不可重复读：前后读取的数据不一致；
+* 幻读：前后读取的记录数量不一致。
+
+* 读未提交（read uncommitted），指一个事务还没提交时，它做的变更就能被其他事务看到；
+* 读提交（read committed），指一个事务提交之后，它做的变更才能被其他事务看到；
+* 可重复读（repeatable read），指一个事务执行过程中看到的数据，一直跟这个事务启动时看到的数据是一致的，MySQL InnoDB 引擎的默认隔离级别；
+* 串行化（serializable ）；会对记录加上读写锁，在多个事务对这条记录进行读写操作时，如果发生了读写冲突的时候，后访问的事务必须等前一个事务执行完成，才能继续执行；
+
+| 隔离级别                  | 脏读  | 不可重复读 | 幻读  |
+| --------------------- | --- | ----- | --- |
+| READ-UNCOMMITTED 未提交读 | √   | √     | √   |
+| READ-COMMITTED 提交读    | ×   | √     | √   |
+| REPEATABLE-READ 重复读   | ×   | ×     | √   |
+| SERIALIZABLE 可串行化读    | ×   | ×     | ×   |
+
+
+## Mysql有哪些日志，简单概括有什么用
+MySQL 中有多种日志，每种日志的作用各不相同，以下是它们的简单概括：
+
+1. **Binlog（二进制日志）**  
+   - **作用**：记录所有对数据库的修改操作（DDL 和 DML 语句），但不包括查询语句（如 SELECT、SHOW）。主要用于数据恢复、主从复制和审计 。  
+   - **特点**：以二进制格式存储，支持 STATEMENT、ROW 和 MIXED 三种模式记录 。
+
+2. **Redo Log（重做日志）**  
+   - **作用**：保证事务的持久性。记录的是数据页的物理修改，用于在 MySQL 崩溃后恢复未写入磁盘的数据（即“崩溃恢复”）。  
+   - **特点**：循环写入，固定大小，保存未刷入磁盘的脏页日志 。
+
+3. **Undo Log（回滚日志）**  
+   - **作用**：保证事务的原子性。记录的是事务执行前的数据状态，用于回滚操作或实现 MVCC（多版本并发控制）。  
+   - **特点**：与 Redo Log 配合使用，确保事务的一致性和隔离性。
+
+
+## 执行一条语句操作日志的完整过程
+具体更新一条记录 `UPDATE t_user SET name = 'xiaolin' WHERE id = 1;` 的流程如下:
+
+1. 执行器负责具体执行，会调用存储引擎的接口，通过主键索引树搜索获取 id = 1 这一行记录：
+   * 如果 id=1 这一行所在的数据页本来就在 buffer pool 中，就直接返回给执行器更新；
+   * 如果记录不在 buffer pool，将数据页从磁盘读入到 buffer pool，返回记录给执行器。
+2. 执行器得到聚簇索引记录后，会看一下更新前的记录和更新后的记录是否一样：
+   * 如果一样的话就不进行后续更新流程；
+   * 如果不一样的话就把更新前的记录和更新后的记录都当作参数传给 InnoDB 层，让 InnoDB 真正的执行更新记录的操作；
+3. 开启事务， InnoDB 层更新记录前，首先要记录相应的 undo log，因为这是更新操作，需要把被更新的列的旧值记下来，也就是要生成一条 undo log，undo log 会写入 Buffer Pool 中的 Undo 页面，不过在内存修改该 Undo 页面后，需要记录对应的 redo log。
+4. InnoDB 层开始更新记录，会先更新内存（同时标记为脏页），然后将记录写到 redo log 里面，这个时候更新就算完成了。为了减少磁盘I/O，不会立即将脏页写入磁盘，后续由后台线程选择一个合适的时机将脏页写入到磁盘。这就是 WAL 技术，MySQL 的写操作并不是立刻写到磁盘上，而是先写 redo 日志，然后在合适的时间再将修改的行数据写到磁盘上。
+5. 至此，一条记录更新完了。
+6. 在一条更新语句执行完成后，然后开始记录该语句对应的 binlog，此时记录的 binlog 会被保存到 binlog cache，并没有刷新到硬盘上的 binlog 文件，在事务提交时才会统一将该事务运行过程中的所有 binlog 刷新到硬盘。
+7. 事务提交（为了方便说明，这里不说组提交的过程，只说两阶段提交）：
+8. prepare 阶段：将 redo log 对应的事务状态设置为 prepare，然后将 redo log 刷新到硬盘；
+9. commit 阶段：将 binlog 刷新到磁盘，接着调用引擎的提交事务接口，将 redo log 状态设置为 commit（将事务设置为 commit 状态后，刷入到磁盘 redo log 文件）；
+10. 至此，一条更新语句执行完成。
+
+
+## 介绍MVCC的原理
+
+MVCC允许多个事务同时读取同一行数据，而不会彼此阻塞，每个事务看到的数据版本是该事务开始时的数据版本。这意味着，如果其他事务在此期间修改了数据，正在运行的事务仍然看到的是它开始时的数据状态，从而实现了非阻塞读操作。
+
+对于「读提交」和「可重复读」隔离级别的事务来说，它们是通过 Read View 来实现的，它们的区别在于创建 Read View 的时机不同，大家可以把 Read View 理解成一个数据快照，就像相机拍照那样，定格某一时刻的风景。
+
+- 「读提交」隔离级别是在「每个select语句执行前」都会重新生成一个 Read View；
+- 「可重复读」隔离级别是执行第一条select时，生成一个 Read View，然后整个事务期间都在用这个 Read View。
+
+Read View 有四个重要的字段：
+
+![img](https://cdn.xiaolincoding.com//picgo/539cfd46e0f12ab0764f20e009705502.png)
+
+- m_ids ：指的是在创建 Read View 时，当前数据库中「活跃事务」的**事务 id 列表**，注意是一个列表，**“活跃事务”指的就是，启动了但还没提交的事务**。
+- min_trx_id ：指的是在创建 Read View 时，当前数据库中「活跃事务」中事务 **id 最小的事务**，也就是 m_ids 的最小值。
+- max_trx_id ：这个并不是 m_ids 的最大值，而是**创建 Read View 时当前数据库中应该给下一个事务的 id 值**，也就是全局事务中最大的事务 id 值 + 1；
+- creator_trx_id ：指的是**创建该 Read View 的事务的事务 id**。
+
+对于使用 InnoDB 存储引擎的数据库表，它的聚簇索引记录中都包含下面两个隐藏列：
+
+![img](https://cdn.xiaolincoding.com//picgo/401c88a098b64517a4e343414142472a.png)
+
+- trx_id，当一个事务对某条聚簇索引记录进行改动时，就会**把该事务的事务 id 记录在 trx_id 隐藏列里**；
+- roll_pointer，每次对某条聚簇索引记录进行改动时，都会把旧版本的记录写入到 undo 日志中，然后**这个隐藏列是个指针，指向每一个旧版本记录**，于是就可以通过它找到修改前的记录。
+
+在创建 Read View 后，我们可以将记录中的 trx_id 划分这三种情况：
+
+![img](https://cdn.xiaolincoding.com//picgo/format%2Cpng-20250122202229381.png)
+
+一个事务去访问记录的时候，除了自己的更新记录总是可见之外，还有这几种情况：
+
+- 如果记录的 trx_id 值小于 Read View 中的 min_trx_id 值，表示这个版本的记录是在创建 Read View **前**已经提交的事务生成的，所以该版本的记录对当前事务**可见**。
+    
+- 如果记录的 trx_id 值大于等于 Read View 中的 max_trx_id 值，表示这个版本的记录是在创建 Read View **后**才启动的事务生成的，所以该版本的记录对当前事务**不可见**。
+    
+- 如果记录的 trx_id 值在 Read View 的 min_trx_id 和 max_trx_id 之间，需要判断 trx_id 是否在 m_ids 列表中：
+    
+    - 如果记录的 trx_id **在** m_ids 列表中，表示生成该版本记录的活跃事务依然活跃着（还没提交事务），所以该版本的记录对当前事务**不可见**。
+    - 如果记录的 trx_id **不在** m_ids列表中，表示生成该版本记录的活跃事务已经被提交，所以该版本的记录对当前事务**可见**。
+
+**这种通过「版本链」来控制并发事务访问同一个记录时的行为就叫 MVCC（多版本并发控制）**