NoSQL入门

站长

2024年06月20日 19:31 · 阅读数 45

什么是NoSQL？

半结构化数据是结构化数据的一种形式，虽然不符合二维逻辑这种数据模型结构，但是包含相关标记，用来分割语义元素以及对记录和字段进行分层，例如XML、JSON等
半结构化数据以树或者图的数据结构对数据进行存储
对于结构化数据来讲通常是先有结构再有数据，而对于半结构化数据来说则是先有数据再有结构

高并发下IO压力大：数据按行存储，即使只对其中某一列进行运算，也会将整行数据从存储设备中读入内存，导致IO较高
维护索引代价大：数据的更新伴随着所有二级索引的更新，降低了关系型数据库的读写能力，且索引越多读写能力越差
维护数据一致性代价大：SQL标准为事务定义了不同的隔离级别，从低到高依次是读未提交、读已提交、可重复度、串行化，事务隔离提供的隔离级别越高读写性能越差
水平扩展带来的问题：做了分库之后，数据迁移、跨库join、分布式事务处理都是需要考虑的问题
表结构扩展不方便：如果需要修改表结构，需要执行DDL导致锁表，部分服务不可用

非关系型数据库（NoSQL，Not Only SQL）是对不同于传统的关系数据库的数据库管理系统的统称，主要用于解决数据的高并发读写、海量存储与高可扩展等需求。

NoSQL往往是多节点，通过BASE理论保证数据一致性

2000年7月，加州大学伯克利分校的Eric Brewer教授在ACM PODC会议上提出CAP猜想。2年后，麻省理工学院的Seth Gilbert和Nancy Lynch从理论上证明了CAP。之后，CAP理论正式成为分布式计算领域的公认定理。

一个分布式系统最多只能同时满足强一致性（Consistency）、可用性（Availability）和分区容错性（Partition tolerance）这三项中的两项
- 强一致性（Consistency）：更新操作成功并返回客户端完成后，所有节点在同一时间的数据完全一致（弱一致性与最终一致性不受CAP理论限制）
- 可用性（Availability）：服务一直提供相应，而且是正常响应时间
- 分区容错性（Partition tolerance）：系统中任意信息的丢失或失败不会影响系统的继续运作
CAP的关系
- CP without A：一旦发生网络故障或者消息丢失等情况，就要等待所有数据全部一致了之后再提供服务，比如Redis、HBase这种分布式存储系统，或是Zookeeper这种分布式协调组件，数据一致性是它们最基本的要求
- AP wihtout C：一旦网络问题发生，每个节点只能用本地数据提供服务，导致全局数据的不一致性，许多Web应用为了服务高可用，舍弃了强一致性退而求其次保证最终一致性（参考下面的BASE理论）

BASE 理论起源于 2008 年，由eBay的架构师Dan Pritchett在ACM上发表。

BASE是基本可用（Basically Available）、软状态（Soft state）和最终一致性（Eventually consistent）
最终一致性（Eventually consistent）：系统中所有的数据副本，在经过一段时间的同步后最终能够达到一个一致的状态

HBase是基于Apache Hadoop构建的一个高可用、高性能、多版本的分布式列存NoSQL数据库，是Google BigTable的开源实现，提供海量数据高性能的随机读写能力。

HBase本质上其实就是Key-Value类型的数据库
Key由RowKey（行键）+ColumnFamily（列族）+Column Qualifier（列修饰符）+TimeStamp（时间戳--版本）+KeyType（类型）组成，而Value就是实际上的值

一张表的数据会通过RowKey来横向切分到HRegion上，HRegion是Hbase中分布式存储和负载均衡的最小单元，一个HRegionServer可以包含多个HRegion
HRegion的数据会通过ColumnFamily纵向切分到Store上，Store是HBase的核心存储单元，由MemStore和StoreFile组成
HBase在写数据的时候，会先写到MemStore，当MemStore超过一定阈值就会将内存中的数据刷写到硬盘上，形成StoreFile
StoreFile底层是以HFile的格式保存，HFile是HBase实际存储的数据格式
为了防止机器宕机，内存的数据没刷到磁盘中就挂了，所以在写Mem store的时候还会写一份HLog

NoSQL入门

转载自:https://juejin.cn/post/6992400735937757214