大数据

发表于 2023-11-29 | 分类于 algorithm

Hadoop

内存寻址时间比IO寻址快10w倍

单机处理大数据的Io速度太慢，内存也太小

大数据技术关心的重点：

分而治之
并行计算
计算向数据移动
数据本地化读取

HDFS

Hadoop Distributed File System 分布式文件系统，与其他的分布式文件系统相比，Hadoop能更好的支持分布式计算。

存储模型

文件线性按字节切割成块（block），具有offset, id
文件与文件的block大小可以不一样
一个文件除最后一个block，其他block大小一致
block的大小依据硬件的I/O特性调整
block被分散存放在集群的节点中，具有location
Block具有副本(replication),没有主从概念，副本不能出现在同一个节点
副本是满足可靠性和性能的关键
文件上传可以指定block的大小和副本数，上传后只能修改副本数
一次写入多次读取，不支持修改
支持追加数据