大数据

Hadoop

内存寻址时间比IO寻址快10w倍

单机处理大数据的Io速度太慢,内存也太小

大数据技术关心的重点:

  • 分而治之
  • 并行计算
  • 计算向数据移动
  • 数据本地化读取

HDFS

Hadoop Distributed File System 分布式文件系统,与其他的分布式文件系统相比,Hadoop能更好的支持分布式计算。

存储模型

  • 文件线性按字节切割成块(block),具有offset, id
  • 文件与文件的block大小可以不一样
  • 一个文件除最后一个block,其他block大小一致
  • block的大小依据硬件的I/O特性调整
  • block被分散存放在集群的节点中,具有location
  • Block具有副本(replication),没有主从概念,副本不能出现在同一个节点
  • 副本是满足可靠性和性能的关键
  • 文件上传可以指定block的大小和副本数,上传后只能修改副本数
  • 一次写入多次读取,不支持修改
  • 支持追加数据