流数据时代需要怎样的处理、存储平台

2019-12-19 05:44:00 [ 中关村在线原创 ] 作者：陈杨

5G的正式商用，使得AR/VR、自动驾驶、物联网等技术成为现实，这些技术的应用也标志着流数据时代到来。而当前的数据处理、存储方式并不适用于流数据时代。

流数据时代需要怎样的处理、存储平台

什么是流数据

所谓的流数据，指的是一组顺序、大量、快速、连续到达的数据序列，其可被视为一个随时间延续而无限增长的动态数据集合，在并发上，其单位并非以千为单位，而是百万。同时，这样的数据在读写上均对延时具有要求。

形象理解的话，自动驾驶场景产生的数据，这就是典型的流数据。自动驾驶的数据每分每秒能在产生，而交通路况又瞬息万变，其需要传输到边缘服务器或者云上核心数据中心的数据能被即传即处理即返回，以对路况做出实时相应，不可能说数据传过去十几秒、几秒才得到反应指令，这势必造成交通事故。此外，产生流数据的典型场景还包括AR/VR、股票交易等。

流数据需要怎样的处理、存储平台

自然，流数据来了，也就需要相应的处理、存储平台。根据流数据的特点可以看出，其所需要的处理、存储平台需要满足具备以下几方面能力：

一是百万级别并发下小于10ms的读写延时；

二是同时具有存储和处理能力，在此即基础上既能对流数据实现读写，同时历史批量数据也能得到高吞吐量的读；

三是确保每个数据都能被处理且只处理一次，并遵循严格有序的访问模式。

当下数据平台的缺陷

但当下企业所应用的数据处理、存储平台却存在着多种缺陷，根本无法适应流数据的到来。通常而言，目前所使用的大数据框架主要为Hadoop、Spark或者是Kafka，数据进入这些框架，将会被分为两条线处理，一个走Spark Streaming去处理实时数据，一个是传统的ETL放到批处理集当中，这样的架构也导致了整个平台的不足。

首先数据根据时间的属性走了两条处理逻辑，应用程序的处理逻辑会被写两遍；

其次在实际场景中，这样的平台无法做到实时数据和历史数据同时处理，使用这样架构的话，必须要等到批处理拿到正确结果之后才可以做聚合处理，这便造成延迟的大幅提升；

最后，从成本上，这样的平台使得原始数据在不同开源项目当中被拷贝多份，如在Kafka当中会有3次拷贝，到了Spark Steaming再来3次拷贝，对于大数据来说，本来数据便达到海量级别，多次的拷贝势必进一步增加存储容量，继而增加存储设施采购成本。

结语

可以说，当下企业应用的数据处理、存储平台多为10年前大数据兴起时基于Hadoop、Spark等大数据框架的平台，而未来将是流数据的时代，10年前的大数据框架自然也不适用于未来流数据的平台。所以，要适应流数据时代，数据框架先得改变。目前市面上，京东、戴尔已经在着手推进。