环亚快讯首页 > 科技 > 正文环亚快讯huanyanews.com

蓝盾分布式数据采集子系统,让数据采集更高效可靠

蓝盾分布式数据采集子系统

蓝盾自主研发的分布式数据采集子系统,具有高效、稳定的特点,可以以每分钟100W条以上的采集速度对文本、应用程序、数据库等数据文件进行采集,数据稳定不丢失地持久化入库,可以对数据进行挖掘,也可以对日志进行全文检索、去私隐化,对日志进行导入导出,等等。

下面请各位读者跟随笔者,一起来探索该系统的技术组成以及实现原理。 

   系统架构

蓝盾分布式数据采集子系统,系统架构如下图所示。

系统分为数据源、分布式缓存、分布式存储与计算、业务处理、可视化展示共5层,还有对这5层进行管理的“统一调度与管理”模块。

数据源层,由“数据采集组件(生产者)”模块对各个节点上面的文本、应用程序、数据库等进行采集,推送到分布式缓存层。

分布式缓存层,由LVS对各个节点的消息队列组件进行负载均衡,提供一个统一的接口来接收并写入数据源节点推送过来的数据,等待分布式存储与计算层的“数据采集组件(消费者)”来读取。

分布式存储与计算层,主要由离线计算模块(由Hadoop及其生态系统组成)、实时计算模块(由Storm组成)、分布式存储和搜索引擎组成,提供存储与计算的功能。该层还有对分布式缓存层进行数据读取的“数据采集组件(消费者)”模块。

业务处理层,主要提供统计分析和数据挖掘的功能与服务,由上层进行调用。

可视化展示层,提供普通查询、全文检索、报表展示、导入导出等功能。

统一调度与管理模块,对这5层进行统一的调度与管理,基于工作流,自动化处理。 

   系统运行原理

首先,由部署在各个节点上面的“数据采集组件(生产者)”对本节点的文本、应用程序、数据库等数据进行采集,推送到某个域名或者地址,例如192.168.1.100:12346(LVS产生的虚拟IP)。

然后,LVS会接收到数据,自动转发到某个节点的消息队列中,消息队列进行写入数据并等待被读取。

接着,由实时计算模块调用“数据采集组件(消费者)”定时对消息队列进行轮询,读取数据,简单分类处理之后,存入分布式存储与搜索引擎中。

然后,离线计算模块会在一定时间内被调用,对分布式存储和搜索引擎的数据进行二次计算并写回。

接着,业务处理模块,会接收并执行上层提交过来的命令,对分布式存储和搜索引起的数据进行统计分析和数据挖掘。

最后,由可视化展示层,对所有的数据进行可视化展示,并接收用户的交互指令往下层下发等待返回结果。赵必厦

(责任编辑:环环02)

已有0条评论,共0人参与