喜讯!PiFlow大数据流水线获“GVP-码云最有价值开源项目”奖

April 12, 2019

日前,由中科院计算机网络信息中心大数据部团队研发并开源的“PiFlow大数据流水线系统”(https://gitee.com/opensci/piflow) 荣获2019年开源中国“GVP-码云最有价值开源项目”奖 。

PiFlow系统面向空间科学、高能物理、微生物等学科领域大规模多源异构数据的快速采集、灵活处理和高效存储等核心关键技术挑战,采用Hadoop/Spark分布式存储与并行计算技术,实现组件式的大通量、高并发的大数据流水线自动化处理。目前该系统已实现100+的数据处理组件, 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,为用户提供所见即所得的流水线配置界面,从而实现大数据组件式、自动化采集、清洗、计算、存储及监控的全流程服务,同时支持用户快速自定义数据处理组件的扩展开发,满足数据的个性化处理需求。据悉,该系统已支撑了科技资源情报服务、微生物数据中心、领域知识图谱管理与服务等多项重大项目应用。 开源中国是国内最有影响力的开源社区,运营了中国最大的代码托管平台,目前已服务超过 300 万的软件开发者。中国科学院计算机网络信息中心大数据团队将陆续发布大数据采集、大数据融合存储及复杂网络挖掘等一系列核心软件和工具。