高能同步辐射光源数据流管理软件系统研制取得进展

2024/05/14


近日,HEPS光束线软件系统张一带领团队依托北京同步辐射装置(BSRF)研制了数据流高效管理软件框架Mamba Data Worker(MDW),是实验控制与数据采集软件Mamba的重要组成部分。相关工作以“A high-throughput big data orchestration and processing system for the High Energy Photon Source”为题,被领域内学术期刊《Journal of Synchrotron Radiation》接收,将于今年11月见刊。该工作得到了国家自然科学基金委和中国科学院高能所科技创新计划的支持,论文的第一作者为博士生李想,通讯作者为张承龙、张一。

新一代高能同步辐射实验具有高通量、原位、动态加载、多模态、快速反馈等特征,样品扫描技术从一维步进扫描向多维度连续扫描转变,多维飞扫技术将备受欢迎,涉及的实验设备数量众多且数据通量显著提高,对数据采集与处理的同步性需求提高,对实时数据分析进行快速反馈控制的需求日益迫切。高能同步辐射光源(HEPS)的低发射度和高相干性使得小光斑实验更为普遍,数据点数量急剧增加,往往伴随着多种实验模式的联动采集,在上样、选样与对焦过程中对稳定性、自动化、智能化等方面的需求明显提高。为了满足这些需求,实验数据传输通路必然会发生从传统单通道到多通道的转变,以及从传统的基于文件简单手动控制到基于数据流的在线自动化智能采集转变。高通量、多模态数据流高效管理成为提高实验效率,贯穿数据采集、数据分析和信息挖掘等数据全生命周期的自动化、智能化工作流的关键一环。

MDW的目标是研制动态数据流管道创建和调度功能,能够运行时动态灵活调整和分配多个端点间数据通路传输关系,搭建更高效灵活的拓扑式数据管网。基于Orange的可视化工作流引擎作为MDW的前端,这将有利于实现不同线站实验数据分发与调度通路的图形化构建。扫描维数的增加、扫描机制复杂性的提高和数据模态的增加,数据采集体现出数据来源多样、数据类型多样以及数据流量不均衡等特点,给数据管理、数据对齐、数据组装和写盘带来了巨大挑战。为了更好的维护和管理元数据和数据,MDW将所有设备的元数据和数据统一组装成HDF5格式,具有条目清晰、灵活、通用、跨平台、可扩展等优异特性,将会逐步满足国家科学数据管理的发展趋势。

目前,MDW已在BSRF服务多轮专用光,虽然目前实验的数据吞吐量不是很高,但MDW已经显示出强大的通用性和灵活性,可以支持不同光束线、方法、测量设备和扫描机制的实验。例如,MDW在3W1线站的CT成像实验中,成功接入自研的6k*6k的大型面探,用户开始采集后,可以实时显示采集到的每张图像数据,实时将数据组装成HDF5,可直接注入第三方数据处理软件进行实时重建。在4W1B线站的荧光扫描(XRF Mapping)实验中,MDW成功与飞扫中高频通信所需的专用硬件PandABox和Xpres3进行对接,实现了将数据流实时直接注入PyMCA等进行光谱校准、峰值拟合等轻量数据处理算法,便于用户快速判断实验准确性并选择ROI进行后续采集,实现数据流的实时数据采集、组装、传输、可视化及写盘,极大地提高了实验效率。德国BESSY光源控制组组长、加速器及大型实验物理控制系统国际协会(ICALEPS)终身成就奖获得者Roland Müller邮件致信表示Mamba项目在飞扫、快速数据采集等方面的工作引领了四代光源实验控制与数据采集软件的发展趋势。

图1. MDW与Mamba其他系统的接口关系

图2.(a)MDW在CT成像中的应用;(b)MDW在ARPES中的应用; (c)MDW在XRF Mapping飞扫中的应用