云计算大数据技术与应用(基于面向科学大数据的云计算平台构建探讨)

摘要:作为信息时代研究的重点,大数据和云计算属于相辅相成的关系,两者结合能够挖掘有价值的大数据,提高计算的准确性。基于此,本文从大数据和云计算技术的关系入手,并对科学大数据的特点进行分析,给出了面向科学大数据的云计算平台构建方法,并将某高校开展的AMS实验作为研究实例,对其云计算平台的构建及应用进行分析,明确云计算平台的具体构建要点及应用效果,以期为相关研究提供理论参考。

云计算大数据技术与应用(基于面向科学大数据的云计算平台构建探讨)(1)

互联网的发展人们的生产生活产生大量的数据信息,传统的数据存储技术和数据处理技术存在一定的局限性,处理效率低下,处理结果的准确性难以保障。云计算技术应运而生,云计算具备弹性服务、资源池化以及按需服务等特点,具备显著的大数据处理能力,可以迅速找出有价值的数据信息,并对数据信息进行全面深入的分析,非常适用于科学研究中的科学大数据分析。因此,本文就科学大数据作为基础,分析其云计算平台的构建方法。

1 大数据与云计算技术分析

1.1云计算技术分析

研究机构Gartner指出,大数据需要通过全新的处理模式才可以发挥其数据挖掘能力。也就是说,大数据技术的应用关键并不在于海量数据信息,而是对海量数据信息的分析与处理,从而找出海量数据信息中的有价值内容,并通过处理分析提升数据信息的价值。Google和Amazon等企业于2006年提出“云计算”这一概念,NIST对云计算进行了定义:云计算主要是指通过互联网支持共享资源池的便捷访问,用户可以根据自身的需求,在任意时间和任意地点通过计算设施、存储设备以及应用程序开展计算。云计算具备如下特征:

(1)弹性服务,云计算提供的计算服务具备规模可收缩性,能够根据业务负载大小进行动态变化,有效避免服务器过载问题的出现或者资源浪费,可以保障计算服务的质量;(2)资源池化,在云计算的支持下,资源能够通过共享资源池的形式开展统一管理,为不同用户提供相应的资源;(3)按需服务,云计算可以根据用户的需求提供相应的服务,实现自动共享资源池分配,可以提高用户访问的效率及服务质量;(4)泛在接入,只要用户具备终端设备,就能够通过互联网进行云计算服务平台的连接,享受云计算服务。

1.2大数据和云计算的关系分析

云计算技术具备强大的大数据处理能力及计算能力,在大数据中数据量逐渐增加的当下,大数据的分析离不开云计算技术。虽然传统架构能够通过扩充方式进行大数据处理,但是这种数据处理方式并不能完全适用于大数据环境,具备一定的局限性。云计算平台则可以深入挖掘大数据,保障的大数据处理及分析的全面性。云计算技术能够实现大数据的分布式并行计算,大大简化了大数据处理流程,技术人员不需要再进行低性价比服务器集群的构建,能够有效避免集群少数时段性能不足或者集群多数时段浪费等问题的出现,可以实现大数据信息资源的高效利用。

与此同时,云计算可以有效整合现有的软件资源以及硬件资源,通过虛拟化及网络存储等方法,实现IT服务的定制化以及弹性服务。在虚拟化及统一跨平台管理手段的支持下,大大降低了大数据计算平台所用的软件设施及硬件设施费用,可以降低平台的运行成本,将更多的资金用于大数据的采集、处理及存储中,有助于大数据处理水平的提升。由此可以看出,大数据和云计算属于相辅相成的关系,技术人员在进行大数据分析的过程中,需要应用云计算,保障大数据分析的准确性及高效性[1]。

2 科学大数据分析

科学大数据主要是指进行科学研究所产生的大数据。和以往的实验研究有所差异,目前的科研数据是经过大量研究,对海量深度分析所得出的结果。在此基础上,高校及科研机构面临的主要问题就是科学大数据的处理及分析问题,传统的计算机处理方式较为缓慢,难以对科学大数据进行深入分析。因此,鉴于上述对大数据及云计算的分析,研发人员需要应用科学大数据云计算平台,对科学大数据进行高效且深入的分析。本文将某高校开展的AMS实验为例,分析科学大数据的特点,为云计算平台的构建提供参考资料。AMS实验主要是指阿尔法磁谱仪实验,主要用来寻找宇宙射线、反物质以及暗物质的来源。2011年美国航空航天局将AMS-02探测器发送到国际空间站中,AMS-02探测器能够在太空中运行十到十五年。截止到2017年,AMS-02探测器已经采集到近千亿实验宇宙线数据,具备显著的科学大数据特征:

第一,数据量大,科学大数据的数量相对较多,涉及实验原始数据、中间数据以及对比数据等多种数据。AMS-02采集到的原始数据近千亿,而由原始数据衍生的重建数据、仿真数据以及实验对比数据,再加上中间数据,得到的科学数据总量难以计算,最高可达4PB,具备显著的海量特征。

第二,数据类型多,科学数据存在显著的多样化类型特征,在编码方式、应用方法以及数据格式方面有所不同,可以划分为非结构化数据及结构化数据这两种。AMS实验中的结构数据是指原始数据、重建数据以及仿真数据;AMS实验中的非结构数据是指日志文件、中间数据以及用户数据等内容。

第三,数据处理效率高,科学大数据的处理要求具备一定的实时性,这样才能够保障科学结论的正确性。以AMS实验为例,地面数据处理中心需要实时接收AMS-02探测器采集的原始数据,并对接收的数据进行重建及仿真处理,这一过程要求具备较高的速度,开展高效的科学大数据处理效率。

第四,数据价值密度低,科学实验要对海量数据进行全面深入分析,才能够获取有价值的实验结论,如果单纯对一部分实验数据进行分析,得出的结果不具权威性,其价值密度相对较低[2]。

3 面向科学大数据的云计算平台构建策略

3.1面向科学大数据的云计算平台架构

云计算平台包括三个层次:其一是核心服务层,主要是将平台的硬件设施以及平台软件的运行环境等内容抽象为服务,抽象的服务内容具备实用性强、可靠性高以及可伸缩等优势,能够满足用户的多样化需求;其二是服务管理层,主要为核心服务层提供支持,提升其服务的可靠性及实用性;其三是用户访问层,主要负责云访问的实现,通过访问接口将端和云进行有效连接。在面向科学大数据的云计算平台运行过程中,云计算服务管理层需要开展安全管理工作及服务管理工作,保障云计算平台服务内容的质量及运行安全;用户访问层主要通过Web门户及Web服务等方式,实现用户的服务访问。通过对云计算平台架构的分析可知,核心服务层为云计算平台的关键。本文主要分析核心服务层的构建方法,明确面对科学大数据的云计算平台构建方法。

一般来说,核心服务层主要包括基础设施层(IaaS)、平台服务层(PaaS)以及软件服务层(SaaS)这三部分。IaaS主要负责云计算平台的硬件基础设施配置工作,可以为平台用戶提供所需的资源,如实体或者虚拟的网络资源或者计算资源等;PaaS是云计算平台中各个软件的应用环境,负责云计算平台中软件的配置工作,在PaaS中软件工具以及开发语言的支持下,软件研发人员不需考虑软件的网络、操作以及存储等问题,只需要提供程序代码以及相关数据即可完成软件研发;SaaS是指云计算平台的应用程序[3]。具体的云计算平台架构如图1所示。

3.2面向科学大数据的云计算平台应用实例

3.2.1云计算平台的构建

在明确云计算的平台架构之后,相关单位即可根据自身的需求,进行软硬件设计及应用程序研发,实现面向科学大数据的云计算平台构建。本文以某大学作为研究对象,分析该高校云计算平台的构建及应用。为了满足数据密集型及计算密集型需求,确保AMS-02实验中相关的科学大数据能够得到深入处理,该高校应用上述架构构建了云计算平台,主要包括IaaS、PaaS以及SaaS这三个部分。

IaaS层由物理机与虚拟机这两种硬件设施组成,可以根据用户的具体需求进行硬件设施的分配,共包括279个节点、3500个CPU核,节点处理器为X3550,该服务器能够开展集群管理。并配备十台X3850X5企业级服务器以及十六台X3650机架式服务器,保障I/O节点的有效连接以及存储。与此同时,技术人员选择IBM DS5300作为共享存储系统,辅以两台24口SAN交换机以及8Gb光效端口,使共享存储系统的存储容量高达500TB。为了保障基础设施的稳定运行,技术人员在IaaS层配备了十台36口40Gb的Infiniband交换机,以此构建高速流畅的网络。从理论角度而言,在上述硬件设施的支持下,云计算平台的峰值浮点计算能力高达37万亿/s,能够充分满足高校科研人员的实验数据处理需求。

PaaS层在私有计算集群的支持下,可以实现操作系统及应用程序的自动安装,通过编程接口的设置,为大规模数据分析处理提供支持。与此同时,技术人员在PaaS层构建了统一的IBM云计算软件,负责平台中所有软硬件资源的管理,可以实现资源的自动化及虚拟化管理,有助于云计算平台扩展性的提升。SaaS层主要通过服务方式进行应用程序的设置,实现用户的有效访问。

3.2.2云计算平台的应用

该高校按照上述方法构建的云计算平台,主要用于AMS-02的实验数据处理,实验人员可以通过云计算平台开展如下数据处理工作:(1)AMS-02原始数据的采集与存储;(2)根据探测器检测的地面校正数据,对AMS-02原始数据进行重建;(3)应用蒙特卡洛仿真以及探测器模拟数据结果,对AMS-02进行数据重建;(4)通过对重建数据的物理分析,将分析结果进行可视化处理;(5)应用云计算平台进行AMS-02的传输。

在云计算平台投入运行期间,共取得如下成效:(1)利用高速网络链路进行数据采集,共从CERN区域采集数据近60TB;(2)根据探测器检测的地面校正数据,重建近214TB数据;(3)实现大规模AMS-02原始数据数据仿真,共建立近50TB的仿真数据;(4)应用AMS专用1Gbps传输通道,进行原始数据及仿真数据的高效传输及访问;(5)云计算平台可以为一百个用户提供物理分析功能,每个用户具备100GB的存储空间,可以在其范围内进行数据分析。该高校的研究学者通过云计算平台对AMS-02实验数据进行分析,得出了暗物质相关的证据,为暗物质研究提供了可靠的数据分析支持[4]。

4 结论

综上所述,面向科学大数据的云计算平台能够显著提升数据存储容量、数据计算效率及数据计算准确性,值得推广应用。通过本文的分析可知,技术人员需要根据科研机构或者高校的具体需求,按照IaaS、PaaS以及SaaS的架构进行云计算平台的设计,并选择合适的软件设施、硬件设施及应用程序,保障云计算平台的稳定运行,为用户提供高性能的计算服务及可靠的存储服务,有助于用户科研数据分析水平的提升,促进我国科学技术创新。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页