首页 > 新闻 > 专家观点 >

IBM Platform Computing工作负载管理解读

2014-06-25 13:51:39   作者:   来源:ZDNet软件频道   评论:0  点击:


  IBM Platform LSF在很多行业得到了成功部署,用于管理批量和高度并行的工作负载。Platform LSF的用户使用案例受益于关键行业领先独立软件厂商的应用支持。在Platform应用中心内的IBM Platform LSF具有完整的应用模版,覆盖ANSYS Mechanical、ANSYS Fluent、ANSYS CFX、ClustalW、CMGL STARS、CMGL IMEX、CMGL GEM、HMMER、LS-DYNA、MATLAB、MSC Nastran、NCBI Blast、NWChem、Schlumberger ECLIPSE、Simulia Abaqus、STAR-CCM,以及用于内部或者开源应用的通用模板。通过访问应用的标准化,Platform应用中心可以更容易地执行站点策略并解决基于角色的访问控制(RBAC)的安全担忧。

  通过Platform LSF,计算资源通过动态和透明的负载共享提供给用户。通过其透明远程作业运行,Platform LSF提供了强大的远程主机以提高应用性能,这使得用户能够在系统中的任何地方访问资源。

  Platform LSF架构

  Platform LSF是一个位于异构企业资源之上的软件服务层。下表显示了这种分层的服务模式,它接受并且调用工作负载为批量或者非批量处理应用、管理资源和监控所有活动。

  Platform LSF分层的服务模式

  上图中显示了工作负载资源管理层的三个核心组件,分别是LSF Base、LSF Batch和LSF Libraries。这三个组件一起帮助创建一个共享的、可扩展的、容错的基础设施,交付更快速更可靠的工作负载性能。

  LSF Base为分布式系统提供了基础的负载均衡服务,例如资源使用情况信息、主机选择、作业安置决策、透明远程运行作业以及远程文件选项。这些服务是通过以下组件提供的:

  负载信息管理器(LIM)。每台主机上的LIM监控主机的负载,并向运行在主机节点上的LIM报告负载性能。主LIM手机来自运行在集群中的所有从属主机的信息,并向应用提供相同的信息。

  进程信息管理器(PIM)。这是LIM发起的,运行在集群中的每个节点上。它收集运行在主机上的作业流程信息,例如作业消耗的CPU和内存,并将这些信息报告给sbatchd。

  远程执行服务器(RES)。每台服务器主机上的RES接收远程运行请求,提供高速、透明和安全的远程任务运行。

  有多个工具例如lstools、lstcsh和lsmake可用于管理工作负载。

  LSFBatch将Platform LSF基础服务扩展至能够为批量作业处理系统提供负载均衡和基于策略的资源分配控制。为了提供这种功能,LSF Batch使用以下一些平台LSF的基础服务:

  · 来自LIM的资源和负载信息,以便做负载均衡

  · 来自LIM的集群配置信息

  · 由LIM提供的主LIM选择服务

  · RES用于交互式批量作业运行

  · 由RES提供的远程文件操作服务用于文件传输

  Platform LSF Batch的核心组件是基于Master Batch Scheduler守护进程(mbschd)的调度框架,与多个插件进行结合。所有调度策略都是在插件中实现的。针对每个调度周期,触发调度,然后控制负载通过每个调度策略插件,并按照调度策略选择和派发到执行节点。

  在不同的调度阶段,这个插件都可以拦截作业负载并影响最终决策。这意味着为了做出调度决策,Platform LSF采用多个调度方法,可以并发运行以及用于任何组合中,包括用户定义的定制调度方法。这种独特的模块化架构让调度器框架可扩展增加新策略例如新的亲和插件。

  LSF Batch服务是有两个守护进程提供的。Master Batch守护进程(mbatchd)运行在主主机上,负责系统中整体作业状态。它接收作业提交和信息查询请求。守护进程管理队列中的作业,迅速将作业调遣至由mbatchd决定的主机。Slave Batch守护进程(sbatchd)运行在每个从属主机上。守护进程接收请求运行来自mbatchd的作业,并管理作业的本地运行。它负责执行本地策略并维持主机上的作业状态。守护进程创建一个子sbatchd以应对每个作业运行。这个子sbatchd将作业发送到RES,后者创建作业运行的环境。

  LSF库为分布式计算应用开发者提供API,以访问作业调度和资源管理功能,提供以下一些平台LSF库:

  LSLIB:这是一个LSF库,为跨异构计算机网络的应用提供Platform LSF基础服务。Platform LSF基础API是Platform LSF基础系统的直接用户界面,为Platform LSF服务器的服务提供轻松的访问。一台Platform LSF主机服务器运行负载共享作业。一个LIM和RES运行在每个Platform LSF服务器主机上。他们与主机操作系统连接,为用户提供一个统一的、独立于主机的环境。

  LSBLIB:LSF批量处理库为应用编程者提供了对作业队列处理服务的访问,这些服务是由平台LSF批量服务器提供的。所有平台LSF批量用户界面工具都是构建在LSBLIB之上的。通过LSBLIB提供的服务包括平台批量系统信息服务、作业操纵服务、日志文件处理服务以及Platform LSF批量管理服务。

分享到: 收藏

专题