m95536cn金太阳官网(中国)最新APP下载-网址


解决方案

以客户为中心,提供定制化或一站式的全栈解决方案,赋能千行百业

m95536cn金太阳官网下载人工智能管理平台 PLStack
产品概述

m95536cn金太阳官网下载依托强大的研发能力以及丰富的行业经验,针对机器/深度学习科研、实训教学等场景提供一站式解决方案。基于新的设计理念,打造出一款功能完善的PLStack人工智能管理平台,平台能提供端到端的流程化管理,涵盖数据标注、算法开发、模型训练、模型管理、模型服务等AI完整生命周期流程支持。

PLStack平台采用容器轻量级虚拟化方式作为基础,实现对多集群多节点的GPU、CPU、内存、存储等基础设施资源池化;基于Kubernetes定制化开发的编排调度工具,实现资源高效灵活调度;同时企业级设计理念使平台具备多租户多层级用户管理、权限管理、资源管理、vGPU等丰富的平台能力,全方位满足用户对AI开发平台高可用、高可靠、高稳定要求。大大缓解深度学习算法训练的瓶颈,从而释放人工智能的全新能力,让用户不再因为GPU的昂贵望而却步。

平台为用户提供简洁的WEB界面,丰富的功能以及多样化工具。如开发模块提供一键式环境生成、在线交互式开发工具Mlab;模型训练提供参数调优、分布式并行训练等;模型服务提供在线模型部署推理、模型服务调用;平台同时集成数据标注工具、镜像仓库等,实现一站式AI开发。

同时深度学习框架镜像以插件的方式接入系统,集成了多种业界常用框架,如 Tensorflow,PyTorch ,Caffe和 MXnet等,支持自定义扩展,极大提升整体系统的扩展性和可维护性。

产品架构

PLStack AI平台整体分为三层:基础设施层、资源调度层、平台功能层,架构如下图:

基础设施层主要包括物理机、虚拟机、存储设备、网络设备、一体机等资源,为业务提供基础算力支撑。

资源调度层借助Docker引擎实现CPU、GPU、内存、存储等资源的轻量级虚拟化,基于Kubernetes 定制化研发实现对任务和资源的灵活编排调度,具有多租户隔离、任务资源逻辑隔离等特点,结合高可靠的存储服务、分布式并行训练服务等功能组件,为上层业务功能模块提供坚实的基石。

平台功能层提供端到端 AI科研流程支撑,其中用户端包含了开发模块、AI框架、训练模块、数据管理模块、模型服务模块、镜像仓库、工单管理等;管理端包含计量计费、多租户管理、告警监控设置、平台运营运维等。

PLStack平台由管理端和业务端两个系统组成。管理端为平台管理员视图,包括资源总览、业务管理、产品管理、运维管理、配置管理、财务管理、安全中心等7个模块;业务视图为普通用户视图,包括账号中心、资源总览、开发环境、模型训练、存储管理、模型服务、模型管理、镜像仓库等八个模块。如下图所示。

方案架构图

m95536cn金太阳官网下载人工智能集群方案通过分析用户的研究方向和实际需求,利用PLStack AI管理软件平台再结合m95536cn金太阳官网下载最新一代服务器,打造了一套计算能力强、资源利用率高、管理便捷和具有超高安全性的AI集群平台。

产品功能特性

1、提供对容器+镜像的管理,支持网页端容器全生命周期管理,对异构资源进行高效管理、调度、监控。

2、多数据中心管理,用户可以选择使用某一数据中心的资源;同时具备3层组织架构管理,如管理员、组织管理员、成员等,通过设定对组织及用户进行资源配额;

3、平台集成多种深度学习各种框架(如TensorFlow,pytorch,caffe,keras等)用户模型开发、模型训练等;支持自定义框架扩展;

4、平台具备多种计费模式;提供完整的计量计费功能,管理可通过计费模块对GPU、CPU、内存等资源进行费用设定,根据用户使用时长进行计费;

5、支持多个物理区域的GPU卡资源统一纳管,统一分配;支持单机单卡,单机多卡,多机多卡以及单GPU卡多用户共享方式分配资源;以任务方式分配计算资源;任务完成计算资源回收;

6、支持管理集群中GPU服务器及GPU卡的运行状况,资源使用情况,包含GPU总数/使用数,GPU核心平均利用率,GPU显存平均利用率等

7、支持用户按需设置深度学习环境,包括深度学习框架,网络模型,GPU及CPU资源;训练完成销毁运行环境,释放计算资源;支持快速创建深度学习环境,应用程序及硬件资源相互隔离,独立运行;

8、内置上百种各种优化AI算法,可满足多个业务场景需求,降低用户门槛,提升AI开发效率

9、提供web端高效协同AI算法模型开发工具,提供Jupyter lab和jupyter notebook的集成,支持AI相关数据集成到Jupyter中;。

10、支持web及shell提交训练任务,支持用户可以实时查看自己任务的运行结果;

11、支持可视化作业管理、版本管理、克隆任务(参数管理)等功能,基于参数管理可以快速创建任务,提升模型训练任务的迭代效率;

12、支持基于常用的AI算法框架及准备好的算法可以进行多版本任务参数调优,优化并增强机器学习全生命周期管理流程;

13、集群可实现分布式并行训练功能;支持动态申请分布式训练所需要的GPU数量和节点数量,且平台可以实时监控每个节点的运行情况;

14、具备本地镜像仓库,支持镜像分组管理及分享,允许用户上传自定义镜像,支持将用户环境一键打包至镜像仓库,且支持将权限设置为公有或者私有;

15、支持对多版本的模型统一管理功能,可以集中管理所有在模型训练中得到的模型,导入并管理在本地开发的模型,满足模型需要不断迭代和调试的管理需求;

16、提供scp访问/Web访问/扩容/重命名/修改密码/共享存储/删除等功能;能支持个人用户上传数据集之后可由多用户同时调用

产品优势
  • 开放融合

    异构硬件融合和算力优化,支持多种CPU和GPU卡,同时集成多种主流的深度学习框架和交互式IDE开发环境。

  • 极致性能

    借助容器、K8S等云计算技术打造的AI平台再结合超强算力的 GPU 集群,提供高并行、高吞吐、低时延的极致性能,在科学计算表现中性能比传统架构提高 50 倍以上。

  • 弹性灵活

    弹性计算资源和算力优化管理,vGPU技术、GPU共享、多机多卡分布式并行训练、多层级组织架构、组织及用户资源配额等。

  • 开箱即用

    平台预置TensorFlow 、 PyTorch、Caffe 等多种深度学习开源框架,无需安装配置环境,一键快速提交训练任务。同时数据模型分析交互式开发工具 MLab,还支持一键添加代码和数据集。

  • 节约成本

    高效的资源优化调度和管理显著地降低资源使用和运维成本,多种计费模式极大地降低前期投入。

  • 安全服务

    平台完善的环境隔离及网络监控服务,保障用户数据和服务安全无虞。

XML 地图