英特尔分布式计算在腾讯云上实践

本教程介绍了使用英特尔优化的Tensorflow和Horovod基于Medical Segmentation Decathlon数据集在腾讯云多个节点服务器上进行3D U-Net模型的训练和推理。包括模型介绍,模型训练推理和结果展示。

【课程大纲】

1. 分布式AI实践课程简介

2. 腾讯云集群环境搭建

3. 运行分布式AI训练和推理

4. 分布式AI计算实践

本次课程主要介绍使用Intel优化的TensorFlow、Intel MPI Library和Horovod在腾讯云上使用Segmentation Decathlon Dataset中脑肿瘤(BraTS)数据分布式训练一个3D U-Net模型并使用训练出来的模型进行推理。这个模型在仅使用FLAIR(Fluid-attenuated inversion recovery,磁共振成像液体衰减反转恢复序列)Channel的情况下,整个肿瘤的Dice Coefficient能够达到> 0.85。

本次课程主要使用到的软件环境:

这些软件已经提前安装在了Intel的分布式AI镜像中,之家直接安装即可使用。

U-Net是卷积神经网络(Convultional Neural Network )的一种变形,可以利用数据增强(Data Augmentation)可以对一些较少样本的数据进行训练。其网络结构类似于字母U(见右图),因此命名U-Net。

U-Net主要分成两个部分:收缩路径(Contracting Path),扩展路径(Expanding Path)。收缩路径用来捕捉图片的上下文信息(Context Information),扩展路径用来对图片中需要分割出的部分进行定位(Localization)。医学方面相关的数据在获取成本上比其他的数据大非常多,因此U-Net对于医学领域深度学习在较少样本的医学影像的情况有很大的帮助。

医学影像很多时候都是块状的,也就是说是由很多个切片构成一整张图的存在。如果用2D的图像处理模型去处理3D,需要将医学影像图片(包括训练数据和标注数据)切片送进去设计的模型进行训练,这样处理的效率不高。如左下图所示,3D U-Net基于2D U-Net,它和2D U-Net的结构基本是一样的,唯一不同的就是全部2D操作换成了3D。这样子块状图像就不需要单独输入每个切片进行训练,而是可以采取图片整张作为输入到模型中。

MSD(Medical Segmentation Decathlon) 提供了10个不同的语义切分的数据和任务可供研究者测试研究机器学习/深度学习算法的普遍可适性。MSD希望实现一个在没有人为干预的情况下,能够解决每个任务的通用算法/模型或者学习系统。使用Medical Segmentation Decathlon的一般步骤:

这个实验里,我们只使用Intel优化的TensorFlow和Horovod去分布式训练脑肿瘤的任务模型并推理结果。

创建SSH服务器执行目录执行mkdir -p /var/run/sshd。启动SSH服务器执行/usr/sbin/sshd -D&。

默认的参数配置下,原图被分为[Height, Width, Depth] = [144, 144, 144] 的图块且每一个train batch同时处理8个图块,但这需要>=40Gb的内存。如果没有足够大的内存,可设置参数例如--patch_height=16 --patch_width=16 --patch_depth=16 将图块尺寸缩小处理,同时也可以用--bz=4 指定batch size将其缩小。

推理命令:

推理的过程中会打印出验证集的平均Dice Coefficient。对于每一个验证集的样本,它会在predictions_directory保存其predictions, MRI images和ground truth masks。

课程学习交流

云服务器(cloud virtual machine,cvm)为您提供安全可靠的弹性计算服务。 只需...

拥有高速计算与图形处理能力的云服务器 gpu 服务器,高性能服务器,视频编解码,图形图像工作站,图形...

fpga 云服务器(fpga cloud computing)是基于fpga(field progr...

课程一经售出,若非平台(即腾讯产业互联网学堂/腾讯云官网)技术原因均不予退款,平台技术原因是指:由平台技术故障引发的连续超过24小时课程无法正常观看,视频无法正常播放、PPT/PDF课程无法观看。如用户个人网络原因、观看设备故障、用户账号丢失等原因不属于平台技术故障。

THE END
0.生成式AI推动对计算资源的需求:AltmanSolon分析文章探讨了生成式AI如ChatGPT对计算、存储和网络基础设施的影响。企业级生成式AI工具的增长将导致计算资源和网络需求增加,特别是对数据中心和公共云服务。训练大型语言模型需要大量计算资源,而推理工作负载主要发生在推理阶段,可能引发对本地数据中心和网络容量的压力。随着生成式AI的普及,基础设施提供商需要规划足够的资源jvzquC41dnuh0lxfp0tfv8l|s2=358ftvkimg8igvcomu8653;8:2@8
1.AI计算平台依托对行业深度理解与实践沉淀,融聚智能物联网、大数据、 人工智能、知识计算,构建社会运行核心支撑的新计算模式, 打造全要素融合式产业数智化服务jvzquC41ck4dnrkg0et0cknnkv0mn~yqtj
2.阿里云高性能计算负责人何万青:阿里云大计算加速HPC与AI融合而新冠的爆发带来了一个重要契机,我们通过整合云上计算资源,第一时间帮到科研机构开展新冠研究,从而发现了云计算具备的独特优势。据报道,世界上前 20 大药厂 70% 的算力和研发都在往云上迁移。 在新冠疫情爆发初期,阿里云第一时间免费开放AI算力支持抗疫研发,支持科研人员围绕新冠病毒进行药物研究;其次,通过大数据进行jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:5274;4
3.【分享NVIDIAGTC23大会干货】人工智能加速计算和科学计算的进展本文分享了NVIDIA在GTC大会上关于加速计算在AI和科学计算领域的进展,强调了数据中心的能源效率需求、新产品如HopperGPU和BlueField-3的数据中心解决方案。此外,还介绍了推理平台的强化,特别是对于生成式AI和视频内容处理的优化。NVIDIA还展示了在量子计算领域的创新,推出了Quantum平台,旨在支持量子算法开发和混合量子经典计算jvzquC41dnuh0lxfp0tfv8mwiaimqwj1ctzjeuj1fgzbkux134?86?;43
4.王坚院士:算力、云计算、AI,发展云计算需要“三位一体”王坚说:“当前国内可能仅仅有20%~30%的服务器,是真正按照云计算的思路来提供服务的,此外还存在大量传统的服务器。”云计算要最大化地发挥作用,就要作为一种公共服务存在,而不是卖服务器。就像Open AI 与微软的关系一样,Open AI需要的,也不是计算板卡,而是微软提供的云服务。 jvzquC41yy}/|jxv0qxh0ls1ctz0497616541jwva383;?84266`7A>938;10qyon
5.视图计算VECAI智能视频监控系统摄像头上云视频服务视图计算(VEC)依托阿里云边缘节点,是面向视图设备(如摄像头、车载终端等)上云场景,提供连接、视图AI计算、视图云存储的云PAAS服务,通过OpenAPI被应用集成。jvzquC41yy}/cun{wp4dqv4rtqjve}4xu
6.2025百度云智大会举行百舸AI计算平台迎来5.0版本升级昆仑芯超齐鲁网•闪电新闻8月28日记者从今天开幕的2025百度云智大会上了解到,百度智能云对AI计算基础设施进行了全面升级,正式发布百舸AI计算平台5.0全新版本,在网络、算力、推理系统,以及训推一体系统等四大方向上,实现了全面的能力提升,用以打破AI计算效率瓶颈。 jvzquC41uf~x0rvknw4dqv4ujcxf1bX2{OY1zWoezPJV6W|??0nuou
7.定义为“AI计算公司”,业绩大幅下滑的英伟达新变量在哪?眼下这个时代,不谈人工智能概念就不好意思提自己是科技公司,但是实际上,无论是人工智能在哪个领域的应用,最底层的核心还是数据、算法和芯片,并行计算和云计算技术革新是人工智能产业前进的幕后推手。 GPU一个非常重要的作用就是提供数据中心的AI计算能力,如果将数据比做计算机的生活经验,那么学习这些数据并找到价值就是jvzquC41pg}t0qjzwp4dqv4423?.2;24717:8;=28:7/j}rn
8.奥尔特曼:OpenAI计划直接出售计算能力,剑指“AI云”|IT之家|奥尔特曼:OpenAI计划直接出售计算能力,剑指“AI云” (来源:IT之家) IT之家 11 月 10 日消息,行业媒体 Business Insider 于 11 月 7 日发布博文,报道称 OpenAI 首席执行官山姆・奥尔特曼表示,OpenAI 正在寻求“直接向其它公司出售计算能力”的方法,暗示 OpenAI 将和亚马逊、微软和谷歌的云服务直接竞争。jvzq<84m0uooc7hqo0io1jwvkerfa>>753>:;<7a388e8@=4e2<82
9.微软重拾昔日辉煌:反超苹果自2002年以来重回全球市值第一押宝云计算和AI 微软在市值上的一路高歌很大程度上要归功于过去12个月,微软的股价上涨了30%。 11月5日,苹果的评级第二次被华尔街投行的分析师下调后,它的市值终于跌破了万亿美元大关。 而美股市场上跌跌不休的不仅仅是苹果。 曾经领跑大盘的美股科技股风向标FAANG,如今已经沦为难兄难弟,股价也已全部跌入熊市。 jvzquC41hktbplj0gcyuoxsg{0ipo8f142793;53;;=389=8:0nuou
10.nvidia英伟达TeslaT4GPU显卡16GB图灵架构加速AI运算高性能nvidia英伟达Tesla T4 GPU显卡 16GB图灵架构加速AI运算 高性能计算卡,英伟达/NVIDIA Tesla T4 16GB 图灵架构/光线追踪tel:13910098771 NVIDIA Tesla P40 专业运算显卡丽台NVIDIA TESLA P40深度学习机器GPU加速卡HPC超算卡桌面虚拟化 ,英伟达TESLA P100 12G 深度学习GPU加速卡高端运算显卡,英伟达GTX TITAN V Volta 泰坦V高jvzquC41yy}/cyu390ipo8xwrrrz1xkhgtjfvjnn1;;24B970jznn
11.利用机密计算确保AI安全性|NVIDIACTO 参加有关机密计算、常见用例、技术挑战和认证的小组讨论,并对该技术(尤其是 AI)的未来做出预测,由 Felix Schuster (Edgeless Systems CEO) 主持。 立即观看 NVIDIA GPU 上的高性能机密计算 安全专家、NVIDIA 高级总监和杰出架构师参加的高性能机密计算相关会议。 jvzquC41yy}/pnfkc4dp8icvc3dgwygt1ypn~ykqpy0exshkfkovrfn/eunr~ykpi5