英特尔最新架构浅谈英特尔新平台CSL愿景

为玉树祈祷 2023-04-10 01:27:13

在Intel工作了近12年，5年前离开，但是每到英特尔发布新的产品和技术，读文档的时候，大脑会自动调度出那段时间的词汇和思维模式，也不知是好事坏事。比如看到新一代CodeName叫Cascade Lake（CSL）的14纳米XEON处理器体系架构，一看codename, 脑子里就会去想这是沿用了英特尔哪个site工程师熟悉的local地名。

就好像在阿里云呆久了，你的上古神话的文化功底就会渐长一样, 飞天，盘古，伏羲，女娲，玄铁，含光，一个个都特别有味道 - 除公司文化之外，这种起名的规则透露着一个公司的审美，而审美，最能体现一个人的综合能力，并具备不可复制的特点。

英特尔最新架构浅谈英特尔新平台CSL愿景(1)

美国的地名也和中国类似（实际上和很多国家类似），具备分数维的自包含结构 - 就像在国内很多城市都可以看到中山路，Cascade Lake是在美国华盛顿州中北部一狭窄湖泊，号称深度排名第三，第四大湖，字面意思“瀑布湖”，按照东方文化的习惯，这名字好歹有一些微言大义 - 比如Scalable ，3D-Xpoint的Optane memory - 这些想象一点儿道理都没有，就像咱们吃啥补啥的形神互补之说一样, 到底取名有什么特别的意思，还等英特尔朋友英特尔最新架构浅谈英特尔新平台CSL愿景(2) 留言。

我们过去总结Intel的创新，常常提到的三条车辙是，一是对摩尔定律坚定不移的坚持，二是半导体制程和架构协同创新，三是跨平台统一的Intel Architecture。物理极限的逼近和异构处理器，AI的兴起，驱动着英特尔在这三个方面主动创新 - Cascade Lake，是英特尔最新的 “处理器制程（Processor） - 架构（Architecture) - 优化（Optimization）”三步迭代的“优化”级产品 - 也就意味着，CSL是针对上一代14纳米Skylake 平台的一次优化改进，而非架构和制程更新换代。

考察Intel每一代处理器的微架构，一种方法是用学院派的英特尔最新架构浅谈英特尔新平台CSL愿景(3) Apple vs. Banana 的方式去解释微架构“为什么”这样设计的各种“tradeoff”，就是分析和折中。另一种，其实一直是英特尔处理器演进的一个重要方法，也是安迪.格鲁夫阐述的“在炉膛上相应位置开窗口检测性能指标”的方法论 - 通过面向特定的基准测试的结果，来优化平台设计 - 这一次，Cascade Lake的设计，在HPC workload之外，更多考虑了AI人工智能计算框架和HPDC（High Performance Data Analytics）融合计算的趋势。英特尔发布的第二代可扩展处理器，显然是面向服务器级别（当下的AI workload级别都在服务器集群水平，处理云平台尺度的海量数据），特别针对HPC和AI融合的算法和workload进行设计，每个插槽CPU配备56核，12个DDR4内存通道达到高密度处理结果。而HPC的计算内核通常是对大规模循环迭代的向量化解算，深度学习亦然 - 增加了A 英特尔最新架构浅谈英特尔新平台CSL愿景(4) VX-512 向量化神经网络指令（VNNI）来支持快速深度学习推理，如下图所示：

英特尔最新架构浅谈英特尔新平台CSL愿景(5)

CSL 可扩展平台除了在处理器内核部分面向HPC，HPDA和AI“算子内核“进行了优化，自然一定要英特尔最新架构浅谈英特尔新平台CSL愿景(6) 关注为优化的计算内核提供”随时吃得饱“的内存子系统，这一次增加了Optane (傲腾）数据中心级持久内存，以及针对无需代码改动的直接memory模式和新的英特尔最新架构浅谈英特尔新平台CSL愿景(7) APP Direct model来保持那些上电后仍在非易失内存里的图片，音乐或者上一次“有状态数据”，这对于互联网，AI和高性能数据分析领域无疑有莫大好处 - 虽然这两种模式切换还需要通过BIOS做到。

英特尔在通用处理器XEON系列的设计上，持有一个理念，就是HPC，AI和HPDC必然走向融合趋势，而这个融合是建立在面向传统HPC应用的XEON平台设计之上的 - 在面向XEON扩展处理器上，增加快速AI推理的A 英特尔最新架构浅谈英特尔新平台CSL愿景(8) VX-512 VNNI指令集，并且通过Optane非易失持久性存储来加速AI和HPDC类大量随机读写小文件，大并发的应用IO- 通过PMDK实现。除了计算内核部分的高度相似 - 浮点密集型的data crunching, 三类应用的差别主要在IO和存储上，AI和HPDA应用（HPDA包括大数据分析）的负载倾向于从存储大量而频繁的读操作，高度随机（iops限制）的流式数据访问（带宽限制）- 特别是数据库和非结构数据访问时-这些是TensorFlow，Spark，Hadoop的世界。而HPC负载则相反，是大量的并行写文件操作，而特有的断点续算Checkpoint操作则有大量爆发式写优化操作 - 后者由并行文件系统IO实现。从2014年左右开始，记得当时在Intel支持IEEL的一个尝试，就是将Hadoop的HDFS通过一个Agent转换，可以复用HPC的POSIX共享文件系统Lustre, 从而节约掉多份Copy的HDFS和Shuffer操作，并将HPC离线计算输出的模型，和线上的预测计算英特尔最新架构浅谈英特尔新平台CSL愿景(9) 结合 - 当前，使用HPC的并行调度系统Slurm, Moab, Torque和LSF来支持大数据架构Hadoop，Spark， HBASE，Kafka等应用架构的项目，在各大研究机构仍在发展（比如Magpie和此前英特尔的HAL）- 我想这背后的融合理念，是面向HPC AI 深度学习（训练）设计的强大的计算力，可以通过软件设计的融合，支持分布式预测和大数据分析处理 - 这在金融领域已经发生：基于蒙特卡洛积分和Black-Scholes期权定价模型的金融领域HPC算法，已经被证券业和反保险欺诈引入 - 在此数据基础上，对人的金融行为的机器学习正把HPC从“数据辊压”通过AI和数据分析为商业和人群提供决策依据。

英特尔最新架构浅谈英特尔新平台CSL愿景(10)

高性能计算（HPC）对于运行大型仿真和分析工作负载至关重要，这些工作负载可促进科学进步，产品创新和国家竞争力。随着越来越多的人工智能（AI），高性能数据分析（HPDA）和建模/模拟工作流，需要扩展高性能计算基础架构以应对这些工作流的挑战。这种融合正在扩展HPC的范围，并使HPC基础架构比以往更加重要。换一个角度看，HPC模拟和仿真作为对象的物理世界：“We model the world”, AI拿到HPC的结果，学着模拟人类的思考模式，说, “We model the mind” 开始分析，最后，HPDC出手说，把你们的结果拿来：“We combine the world and mind” - 打造通用处理器平台的英特尔，期望将这些全部支撑起来。作为以通用处理器平台包打天下的英特尔，面临异构计算GPU，FPGA和AI芯片的加速发展，需要螺旋形上升来因应一款“在通用workload压力上”通吃HPC、AI和HPDA的平台 - Xeon Scalable platform 仅仅是2nd Generation, 拭目以待。

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

英特尔最新架构浅谈英特尔新平台CSL愿景

猜您喜欢

道德经的智慧从哪四个方面普通百姓理解的道德经

即将发售的所有yeezy 市价最高的Yeezy700

监理中标100强名单 2022年第三季度江苏施工

哥哥张国荣中文哥哥张国荣沉默是金

沉默是金歌曲讲述着什么道理沉默是金这首歌教导的人生道理

刀豆糖醋排骨汤的做法赵歆宇的菜蒜香拆骨肉

鳝鱼功大战蝎子功是什么电影鳝鱼功大战蝎子功

热门推荐

排行榜

英特尔最新架构 浅谈英特尔新平台CSL愿景

猜您喜欢

热门推荐

排行榜

英特尔最新架构浅谈英特尔新平台CSL愿景