2022 年的 AI 开发工具和大模型演进丨XDC 2022
GPT-3 的出世引发了 AI 大模型的热潮,两年过去了,产业界是否驯服了大模型?大模型又是否具备了成为 AI 基础设施和商业模式的潜力?事实上,GPT-3系统的流畅程度对很多人来说是一个巨大的飞跃,但它仍然存在一些问题,它可以编写与人类极度相似的文字,写一部引人入胜的超现实主义小说,但却无法保证语言的准确性——它的输出符合语法,却让人无法理解。
大模型在近两年来已经应用到了许多场景,它可以提供计算服务,进行写作、创新点子、面试题、商标等多个内容的辅助生成,在中低速应用场景中也有不错的表现。但是,在高速、高并发的应用场景中,大模型还有许多技术难点需要突破。
当我们将视野转向底层的AI开发工具,会发现那些备受关注的深度学习框架也有很多进展。transformer高速发展,在视觉任务领域的适用性已经被证明,在音频文本序列任务也基本革了RNN的命,成为了NLP、CV、ASR等领域的主流模型。由各厂商优化的工具、开源 AI 框架等也将端与端的高性能AI应用进一步优化。未来,不论是AI开发工具还是大模型还会进一步发展,应用到更多场景,实现更多突破。
演讲主题:如何利用 Intel 加速工具构建端到端的高性能应用
介绍 Intel AI 方案及软件生态,并分享如何利用 Intel 优化的 Python 工具、开源 AI 框架等优化端到端的高性能 AI 应用。
演讲大纲:
-
Intel 的 AI 加速计算平台
-
面向 AI 开发者的 Intel AI 软件工具加速数据、模型和部署
-
高性能应用的端到端 AI 应用实例
演讲嘉宾:
夏磊 英特尔人工智能首席工程师、首席架构师
现负责支持中国数据中心客户,在 IA 架构上利用 Intel 最新硬件加速方案进行 AI 领域的技术合作。长期支持各行业,利用人工智能、视觉计算、传感器等领域技术进行应用创新。
演讲主题:Transformer 系列模型量化训练与推理
Transformer 系列模型已经成为了 NLP、CV、ASR 等领域的主流模型,因此如何更快地训练和推理 Transformer 模型成为业界研究的一个重要问题。低精度量化技术通过降低数据的位宽来大大加速计算和通信过程,因此成为了训练推理加速的一个重要手段。但与此同时,量化会造成精度和效果上的损失,需要通过量化感知训练等手段来减轻损失。业界目前还没有一款工具,可以同时实现 Transformer 模型的量化训练、量化推理和精度无损。因此 LightSeq 针对这些重难点进行了研究,首次在业界实现了全套功能。 具体实践上,LightSeq 通过 int8 GEMM 实现了真量化训练过程,而不是业界广泛使用的伪量化方法,因此训练速度提升了 10 倍以上。而通过 PACT 等量化策略,可以将量化训练的损失减小到最低。在将量化模型导出为 LightSeq 支持的格式之后,可以进一步使用 LightSeq 量化推理引擎实现快速推理,在 T4 显卡上提速最高 70%。LightSeq 开箱即用,支持 Transformer、BERT、GPT 等多种模型的量化全流程,提供了丰富、多层级的 API 和使用示例。
演讲大纲:
-
Transformer 和量化背景介绍
-
量化感知训练技术
-
量化位置
-
训练策略
-
显存管理
-
-
量化推理技术
-
算子融合
-
显存管理
-
-
性能分析
-
系统架构及使用示例
演讲嘉宾:
韦阳 字节跳动 AI Lab NLP 算法工程师
主要研究机器翻译、模型优化方向,是模型训练推理加速项目 LightSeq 的核心开发者之一。
演讲主题:源1.0大模型及开源开放进展
将从业界现状、源1.0大模型创新与实践、应用落地等角度,讲述源1.0大模型及开源开放的进展。在数据上,将结合“源1.0”海量数据处理平台,讲述如何对 2017 至 2021 年间 866TB 互联网海量数据进行清洗并获得 5TB 大规模高质量中文数据集。在算法上,将结合“源1.0”讲述大模型算法实践的技巧,及如何在 2128 颗 GPU 集群上取得业界领先的训练性能。在应用上,将结合“源1.0”大模型的开源开放计划,讲述源1.0在写作、对话、虚拟人等领域的应用情况,探讨大模型的落地。
演讲大纲:
-
业界现状分析
-
源1.0创新及实践
-
源1.0应用落地
演讲嘉宾:
吴韶华 浪潮信息 AI 软件研发总监
研究方向为人工智能与分布式计算,带领团队研发了 2457 亿参数的“源1.0”大模型。当前致力于认知理论及方法、大规模分布式训练等方向研究。
演讲主题:Vertex AI 助力大模型搜索和训练
预训练大模型已经成为 AI 应用落地的新范式,但大模型对数据、算力和算法都提出了新的挑战。Google 在应用、算力、算法及 AI 开发工具上大手笔动作不断:基于多模态的图文搜索 MultiSearch,基于 TPUv4 超强算力世界最大的 ML Hub,帮助搜索更好模型的 Vertex NAS ,一站式的 AI 训练和推理工具集 Vertex AI 等等。
演讲大纲:
-
AI 前沿新范式: 万亿参数级预训练大模型
-
Vertex NAS 搜索下一个 SOTA 网络结构
-
9 ExaFlops 世界最大公开可用 ML Hub
-
Google Cloud TPU/GPU 分布式训练实践
演讲嘉宾:
王顺 Google Cloud AI/ML 专家
协助和赋能中国出海企业客户在 Google Cloud 上进行 AI/ML 相关业务的实践,包括在 TPU/GPU 上进行超大规模深度学习模型的分布式训练;部署端到端的一站式机器学习训练平台和 MLOps 最新实践;CV、NLP、Speech、多模态模型生产部署,A/B 测试和性能优化;定制化解决方案的协作开发,比如电商推荐系统、基于图文等多模态模型训练等。在加入 Google Cloud 之前曾在人工智能初创公司旷视负责及参与多项 AI 技术在企业落地,包括人脸识别、证件 OCR、淘咖啡无人店等项目。
演讲主题:PPL:高性能推理在车载智能场景下的应用与实践
推理引擎作为连接算法模型与产品落地的部署平台核心组件,是 AI 大装置赋能百业的重要一环。商汤 PPL 是国内最早的自研推理引擎之一,目前服务于安防、金融、手机、娱乐互联网、智能硬件和智能驾驶等多个 AI 重点赋能领域。本次演讲将分享商汤 HPC 团队对于推理部署的技术思考和性能优化经验,并以车载智能案例为例,讲述如何协同业务团队,在不同硬件平台上进行适配,并完成端到端的推理优化提升。最后,本次演讲也将分享 PPL 的进一步开源计划,与开发者共同探讨 AI 部署的挑战与未来,助力国产 AI 生态的繁荣。
-
商汤自研高性能推理引擎 PPL 的发展与演进
-
PPL 性能优化经验分享
-
硬件架构特性分析
-
基于 Arithmetic Intensity,探索优化方向
-
基于微架构的指令集调优
-
-
PPL 落地实践
-
绝影智能车舱
-
车载智能部署的难点与思考
-
基于 PPL 的高性能车载解决方案
-
硬件适配,通用平台全场景加速
-
-
社区开源计划:OpenPPL
-
PPL 的挑战与未来规划
演讲嘉宾:
许志耿 商汤科技高级系统研究员
商汤科技高级系统研究员,推理引擎 PPL CPU 与加速器方向负责人。本硕毕业于上海交通大学计算机系,研究方向为高性能计算。曾参与神威·太湖之光超级计算机上的科学计算核心深度优化;建立了 AI 加速器上的商汤自研推理引擎。在 PARCO、IPDPS、ICPP 等国际会议和期刊上发表过多篇论文。目前在商汤科技高性能计算与推理部门负责 CPU、DSP 和 NPU 等架构方向的推理引擎研发与业务落地。
转载自:https://juejin.cn/post/7120119025677369374