有着“OpenAI劲敌”之称的人工智能初创公司Anthropic即将成为首批使用谷歌新一代TPU芯片的公司之一,在最近达成云计算服务协议后,此举进一步加深双方的合作关系。两家公司当地时间周三表示,Anthropic将部署谷歌Cloud TPU v5e芯片,为其名为Claude的大语言模型(LLM)提供硬件支持。
ChatGPT最强竞品Claude,以及类似ChatGPT的生成式AI应用程序通常使用大量数据来训练人工智能界面,让它们回答问题并生成基于人类逻辑的对话文本,而生成式AI成功运行的背后离不开最核心基础设施——AI芯片的支撑,目前这一领域几乎被英伟达GPU所垄断。美国银行和花旗统计数据显示,英伟达在AI芯片领域份额达到惊人的90%。
谷歌TPU——为AI而生
但是,谷歌正在将“谷歌TPU”这一用于谷歌内部服务器的AI专用芯片推向全球各大科技公司。目前,谷歌正在大规模使用TPU芯片来支持旗下应用产品,比如聊天机器人巴德以及谷歌云平台。当前,谷歌高达90%以上的人工智能训练工作都在使用这些芯片,TPU芯片体系支撑了包括搜索引擎在内的谷歌主要业务。
谷歌云平台首席执行官Thomas Kurian表示,最新款的TPU芯片正在成为谷歌云的最大卖点之一。除了Anthropic,其他在人工智能领域备受瞩目的初创公司,如Hugging Face和AssemblyAI也在大规模使用谷歌TPU芯片。
从技术层面上来看,与英伟达A100/H100等通用型GPU 相比,谷歌TPU设计初衷正是专注于深度学习领域,尤其是全面加速神经网络训练和推理效率。英伟达的A100和H100,它们属于广义上的通用型GPU,而不仅仅局限于深度学习和人工智能领域。这些GPU具有通用计算能力,适用于多种计算工作负载,包括但不限于:高性能计算(HPC)、深度学习以及大规模数据分析。
与英伟达通用型GPU相比,谷歌TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,尤其对于中型LLM设计者来说完全够用,因此他们可能不需要依赖高性能的英伟达A100/H100。同时,TPU 使用了脉动阵列等设计来优化矩阵乘法与卷积运算。谷歌TPU追求专注于AI训练和推理,因此精简化部分设计架构,这也是TPU功耗、内存带宽和FLOPS都明显低于英伟达H100的部分原因。
谷歌新一代TPU芯片——Cloud TPU v5e专为提供大中型训练与推理所需的成本效益和性能而设计。TPU v5e Pods能够平衡性能、灵活性和效率,允许多达256个芯片互连,聚合带宽超过400 Tb/s和100 petaOps的INT8性能,使对应的平台能够灵活支持一系列推理和训练要求。