阿里云与中国大模型「半壁江山」的闭门交流里,聊了什么?
国内的科技创新历史上,从没有哪一次像大模型技术这样,短短几个月就建立了「科技圈共识」。
我 1998 年入行科技圈,见证了 PC 时代、互联网时代、移动互联网时代这几个时代变迁,从来没见过这么迅猛的「共识达成速度」。就拿极客公园的创业者社区 Founder Park 来说,因为比较早关注到大模型领域的技术变化,在短短 4 个月时间就新增了 15 万关注者,社区成员已经扩充到七八千人之多。
就在昨天,首批国产大模型通过备案,又点燃了人们的热情。备案制管理,意味着对大模型发展的政策上的宽松,这也意味着大模型在国内的商用和产业化将真正开启。
只不过「共识」达成的太快也会有让人担心的地方,因为这个技术还在早期发展阶段,也还做不到「水银泻地」般落地到广泛领域。
客观地说,如果相信大模型技术带来了 AGI 的曙光,那么就要坦诚看到其真正产品化,并成为生产力,现在才算开始探索。那些在一线的创业公司经历的 KnowHow 和问题,恰恰是最值得被汇聚起来的星星之火。
基于这个想法,阿里云联合 Founder Park 邀请了 20 多位中国大模型领域模型层、工具层、应用层的优秀创业者,到杭州西溪湿地做了一场面对面的闭门交流。
阿里云董事长张勇还给这场闭门会取了一个很好的名字——「西溪论道」。这场长达五个小时的闭门会,张勇就坐在我旁边,全程参与到创业者的群聊,我看他笔记就写满了好几页纸。
8 月 23 号,西溪论道参会者合影
看得出来,阿里云作为算力基础设施层应该如何与这几个层面连接与共创,如何支持各个层面的创业者做好大模型用好大模型,这是张勇最关心的话题。这显示了阿里云跟国内其他公司完全不同的姿态,如何促进大模型生态繁荣才是阿里云最关心的事情。
这些堪称国内大模型领域最积极最活跃的力量,从下午两点一直聊到了晚上九点,从产业的多个层面,立体地做了交流碰撞,也从各自的最新实践中聊出了很多有洞见的观点。按照他们的说法,在这里一起讨论,听到了很多真话,很多「真情实感」。
我整理了一部分印象深刻的要点,用这篇文章也分享给大家。
01 关注大模型,更需要关注 infra
现在全球任何一个地方,做大模型,最稀缺的资源除了人才,就是 GPU。
百川智能创始人&CEO 王小川分享他去硅谷和朋友聊到,英伟达一年的 GPU 出货量在 100 万颗,但 OpenAI 说要设计 1000 万颗 GPU 连在一块的超算。
所以 GPU 到底多少算够,有限的算力有解吗?
创新工场董事长、零一万物创始人李开复表示,尽管千万张 GPU 是天方夜谭,但是「大力出奇迹」的暴力美学是有背景的。强化学习之父 Richard Sutton 在《The Bitter Lesson》(《痛苦的教训》)中指出:过去七十年,想在 AI 里放一点知识进去,想要增加一点能力,想调一调模型架构,最后发现基本没有价值。唯一推动过去七十年 AI 进步的力量,就是一个通用且可扩张的计算能力。计算能力增强了,相应地带动算法、带动数据的进步,这是大力出奇迹的背景。