今年年初,杨植麟手机里来自投资人的微信好友验证请求开始爆发。急迫寻找人工智能标的的众多投资人听闻了一个消息——杨植麟,开始大模型创业了。
在GPT创业群星中,拥有清华系背景以及广泛学术影响力的杨植麟无疑是耀眼的一颗,拥有漂亮且合适的履历:2015年从清华计算机系毕业后,杨植麟前往美国卡内基梅隆大学攻读博士,师从苹果AI研究负责人Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen,常规六年的博士之路被缩短至四年完成。
博士期间,先后以一作身份,发表 Transformer-XL 和 XLNet两项工作,谷歌学术被引次数近两万。Transformer-XL成为首个全面超越 RNN 的注意力语言模型,论文成为NeurIPS 2019与ACL 2019的最高引论文之一;XLNet则在20项任务上超越谷歌BERT模型,一鸣惊人。
杨植麟从2020年开始确定“大模型是未来”这个观点。当时,OpenAI推出GPT3。这个拥有超过1750亿个参数的模型,在当时成为人类历史上最大的神经网络模型。斯坦福大学的研究认为它已经拥有大约7岁儿童的心智水平。
而这更重要的意义在于,GPT3的出现,让AI的第一性原理逐渐清晰——“足够多的证据证明,只要下一个token预测越来越准确,就会有更多的智能产生。”
“第一性原理”源自古希腊哲学家亚里士多德的观点,指的是用来回归事物基本条件,将其拆分成各要素解构分析,最终得出实现目标的最优路径。
在这一年之前,杨植麟的论文Transformer-XL曾一度被ICLR 2019拒绝,理由是评审不认为大语言模型的提升在实际场景会有更多的价值。
共识的形成需要花费大量的时间。
回到中国,2020年之后,坚信自己已经看到AI的第一性原理的杨植麟,开始希望在做尝试。但此地距离风投机构向大模型频繁开枪,高端人才向大模型公司聚集的场景,还有三年时间。
杨植麟选择了一个折中的方案——寻找合作,自己团队提供技术,对方提供算力资源。但这条路可能要比想象地难走。在一个非共识的环境下,他发现需要重投入的大模型事业运行效率很低,十分坎坷。这一点对大厂、对研究院、对创业公司都是一个很大的挑战。
转机直到去年年底ChatGPT的爆发才开始出现,太平洋的两岸在很短的时间里相继被点燃。在内心回答“此地此时究竟有没有机会”这个问题前,杨植麟去海外考察了两个月,彼岸的“疯狂”让他坚信:很快,在亚洲做一个大模型公司,有机会了。