当前位置: 江南文明网 > 科技 >

李开复被大模型绊了一跤

条评论

李开复被大模型绊了一跤

近期,今年3月份从阿里离职投身AI大模型创业的贾扬清爆料称,在帮助海外客户适配国内某一新模型中,被朋友告知该模型用的其实是LLaMA架构,仅在代码中更改了几个变量名。

尽管贾扬清并未点出开发上述新模型的具体公司名称,但种种迹象都指向了李开复的零一万物。11月6日,零一万物刚刚发布了“Yi”系列开源大模型——Yi-34B和Yi-6B。

 

针对外界质疑,11月15日,零一万物在回应盒饭财经中承认,在训练模型过程中,沿用了GPT/LLaMA的基本架构,但“就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于Transformer的架构……国内已发布的开源模型也绝大多数采用渐成行业标准的GPT/LLaMA的架构。”

如果把模型训练过程比做一道菜,“架构只是决定了做菜的原材料和大致步骤……要训练出好的模型,还需要更好的‘原材料’(数据)和对每一个步骤细节的把控(训练方法和具体参数)。”零一万物进一步解释道。

在贾扬清站出来爆料之前,有关零一万物模仿LLaMA架构的指控已经开始在开源社区内发酵。

9天前,convai高级人工智能应用专家埃里克·哈特福德在Huggingface上发帖称,“Yi-34B 模型基本采用了LLaMA的架构,只是重命名了两个张量。”

8天后的11月14日,Yi团队开源总监Richard Lin在该帖下回复称,哈特福德对张量名称的看法是正确的,零一万物将把它们从Yi重命名为Llama。

在今天盒饭财经收到的最新回复中,零一万物提到:“对于沿用LLaMA部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充LLaMA协议副本的流程中,承诺尽速完成各开源社区的版本更新。