当前位置: 江南文明网 > 科技 >

站在巨人头上抄作业

条评论

站在巨人头上抄作业

1、这两天,原阿里技术大牛贾扬清的一条朋友圈四处飘荡,直接炸翻了大模型圈。大牛是这样吐槽的:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……

2、虽然大牛没点名,但大家很快找到了原型,李开复的零一万物,6号他们刚发布Yi系列开源大模型Yi-34B和Yi-6B,并且横扫各项中英文评测榜单。所以今天他们出来回应,核心意思有两点,一是道歉,不是刻意隐瞒来源,而是为了充分测试模型留下的疏忽;二是说现实,大模型社区技术架构现在处于接近往通用化逐步收拢的阶段,国内已发布的开源模型绝大多数采用GPT/LLaMA的架构。言下之意就是,大家都抄作业,谁别取笑谁。

3、几个知识点,一是LLaMA是Meta旗下开源免费商用的开源大模型,好用程度遥遥领先;二是国际主流大模型都是基于Transformer的架构,LLaMA抄的是Chinchilla,chinchilla抄的是Gopher,Gopher抄的是GPT3,都是一两行的改动,国内也这样;三是大模型的架构虽然一样,但能通过不同的训练方法和数据配比进行创新。有人举例说就像吃北京烤鸭,原材料和烤制步骤是固定的,但不同厨师总能弄出不同味道,比如挂炉和焖炉。

4、结论就一句话,大模型架构层面的自研创新已无路可走,只有Transformer一条路。这也能解答一个疑惑,为啥国内企业每隔几天就能上线一个大模型,大家都是站在巨人的肩膀上微调,最后变成自己。还是从模仿到创新的老路。所以零一万物也说自己把大部分精力用在调整训练方法、数据配比、数据工程、细节参数等。

5、枪打出头鸟。李开复是今年3月宣布亲自带队成立一家AI2.0公司,研发通用大模型。7月定名零一万物,四个月后Yi系列大模型产品面市。最新一轮融资来自阿里云,估值已经超过10亿美金。这背后离不开李开复的资历和背书。李是创新届的精神领袖,前几个月《时代》评选全球AI人物,李和robin都上榜了,所以这次出事后,有人调侃“李开始复制”了。

6、这种大家看热闹,内行看门道的事就得大佬下场。百度李彦宏今天有场公开演讲,其实就是不点名批评了李开复和零一万物。Robin说目前中国大模型很多,但是基于大模型开发出来的AI原生应用却非常少,“AI原生时代,我们需要100万量级的AI原生应用,但是不需要100个大模型。”

7、最近几天下场的大佬,都踩到了热点。比如刘銮雄上周五在华人置业的记者会上露面,就被问许家印的事,主要有三点,第一没联系许,估计谁也联系不到,第二,没见过恒大歌舞团,自己可不是这种用女色做生意的style,第三,恒大股债确实给他带来巨额亏损。还说当初没听甘比脱手恒大是怕火上浇油,纯属讲义气了。