当前位置: 江南文明网 > 科技 > 智能 >

每周有超100万行代码在开源AI领域创建

条评论

每周有超100万行代码在开源AI领域创建

“现在每周有超过100万行代码在开源AI领域中被创建,有无数优秀的社区成员做出贡献,我觉得开源的下一代ChatGPT指日可待。”5月27日,在上海举办的2023全球开源技术峰会期间,LF AI & Data基金会执行董事、PyTorch基金会执行董事易卜拉欣·哈达德(Ibrahim Haddad)在接受澎湃科技(www.thepaper.cn)专访时,谈到了大语言模型的开源现状。

开源(OpenSource)即开放源代码,用户可以利用源代码在其基础上修改和学习。峰会期间,开源中国董事长马越在接受澎湃科技采访时谈到,用户基于兴趣来到某个开源项目,在源代码的基础上不断改进,在此过程中,一部分优秀项目就会得到发展并商业化。

马越回忆到,开源起源于欧美,中国曾经不是开源的强国,只是开源应用的大国。但如今随着技术与经济环境发展,开源不再单纯是“为爱发电”的模式,生态已经发生了翻天覆地的变化,如今国内已有多家覆盖全领域技术内容的综合社区,且拥有丰富的奖励机制来维护生态,这个过程中孕育出了许多优秀的开源项目,例如OpenHarmony(鸿蒙操作系统的开源版本)。

谈到开发者与开源生态的关系时,马越指出,“没有开发者的生态,不能称其为开源生态,一个不能持续吸引更多开发者的生态,注定也会枯萎。”马越还表示,数字化转型的最大阻碍,是代码没有成为企业资产,“目前许多企业陷入了‘灯下黑’的状态,开发了无数代码,需要修改时,却找不到对应的内容,这些代码无法成为企业资产。软件本质上的核心价值是为了复用,而这正是开源要解决的问题。”

“开源AI项目会诞生下一个ChatGPT”

自聊天机器人ChatGPT及其背后的GPT大模型爆火之后,一些开源大模型也在最近几个月引起了业界高度关注,包括Meta的LLaMa、复旦大学的MOSS和Databricks的“多莉(Dolly)”等。

在采访中,哈达德十分肯定,AI相关的开源项目会在未来产生下一个ChatGPT,“开源能够加速大语言模型(LLM)的开发和创新。”他说,“事实上,许多行业内的组织都意识到,要想实际训练这些模型,需要太多的数据、太多的精力和太多的云服务。因此,开源方面的协作是必不可少的。在面对复杂问题时,需要许多组织携手合作,共同应对这些难题。”

哈达德解释称,建立一个开源的大语言模型需要很多模块,“要实现真正的开源,至少需要七八个不同的模块都以开源形式提供。这需要多个组织共同努力。”

哈达德认为,最重要的模块是用来训练的数据集,必须在Linux基金会的开源许可下使用。“我们和成员公司定义这个特定的AI数据开源许可证为CDLA(community data license agreement),公司们可以使用这个许可证来开源数据。”其次是模型架构本身,以及公司用于构建模型的支持工具和库,还有模型的权重和参数、文档等。这些都是大模型生态需要以开源形式提供的模块,它们可以帮助其他人获取这些信息并运行模型,使用相同的方式和基准进行训练。通过提供所有这些信息,其他人可以在此基础上做出贡献,这也是一种建立信任的方式。

事实上,LF AI & Data正在着手做这件事,该基金会是Linux基金会旗下专注于人工智能、机器学习、深度学习和数据的子基金会。哈达德表示,自2018年成立以来,LF AI & Data一直专注于建立社区和生态。而下一阶段,“我们将专注于AI,特别是生成式人工智能。”“人工智能技术的应用潜力巨大,现在很多人对这项全新技术仍然知之甚少,甚至不知道他们正在与人工智能系统或人工智能生成的语音或文本交互。”

哈达德认为开源极大地推进了人工智能的发展,他用几个关键数据举例称,LF AI & Data在2018年开始做AI开源生态系统时,只有大约70个项目被认为是关键项目,而现在已经增加到了350个。这些项目提供了超过6亿行代码,可供任何人选择、使用。“现在,每周有超过100万行代码在开源AI领域中被创建,可以看到如今AI开发和创新的速度都非常快。”