首个全面开源的千亿模型来了

昨天，浪潮信息发布源2.0基础大模型，并一口气开源了1026亿、518亿、21亿三个大模型！而在编程、推理、逻辑这些老大难问题上，源2.0都表现出了令人印象深刻的性能。

国内首个全面开源的千亿模型，来了！

就在昨天，浪潮信息正式发布源2.0，无论是2B、51B，还是102B，统统都开源。

这一次，源2.0不仅在数理逻辑、数学计算、代码生成能力上，再次超强进化。

而且，还在算法、数据、算力方面，提出了三项创新。

开源地址：https://github.com/IEIT-Yuan/Yuan-2.0

算法方面，源2.0提出并采用了一种新型的注意力算法结构LFA（局部注意力过滤增强机制，Localized Filtering-based Attention），对于自然语言的关联语义理解更准确。

数据方面，源2.0使用中英文书籍、百科、论文等高质量中英文资料，降低了互联网语料内容占比，增加了高质量的专业数据集和逻辑推理数据集。

算力方面，源2.0采用了非均匀流水并行和优化器参数并行的分布式训练方法，显著降低了大模型对芯片间P2P带宽的需求。

源2.0：国内千亿级模型首次全面开源

从评测结果来看，不管是在HumanEval上，还是在GSM8K、高考数学上，源2.0模型都超过了ChatGPT，甚至接近GPT-4的精度。

由于源2.0具备生成单元测试的能力，因此团队在HumanEval评估中使用了SC（自洽性，Self-Consistency）方法。也就是，采用由源2.0-102B生成的单元测试作为评判标准，选出成功通过单元测试的候选者。

结果显示，自洽性可以显著提高模型的的性能。比如，HumanEval评测的正确率提升了10.3%，GSM8K提升了9.6%等等。

图片新闻