上下文本长度扩大100倍意味着什么？

4000到40万token，大模型正在以“肉眼可见”的速度越变越“长”。

长文本能力似乎成为象征着大模型厂商出手的又一新“标配”。

国外，OpenAI经过三次升级，GPT-3.5上下文输入长度从4千增长至1.6万token，GPT-4从8千增长至3.2万token（token：模型输入和输出的基本单位）；OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token；LongLLaMA将上下文的长度扩展到25.6万token，甚至更多。

国内，光锥智能获悉，大模型初创公司月之暗面发布智能助手产品Kimi Chat可支持输入20万汉字，按OpenAI的计算标准约为40万token；港中文贾佳亚团队联合MIT发布的新技术LongLoRA，可将7B模型的文本长度拓展到10万token，70B模型的文本长度拓展到3.2万token。

据光锥智能不完全统计，目前，国内外已有OpenAI、Anthropic、Meta、月之暗面等一大批顶级的大模型技术公司、机构和团队将对上下文长度的拓展作为更新升级的重点。

毫无例外，这些国内外大模型公司或机构都是资本市场热捧的“当红炸子鸡”。

OpenAI自不必说，大模型Top级明星研究机构，斩获投资近120亿美元，拿走了美国生成式AI领域60%的融资；Anthropic近期风头正盛，接连被曝亚马逊、谷歌投资消息，前后相差不过几天，估值有望达到300亿美元，较3月份翻五番；成立仅半年的月之暗面出道即巅峰，一成立就迅速完成首轮融资，获得红杉、真格、今日资本、monolith等一线VC的押注，市场估值已超过3亿美元，而后，红杉孵化式支持，循序完成两轮共计近20亿元融资。

大模型公司铆足劲攻克长文本技术，上下文本长度扩大100倍意味着什么？

表面上看是可输入的文本长度越来越长，阅读能力越来越强。

若将抽象的token值量化，GPT-3.5的4000 token最多只能输入3000个英文单词或者2000个汉字，连一篇公众号文章都难以读完；3.2万token的GPT-4达到了阅读一篇短篇小说的程度；10万token的Claude可输入约7.5万个单词，仅22秒就可以阅读完一本《了不起的盖茨比》；40万token的Kimi Chat支持输入20万汉字，阅读一本长篇巨著。

上下文本长度扩大100倍意味着什么？

上下文本长度扩大100倍意味着什么？

图片新闻

热门

推荐