根据MIT Technology Review的最新报道,训练大型语言模型从零开始是困难的,尤其是对大多数人来说,这几乎是不可能的。然而,这并没有阻止开源社区的活跃和快速发展。其中,Stability AI首次发布的文本到图像模型Stable Diffusion,凭借其卓越的性能和免费使用的优势,引发了去年图像制作AI领域开源开发的爆炸。
但是,不论是在硬件配置还是在计算成本上,模型的训练难度都会随着模型的增大而增加。目前,大多数团队能负担得起的参数上限大约在60亿到100亿之间。对于GPT-3的1750亿参数和LLaMA的650亿参数来说,这是一个巨大的挑战。尽管模型的大小并不完全决定其性能,但一般来说,模型越大,性能越好。
尽管存在挑战,但Biderman预计,开源大型语言模型周围的活动将继续。但未来的重心将是在扩展或修改一些现有的预训练模型,而不是推动基础技术的前进。Biderman表示,预训练这些模型的组织只有少数几个,她预计在近期内这种情况将维持不变。
值得注意的是,许多开源模型都是基于Meta AI从零开始训练的LLaMA,或者是EleutherAI发布的模型。EleutherAI是一家非盈利机构,它对开源技术的贡献是独一无二的。Biderman表示,中国有一个类似的组织也一直在为开源做贡献。
EleutherAI的起步要归功于OpenAI。在2020年,OpenAI发布了一个热门的新模型。这对很多人来说,是他们对大规模AI思维方式的一次重大改变。Biderman和其他一些研究人员希望通过模型的复制,更深入地理解它是如何工作的。因此,他们决定复制这个模型。
他们的第一步是组织一个庞大的新数据集,包含了数十亿篇文本,以与OpenAI用于训练GPT-3的数据集相匹敌。EleutherAI将这个数据集命名为”Pile”,并在2020年底免费发布。然后,EleutherAI用这个数据集训练了它的第一个开源模型。之后的时间里,微软的投资才逐步开始让算力得到了释放。所以我们应该考虑背后算力的建设与成熟发展,这样才能在AI进化的路上赶上一步。
您好!请登录