在人工智能领域,清华大学联合智谱AI于2022年8月向研究界和工业界开放了一款卓越的中英双语稠密模型GLM-130B。
此模型具备一系列独特优势,如支持中英文双语、高精度、快速推理等。现在,参考ChatGPT的设计思路,
基于GLM-130B模型的ChatGLM注入了代码预训练,并通过有监督微调等技术实现了人类意图对齐。
开源的ChatGLM-6B,成为一款支持中英双语问答的对话语言模型,并在中文优化上做了重要改进。
ChatGLM-6B采用了General Language Model(GLM)架构,拥有62亿参数,结合模型量化技术,用户可以在消费级显卡上进行本地部署,显存需求最低只需6GB。与千亿模型相比,ChatGLM-6B规模较小,但大大降低了推理成本,提升了效率,并能生成符合人类偏好的回答。
ChatGLM-6B的主要特点如下:
- 充分的中英双语预训练:通过在中英文语料上进行1T token的训练,ChatGLM-6B具备双语能力,为用户提供全面的问答支持。
- 优化的模型架构和大小:在借鉴GLM-130B训练经验的基础上,ChatGLM-6B修正了二维RoPE位置编码实现,采用传统的FFN结构。
- 62亿的参数规模使得研究者和个人开发者能够自行微调和部署ChatGLM-6B。
- 较低的部署门槛:ChatGLM-6B在FP16半精度下推理,最低仅需13GB显存。
- 而结合模型量化技术,显存需求可进一步降低到10GB(INT8)和6GB(INT4),使得该模型可以在消费级显卡上得以部署。
- 更长的序列长度:相较于GLM-10B的序列长度1024,ChatGLM-6B提供了长达2048的序列长度,支持更长对话和更广泛的应用场景。
- 人类意图对齐训练:ChatGLM-6B借助监督微调、反馈自助和人类反馈强化学习等方式,使得更好地理解人类指令意图。
- 模型输出格式采用Markdown,方便展示和应用。尽管ChatGLM-6B模型容量较小,但它也存在一些局限和不足,包括:
- 相对较弱的模型记忆和语言能力:在面对许多事实性知识任务时,ChatGLM-6B可能会生成不正确的信息。它在解答逻辑类问题(如 数学、编程)方面也不太擅长。
- 可能会产生有害说明或有偏见的内容:作为初步与人类意图对齐的语言模型,ChatGLM-6B有时可能会生成有害或有偏见的内容。用户需注意使用该模型时的审慎性。
- 较弱的多轮对话能力:ChatGLM-6B在上下文理解方面还有待进一步加强,对于长答案生成和多轮对话场景可能会出现上下文丢失和理解错误的情况。
GLM团队表示,ChatGLM仍有一定距离国际顶尖大模型研究和产品,他们将继续研发并开源更新版本的ChatGLM和相关模型。
同时,他们欢迎研究者和开发者下载ChatGLM-6B,并在非商业应用的研究和开发中加以利用。
通过开源的ChatGLM-6B,我们可以获得一款高效部署的智能助手,它以中英双语问答为特色,并通过优化的模型架构、
较低的部署门槛和更长的序列长度提供了更好的用户体验。尽管存在一些限制,但ChatGLM-6B仍然是一项令人期待的工具,
为我们探索自然语言处理和人工智能领域的发展带来了新的可能性。
您好!请登录