社区供稿 | Llama3-8B中文版！OpenBuddy发布新一代开源中文跨语言模型-阿里云开发者社区

此次发布的是在3天时间内，我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果：OpenBuddy-Llama3-8B-v21.1-8k。

658d681b-8d58-41ee-8852-3193b0541fbf[1].png

未来，我们计划基于Llama3-8B、70B基座发布更多版本，并针对性地提升模型的中文编码效率和长文能力。

Llama3-8B：刷新10B以下模型的多项纪录

当地时间4月19日，Meta发布了Llama-3 8B、70B两款模型。其中，尤为值得注意的是Llama3-8B模型，此模型在性能、语料规模、算力消耗等方面打破了此前10B小模型的纪录。

根据Scaling Law法则，业界普遍认为8B模型的最佳训练数据规模在0.2T（2000亿）Tokens左右。这种观点被各类开源、闭源模型厂商广泛接纳，并作为训练集规模决策的参考。

与此相反的是，在Llama3中，Meta没有在小模型上遵循现有的Scaling Law，而是投入了巨量的计算资源和数据，用于尽可能提升8B小模型的性能。

根据Meta的技术报告，以及来自NVIDIA的公开信息，Llama3训练过程在二万余张H100卡组成的计算集群上运行，并在8B模型上消耗了共计130万GPU小时数。数据集规模高达15T（15万亿）Tokens，是Scalilng Law所建议的规模的75倍。同时，为了进一步提升数据集的质量，Meta使用了上一代Llama2模型，对训练数据集进行分类和筛选。

技术报告中显示，使用如此巨量的高质量数据训练8B小模型时，模型的性能在后期仍以对数线性的模式不断进步。这意味大量增加数据集带来的收益虽然并非线性，但确实能提升8B小模型的性能。

ae4f8f3e-424d-48c0-a4c8-b985132e3d7b[1].png

基于Meta提供的测试结果，Llama3-8B预训练模型在多个指标上，尤其是在考察模型知识储备和理解能力的MMLU、AGIEval等基准上，均优于之前业界广受欢迎的Mistral-7B模型。

Llama3 License：7亿月活内可商用、更明确的跨语言许可

Llama3模型在商用许可方面和上一代模型相似：总月活用户数低于7亿的公司（含关联公司）可以免费商用。

此外，针对此前社区讨论的语言限制问题，本次Llama3发布时在Model Card中做出了明确的说明：

96e3c237-78f9-4274-a0d3-3b383777a61f[1].png

Llama3基座模型本身的预期内使用方式局限于英语。但是，开发者可以将Llama3模型进一步训练微调，使得模型在满足Meta对安全性、无害性的要求等条款规定的前提下，增加对其它语言的支持。

OpenBuddy Llama3-8B：跨语言能力、强中文认知能力

由于Llama3本身只为英文场景能力优化，且训练集中多数数据为英文数据。这在增强Llama3英文基准上的表现的同时，也使得模型在其它语言上的知识储备、语言理解能力较弱，尤其是中文方面。

在实际用中文问题提问原版Llama3模型时，原版模型往往给出全英文或者中英混合的内容，且表现出中文常识方面的欠缺。

OpenBuddy在模型的跨语言能力和认知、理解能力上具备丰富经验，本次训练过程中，我们在3天时间内，用部分数据集实现了旨在增强模型中文跨语言能力、认知能力的模型训练工作。

经过3天短时间的训练工作后，模型的中文语言能力和中文知识储备得到了显著提升，能基本正确地回答一些中文常识问题。

Q: 一个人不喜欢吃油炸，下列选项中哪里他最可能去？选项：华莱士、麦当劳、海底捞、肯德基

A: 一个人如果不喜欢吃油炸食物，最可能去的餐厅是海底捞。海底捞以其火锅而闻名，火锅是一种以汤底为基础，食材多样，包括肉类、蔬菜、豆制品等，可以根据个人口味和健康需求选择的餐饮方式。相比之下，华莱士、麦当劳和肯德基主要提供的是油炸食品，如炸鸡、炸薯条等，这些油炸食品可能不适合不喜欢油炸食物的人。

Q: 颐和园在哪里

A: 颐和园位于中国北京市西郊，距离北京市中心约 20 公里。它是中国著名的皇家园林之一，也是世界文化遗产之一。颐和园始建于清朝乾隆年间，最初名为清漪园，后在 1888 年（清光绪十四年）由慈禧太后命名为颐和园。园内景观以昆明湖、万寿山为基础，汇聚了中国园林艺术之大成，包括山水、建筑、植被等多种元素，展现了中国古典园林的精髓。

颐和园不仅是中国园林艺术的杰出代表，也是世界园林文化的宝贵财富。它以其宏大的规模、精湛的艺术和深厚的文化内涵吸引着来自世界各地的游客。园内的景点众多，如长廊、佛香阁、十七孔桥等，都是颐和园的标志性景观。

同时，超出我们预期的是：在部分测试题中，模型展现出了逻辑思维、推理方面的认知潜力，超过了此前的OpenBuddy-Mistral-7B系列模型。

Q: A大于B，B小于C，A和C谁大？think step by step

A: 要解决这个问题，我们可以通过逐步分析给定的条件来进行思考。

首先，我们有三个变量：A、B 和 C。根据题目，我们知道：

1. A 大于 B（A > B）

2. B 小于 C（B < C）

我们的目标是比较 A 和 C 的大小。

从给定的条件中，我们可以推断出以下几点：

- 由于 A 大于 B，这意味着 A 在数值上位于 B 的右侧。

- 同时，B 小于 C，这意味着 C 在数值上位于 B 的右侧。

因此，根据这些条件，我们可以得出结论：A 和 C 都位于 B 的右侧。然而，这个信息并没有直接告诉我们 A 和 C 之间的具体大小关系。

但是，我们可以进一步分析：

- 如果 A 和 C 都大于 B，那么它们之间的大小关系取决于它们各自的数值大小。

- 如果 A 和 C 中有一个等于 B 的值，那么另一个将是更大的。但根据题目条件，A 和 C 都不等于 B。

因此，最直接的推理是，A 和 C 的大小关系取决于它们各自的数值。没有足够的信息来确定 A 和 C 之间的确切大小关系，只能说 A 和 C 都大于 B，但无法确定它们之间谁更大。

总结来说，基于给定的条件，我们无法直接确定 A 和 C 之间谁更大，只能确定 A 和 C 都大于 B。

Q: 老鼠生病了吃老鼠药能治好吗？

A: 老鼠生病了吃老鼠药能治好吗？这个问题看似简单，但实际上涉及到生态学、毒理学和伦理学等多个领域。首先，我们需要明确老鼠药的作用机制和目的，然后再探讨其对生病老鼠的影响。

老鼠药主要是用来控制老鼠数量的，它们通常含有对老鼠有毒的化学物质，如抗凝血剂（如华法林）或神经毒素（如硫酸铅）。这些物质的作用机制是通过干扰老鼠的正常生理功能，导致老鼠死亡。因此，从这个角度来看，老鼠药并不是用来治疗老鼠疾病的，而是通过毒杀的方式来控制老鼠数量。

如果将老鼠药用于治疗生病的老鼠，可能会遇到以下几个问题：

1. **剂量问题**：老鼠药的剂量是基于控制老鼠数量的需要设计的，对于生病的老鼠来说，这种剂量可能过高，无法精确控制，从而导致治疗效果不佳甚至产生毒副作用。

2. **选择性问题**：老鼠药通常缺乏足够的选择性，可能会对老鼠体内的正常细胞和病变细胞都产生毒性作用，这意味着即使能够杀死病原体，也可能对老鼠的健康造成进一步的损害。

3. **伦理问题**：使用老鼠药治疗生病的老鼠涉及到伦理问题。这种做法违背了动物福利的原则，因为它牺牲了老鼠的生命来达到所谓的“治疗”目的，而没有考虑到老鼠的痛苦和生命价值。

综上所述，老鼠生病了吃老鼠药并不能治好病，反而可能加重病情或造成新的伤害。正确的做法应该是寻找适合老鼠的药物或治疗方法，或者在必要时采取人道的方式处理生病的老鼠。

未来展望：编码效率、长文优化、70B

欢迎点击“阅读原文”，在魔搭社区中体验模型的高速下载和一键部署。

我们在模型中提供了Evaluation.txt文件，可以直接观察到此版本模型在我们测试题集上的原始输出。

同时，在魔搭社区的支持下，社区中将会提供8B模型的在线体验。

需要注意的是：模型在商用上存在7亿月活等限制，请阅读Llama3 License和免责声明后再决定是否使用。此外，尽管我们并没有刻意清除日、韩、法、德等语言的认知，但我们要求此模型只在中文、英文及两者间跨语言场景下使用。

本次展示的模型是我们在3天短时间内的训练成果，尽管模型已经具备中文语言能力，但仍然在中文深度、长尾知识上表现较弱，存在幻觉倾向。

Llama3基座的原生上下文只支持到8K，且原始词表只包含数千个常用CJK字词、中文编码效率较低。这些因素综合起来，导致本次发布的模型在长文能力上，弱于我们此前发布的OpenBuddy-Mistral-7B等开源模型系列。

未来，我们将进一步增强模型的中文认知、理解能力和知识储备。并计划通过词表扩容、模型长文优化等工作，优化8B模型的长文能力。我们同样有计划进行70B模型的跨语言训练工作。

新的8B、70B模型预期将于5月陆续与大家见面。敬请期待！

点击直达模型体验

模型详情页 · 魔搭社区 (modelscope.cn)

社区供稿 | Llama3-8B中文版！OpenBuddy发布新一代开源中文跨语言模型

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景