Mistral 发布首个面向代码开发的大模型

Mistral 大模型 Codetral 22B

Codestral 是一个专为生成代码而设计的 AI 模型,它精通代码和英语,可以被用来为软件开发人员设计先进的 AI 应用程序。你可以通过VSCODE扩展快速试用。

  • Codestral 22B 掌握 80 多种编程语言,如 Python,Java,C,C++, JavaScript 和 Bash等。
  • Codestral 22B 在六种主流语言的 Humaneval (用于评估编程语言模型的基准测试工具) 的平均测试结果优于 CodeLlama 70B 和 DeepSeek Coder 33B, 比 Llama-3-70B 略高。 其中 Python 代码生成能力比起其他模型表现突出。(见下图)
  • 当前 Codetral 22B 的 License 为 MNPL(非生产许可证), 只可将其用于研究和测试目的。
  • Codestral 22B 现可通过 HuggingFace 或 Ollama 下载使用。

Mixtral 8x22B 具有以下优点:

  • 它精通英语、法语、意大利语、德语和西班牙语
  • 它具有很强的数学和编码能力
  • 它本身就能够调用函数;再加上在 la Plateforme 上实现的受限输出模式,这实现了大规模的应用程序开发和技术堆栈现代化
  • 其 64K 令牌上下文窗口允许从大型文档中精确调用信息

真正开放

我们相信开放和广泛分布的力量可以促进人工智能的创新和协作。

因此,我们在 Apache 2.0 下发布了 Mixtral 8x22B,这是最宽松的开源许可证,允许任何人在任何地方不受限制地使用该模型。

效率极致

我们构建的模型为各自的尺寸提供无与伦比的成本效益,在社区提供的模型中提供最佳的性价比。

Mixtral 8x22B 是我们开放式型号系列的自然延续。其稀疏的激活模式使其比任何密集的 70B 模型都快,同时比任何其他开放重量模型(在许可或限制许可下分发)更强大。基本模型的可用性使其成为微调用例的绝佳基础。

Mistral 发布首个面向代码开发的大模型
图 1:性能 (MMLU) 与推理预算权衡(活动参数数)的度量。与其他开放式型号相比,Mistral 7B、Mixtral 8x7B 和 Mixtral 8x22B 都属于高效型号系列。

推理和知识

Mixtral 8x22B 针对推理进行了优化。

Mistral 发布首个面向代码开发的大模型
图 2:顶级LLM开放模型在广泛的常识、推理和知识基准上的表现:MMLU(测量理解中的大规模多任务语言)、HellaSwag(10 次)、Wino Grande(5 次)、Arc Challenge(5 次)、Arc Challenge(25 次)、TriviaQA(5 次)和 NaturalQS(5 次)。

多语言能力

Mixtral 8x22B 具有原生多语言功能。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中表现优于 LLaMA 2 70B。

Mistral 发布首个面向代码开发的大模型
图 3:法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 上 Mistral 开源模型和 LLaMA 2 70B 的比较。

数学与编码

与其他开放模型相比,Mixtral 8x22B 在编码和数学任务中表现最佳。

Mistral 发布首个面向代码开发的大模型

图 4:领先的开放模型在流行的编码和数学基准测试中的表现:HumanEval pass@1、MBPP pass@1、GSM8K maj@1(5 次)、GSM8K maj@8(8 次)和 Math maj@4。

今天发布的 Mixtral 8x22B 的指示版本显示出更好的数学性能,GSM8K maj@8 得分为 90.8%,数学maj@4得分为 44.6%。