羊驼都不香了
一个神秘的磁力链接,成为开源大模型社区的新宠。
里面是来自法国的大模型Mistral-7B,大家试用下来,觉得Llama 2 都香了。
有人建议,代码之外的数据开发权限,34B以下规模先尝试一下就对了。
也有公司开始将其用于简历自动解析和评估业务上。
想基于米斯特拉尔创业的更是大有人在。
发布不到2周,配套生态也迅速发展起来,如何在单卡上加强的教程就有了。
各种基础设施和工具链还添加了对 Mistral-7B 的支持。
专用于代码补全的改装版本也有人搞出来了。
甚至有人基于它演绎了一个神秘的玄学大模型,也很受欢迎。
与 Meta 刚刚发布 Llama 的时候,各种其他驼和神兽迅速出现,发展成大型模型动物园的场景太像了。
米斯特拉尔这个单词在芬兰里代表冬季的一种强风。
羊驼们,准备好过冬了吗?
前期总结,综合官方公告和社区反馈,主要有5个方面:
性能更强,硬件需求更少,有2023年的知识,安全操作系统没那么离谱,开源协议更广泛,
根据官方发布公告,Mistral 7B 在所有尝试过的成绩基准中超过 Llama 2 13B。
并在代码、数学和推理刺激中超过 Llama 1 34B。
其他代码任务上的表现专门接近于CodeLlama 7B,同时保留了自然语言能力。
上下窗口也达到了8k。
更详细的测评数据如下。
以小胜大,意味着取得相似的效果硬件需求减少。
官方也特别说明了用了各种优化手段,FlashAttention,Grouped-Query Attention,Sliding Window Attention一起上。
现在已经看到很多开发者在苹果笔记本上晒自己的经验。
确定后只需要6G显存。
官方没有具体说明训练数据即日期。
但经过网友测试,2023年3月OpenAI发布GPT-4的事它也知道。
相比 Llama 2 的预训练数据到 2022 年 9 月,只有部分负荷数据最多到 2023 年 6 月。
Llama 2 的安全措施非常充分严格,甚至损失了部分实用性。
比如说拒绝回答如何“杀死”一个Linux线程,只能说是在《道德》中也是一种不道德了。
还有创业者根据自己的经验总结了3点是Mistral-7B能做但Llama 2做不好的。
他做搜索复杂的SQL语句,对比测试发现Llama 2 13B有几个缺点:
- 即使提供少量的样本样本,也可以在构造中插入评论
- 会在时间字段上出错
- 在数据结构定义的DDL中如果有多个表,总是漏掉至少一个表
而Mistral-7B具体效果仍在测试中,至少这些问题都不存在。
另外Mistral-7B也非常适合用于改装,官方也通过指令衍生了改装的聊天版本作为补充。
Mistral基于非常广泛的Apache2.0开源协议,免费,允许商业使用、修改和分发。
相比Meta为Llama 2准备好的协议,甚至被开源界批评为严格不算真正的开源。
例如有附加商业条款,月活超过 7 亿的产品或服务需要单独申请许可,主要针对大公司。
针对个人和小公司的也有不能使用Llama生成的结果来改进其他模型等。
Mistral AI 成立于今年 5 月,总部法国巴黎,3 位创始人是 DeepMind 和 Meta 前员工,
胎儿将这家公司看成是欧洲的OpenAI。
刚成立4周还没有产品时,就靠6个员工7页PPT获得了超过1亿美元的融资,当时还引起一番争议,被当成是AI泡沫的代表。
Mistral AI 最初计划于 2024 年发布第一个大模型,没想到刚到 9 月底就取得成果,团队也扩大了惊人。
三位联合创始人中,首席执行官 Arthur Mensch目前在 DeepMind 巴黎工作。
CTO Timothée Lacroix和首席科学家Guillaume Lample则在 Meta 共同参与 Llama 系列的研发,Lample 是通讯作者之一。
事实上 Llama 最初团队中已经过半退出,其中 Marie-Anne Lachaux 后来也加入了 Mistral AI。
有点子当年 OpenAI 部分员工走出去成立 Anthropic 的意思了,历史惊人的相似。
Mistral AI 随后推出继续规模更大的模型,增强推理能力以及多语言能力。
如果你对 Mistral-7B 感兴趣,可以在 Perplexity 或 HuggingChat 试玩。
实验室.perplexity.ai
还有一款与 Llama 2 同台竞技的小游戏。
下载模型也可以去抱脸。
参考链接:
[1] Mistra.ai/news/announ
… [2] predibase.com/blog/fine-t
… [3] x.com/hrishioa/st
… [4] twitter.com/Teknium1/st …
版权所有,未经授权不得以任何形式转载及使用,违者必究。