👉👉原文链接👈👈
阅读详细图文,可访问知识库
「 行业动态 」
◇ 奥特曼加入微软,超 500 名 OpenAI 员工请辞逼宫董事会 🔗 News
上个周末,AI 领域技术最领先,炙手可热的 OpenAI 经历了史无前例的巨震。前首席执行官 Sam Altman 在周六上午被赶出了 OpenAI,随后 48 小时内发生了两次 CEO 变动,引起了全球科技公司的关注。微软成为开发过程的主要参与者,Altman、Greg Brockman 和一些 OpenAI 员工加入了微软。微软首席执行官 Satya Nadella 确认了这一合作,并对此表示信心。报道称,Altman 将成为微软内部一个新的高级人工智能研究团队的首席执行官,微软似乎是 OpenAI 内部斗争的最大赢家。Altman 加入微软后,OpenAI 任命 Twitch 联合创始人 Emmett Shear 为新任首席执行官。市场对 Altman 加入微软的反应积极,微软股价周一上涨。超过 500 名 OpenAI 员工签署请愿书,要求董事会辞职,对最近的决定表示担忧。OpenAI 首席科学家 Ilya Sutskever 在社交媒体上对自己在董事会的行为表示遗憾,并呼吁公司内部团结一致。员工请愿书要求董事会辞职并组建一个合格的新董事会来领导公司。
◇ 突发,Cruise CEO 辞职了 🔗 News
市值超过 300 亿美元的全球领先自动驾驶公司 Cruise 联合创始人兼首席执行官 Kyle Vogt 宣布辞职。Cruise 最近面临吊销自动驾驶汽车运营许可证和多起事故停产等挫折。Vogt 在技术领域发挥了至关重要的作用,也有人把 Kyle Vogt 的“失业”,和 OpenAI 的 CEO 山姆·奥特曼联系在一起。目前,Cruise 工程副总裁 Mo Elshenawy 被任命为临时总裁兼首席技术官,但尚未确定永久首席执行官继任者。Cruise 面临一系列挑战,包括事故、监管审查和运营限制,而随着行业领导层的变动,自动驾驶领域可能迎来新阶段的发展。Vogt 的离职与 Altman 被解雇 OpenAI 首席执行官的时间巧合,对于沃格特的离职究竟是无奈退出还是应对行业挑战的战略举措存在疑问。
◇ 北大视频大模型新 SOTA ,搞笑抖音视频 AI 秒懂笑点 🔗 News
AI 能理解搞笑视频笑点在哪里了,Video-LLaVA 由北京大学等团队开发的开源视觉语言模型,能够在统一的视觉特征空间中对齐图像和视频表示。该模型通过使用 LanguageBind 编码器将不同模态映射到文本特征空间,为大型语言模型提供了统一的视觉表示,从而能够在图像和视频上执行视觉推理。在 13 个图像和视频基准上,Video-LLaVA 展现了先进的性能,特别是在各种视频问答数据集上相较于 Video-ChatGPT 表现出显著的改进,分别为 5.8%、9.9%、18.6%和 10.1%。实验证明,Video-LLaVA 在视频和图像理解方面超越了 Video-ChatGPT,强调了预对齐视觉输入的优势,提高了模型对视频内容的学习和理解能力。研究团队还将 Video-LLaVA 与其他大型图像语言模型进行比较,展示了其具有竞争力的性能。总体而言,联合训练视频和图像数据对这两项任务都带来好处,不仅观察到视频理解的改进,还缓解了图像理解中的错觉问题。
◇ 新华社研究院大模型体验报告 3.0 🔗 News
新华社研究院中国企业发展研究中心最近发布了第三份大规模人工智能(AI)模型年度评估报告,着重关注技术能力和未来潜力。报告中,科大讯飞的星火认知大模型以出色的表现获得最高分,稳居评测榜首,而商汤科技的 SenseModel 和智普的 AI-ChatGLM 等也被列为竞争对手。评价标准在考核、主客观因素融合、指标与市场趋势对接等方面进行了升级,从 1000 个问题中选出 400 个问题进行实际问答测试,同时增加了对供应商技术能力和未来发展潜力的评估。报告涵盖了来自多家公司的主流模型,其中科大讯飞、商汤科技和智普在技术能力和发展潜力方面均位于第一象限,成为大规模模型领域的领导者。报告指出下半年将由技术竞争转向应用竞争,特别强调了科大讯飞在医疗保健、编程辅助和内容创建等多个应用领域的卓越表现。
◇ AI 「cosplay」关键在人设! 🔗 News
大语言模型(LLM)的出现使得与动漫或小说人物进行聊天、拥有虚拟伴侣或数字智能实体等幻想变得更加容易实现。基于 LLM 的角色 AI,如 Character AI 等角色扮演聊天机器人引起了全球关注。在角色扮演人工智能研究方面,复旦大学、人民大学联合 Chat 凉宫春日团队,通过从人格特质角度研究角色扮演人工智能的保真度,发表了一篇相关论文,使用大五人格特质和 MBTI 等心理学理论进行人格测试,并引入了基于开放式问题的面试式性格测试框架。实验结果表明,角色扮演人工智能呈现出多样化的人格特征,受到潜在的法学硕士“基线人格”的影响。通过比较角色扮演人工智能的平均性格得分和不同基线模型(ChatGPT 和 GLMPro)的平均性格得分,研究了基本模型的影响。在 MBTI 测试方面,研究与人类粉丝标签的一致性达到 82.76%,在预测完整 MBTI 标签的准确率达到 50%。总体而言,该研究证明了提出的性格测试框架在评估角色扮演人工智能的保真度方面的有效性,强调了现有角色扮演人工智能能够有效地再现各自角色的性格特征。
- 论文链接:arxiv.org/pdf/2310.17…
- 项目链接: github.com/LC1332/Chat…
◇ 谷歌为什么输给了 OpenAI? 🔗 News
为什么谷歌作为科技巨头失去人工智能领先地位。Socratic 成立于 2013 年,以其独特的“拍照搜题”应用程序而闻名,然而,创始人 Shryans Bhansali 反思了在谷歌内部的困难和经历。他强调了将 Socratic 的愿景与谷歌的结构和文化相融合的难题,包括在庞大基础设施中从头开始项目的复杂性。还提到了在谷歌标准化设计模式中保持创造力和个性的挑战,以及对顶尖人工智能研究人员亲自进行数据检查的重要性。 Bhansali 指出,谷歌内部运作如同拥有第二本护照,但也揭示了内部组织挑战,包括团队目标的不断变化和频繁的重组。尽管 Socratic 在谷歌的领导下继续蓬勃发展,每年处理数十亿次查询,但面对谷歌内部流程的复杂性以及专注于有影响力项目的难题,创始人最终选择离开,开始自己的事业。
◇ 微软 230 页报告,像素级评估 GPT-4 前沿科研能力 🔗 News
微软 AI4Science 部门发布了一份详细的 230 页报告,深入描述了 GPT-4 大语言模型在生物、药物发现、计算化学、偏微分方程、材料设计等五个科研领域的应用潜力。报告分为两部分,首先评估了 GPT-4 在相关领域知识储备,然后考察了其参与特定领域基准测试的能力。GPT-4 在生物学和材料设计领域展现了广泛的领域知识,尤其在药物发现方面表现出强大的属性预测能力。在材料设计方面,GPT-4 显示了前景,但在表示和提出更复杂结构的能力上还有待提高。在偏微分方程研究领域,GPT-4 展示了理解基本概念、辨别概念关系以及提供准确证明方法的能力。报告呼吁科学家将 GPT-4 与专业科学工具和模型结合使用,以解锁更多科研范式和可能性。在各个领域的测试中,GPT-4 展现了强大的知识记忆、任务执行和代码生成能力,但也指出了存在的一些局限性和错误,研究人员认为通过解决这些问题,GPT-4 等大语言模型可以成为更强大、可靠的跨学科科学发现工具,加速科学研究和创新。
- paper: arxiv.org/abs/2311.07…
◇ AI 越来越强,法律人是“躺”还是“卷”? 🔗 News
ChatGPT 的出现被认为是一项重大发展,备受比尔盖茨和马化腾等有影响力的人士推崇,将其变革性影响与互联网和个人电脑的诞生相提并论。文章探讨了人工智能在法律领域的潜在影响,重点介绍了其在企业定制客户服务和律师事务所创建 HarveyAI 等模型方面的应用。强调了法律专业人士学习使用人工智能的重要性,尤其对 35 岁以下的从业者而言,因为掌握人工智能技能将为其职业生涯提供竞争优势。文章还阐述了法律专业人士对人工智能的担忧,强调在使用 ChatGPT 等工具时需要有效的提问技术。通过介绍专为律师事务所创建的人工智能驱动模型和与行业领导者的合作,强调了人工智能对法律行业的深远影响。还探讨了人工智能在与人类协作中的作用,强调了个人需要利用人工智能工具来增强自身优势。最后探讨了人工智能未来的不确定性,包括社会态度、广泛采用的潜力以及人类与机器之间不断发展的关系,确定了环境不确定性、周期不确定性和个体确定性三个级别的不确定性,并鼓励个人在不确定的未来中追求最大的确定性。
◇ Ai Pin 不会赢,“定价不合理”“无法替代手机 🔗 News
Ai Pin 是由 Humane 开发的一款无屏可穿戴设备,配备微型投影系统,旨在替代传统智能手机。然而,xda-developers 的批评指出该设备存在定价不合理、使用不方便、功能无法替代手机等问题,认为其炒作过度且注定失败。具体问题包括其单色激光投影显示器、定价策略的不合理性,以及人工智能助手存在严重幻觉问题。总体而言,Ai Pin 被看作一个过于昂贵、功能有限的数字配件,被质疑其成功的可能性。虽然未来类似的人工智能可穿戴设备可能会受到欢迎,但对于 Ai Pin 的成功却存在很大的不确定性。
◇ GPT-4 不会图形推理?“放水”后准确率依然只有 33% 🔗 News
美国圣塔菲研究所的一项研究发现,GPT-4 在图形推理任务中的准确率仅为 33%,而具有多模态功能的 GPT-4v 在相同任务中表现更差,准确率仅为 25%。研究使用 ConceptARC 数据集,包含 16 个图推理题子类,总计 480 道题,涉及位置、形状、操作、比较等方面。与人类平均准确率达到 91%相比,GPT-4 即使每个问题尝试三次,准确率也未超过 60%,平均为 33%,表现出对问题模式缺乏理解。然而,关于参与者招募和 GPT 的输入方法存在一些争议和怀疑,一些批评者质疑样本的随机性,甚至有人声称大型模型在招募过程中冒充人类。对于 GPT-4v 的多模式版本,测试仅涉及上传带有提示文字的图像,而 GPT-4 的纯文本版本需要将图像转换为网格,并用数字表示颜色,这一过程引起了一些争议。Joy Hsu 在斯坦福大学对 GPT-4v 进行的外部测试表明,它在几何问题上的表现显著低于人类。
◇ 亚马逊推出“ AI Ready”计划:到 2025 年为全球 200 万人提供免费 AI 技能培训 🔗 News
亚马逊推出了“AI Ready”计划,旨在到 2025 年为全球 200 万人提供免费的人工智能技能培训。将人工智能视为变革性技术,亚马逊强调让任何有学习欲望的人都能获得人工智能教育。计划涵盖成人和青少年学习者,扩展现有的免费人工智能培训计划以消除获取技能的障碍,并引入八门新的人工智能和生成式人工智能课程。此外,亚马逊通过 Amazon Web Services (AWS)提供超过 1200 万美元的 AWS 生成式 AI 奖学金,为全球 50,000 多名高中生和大学生提供学习机会,并与 Code.org 合作帮助学生学习生成式人工智能。计划还包括免费生成式人工智能培训,以满足紧缺职位需求,覆盖商业和非技术受众的课程,如“生成式 AI 简介”、“面向决策者的生成式 AI 学习计划”以及“Amazon CodeWhisperer 简介”等。此外,计划还提供专为开发人员和技术专业人员设计的课程,涵盖机器学习基础、AWS 上的低代码机器学习、在 AWS 上构建语言模型、使用 Amazon Bedrock 构建生成式 AI 应用程序等主题。
◇ 谷歌 Bard「破防」,提示注入引起数据泄漏风险 🔗 News
黑客可利用一种名为“提示注入”的技术,通过自然语言提示攻击人工智能系统,尤其是大型语言模型。这种攻击利用模型对提示的依赖,包括直接提示注入(用户输入恶意命令)和间接提示注入(攻击者注入恶意命令到可能被模型检索或摄取的文档中)。最新的 Google Bard 更新增加了功能,但也引入了潜在的安全风险,包括面临间接提示注入攻击的可能性。一名前 Microsoft Azure 安全工程师测试了 Bard 的漏洞,发现其新版本容易受到即时注入攻击而泄露数据。其中,发现了一个名为“图像 Markdown 注入”的漏洞,攻击者通过渲染图像的方式进行数据泄露。虽然 Google 已经在 9 月 19 日报告的安全问题上作出了回应,并在 10 月 19 日之前确认了修复,但未详细说明具体措施。建议采取额外的过滤措施以弥补可能存在的渲染图像方面的风险。
「 融资快讯 」
◇ 「锐思智芯」完成数亿元 Pre-B 轮融资 🔗 News
锐思智芯完成数亿元 Pre-B 轮融资,由国投创业和元禾辰坤领投。这笔资金将主要用于产品量产、加速新产品研发以及新领域的开拓。作为一家融合视觉传感领域芯片公司,锐思智芯的核心技术是 Hybrid Vision 融合视觉传感技术。其主打产品是 ALPIX 系列融合式视觉传感器芯片,广泛应用于智能手机、消费电子、智能安防和智能汽车等领域。锐思智芯的老股东包括联想创投、清科创投等,他们跟投表达了对公司成为行业标杆企业的期望。公司在技术创新方面取得了重要突破,首款基于 Hybrid Vision 技术的芯片 ALPIX-Pilatus 已经发布。锐思智芯计划参加 2024 年 CES 国际消费类电子产品展览会,以探讨融合视觉传感技术在新应用方面的可能性。
「 技术阅读 」
◇ OpenGPTs 迎来了更新! 🔗 Link
推出了一个类似于 OpenAI Assistants API 的 API 并且增加了一些改进(比如支持流式处理)。与多个模型一起工作:OpenAI、Azure、Anthropic、Bedrock。
- API 入门指南:github.com/langchain-a…
- 托管的应用程序:opengpts-example-vz4y4ooboq-uc.a.run.app
- Github 项目:github.com/langchain-a…
◇ 探索上下文学习与指令调整之间的关系 🔗 Link
上下文学习 (ICL) 和指令调优 (IT) 是下游应用程序采用大型语言模型 (LLM) 的两个主要范例。然而,它们有显著的不同。在 ICL 中,在推理时提供了一组演示,但 LLM 的参数不会更新。在 IT 领域,在训练时使用一组演示来调整 LLM 的参数,但在推理时不使用演示。尽管越来越多的文献探讨了 ICL 和 IT,但对这些主题的研究很大程度上是孤立进行的,导致这两种范式之间脱节。在这项工作中,我们通过研究法学硕士的隐藏状态在这两种范式中如何变化来探索 ICL 和 IT 之间的关系。通过用 LLaMA-2(7B 和 13B)进行精心设计的实验,我们发现 ICL 是隐式 IT。换句话说,ICL 改变了 LLM 的隐藏状态,就好像演示被用来指导性地调整模型一样。此外,ICL 和 IT 之间的融合在很大程度上取决于与所提供的演示相关的几个因素。总的来说,这项工作提供了一个独特的视角来探索 ICL 和 IT 之间的联系,并有助于理解 LLM 的行为。