👉👉原文链接👈👈
「 最新活动 」
◇ 杭州 AI 峰会:AI 最后一公里,变现探索 🔗 Link
AI 浪潮,一起搞钱!早鸟有限,详情链接:xhkzr.xet.tech/s/2LquL0
「 行业动态 」
◇ DALL·E 3 现已向 ChatGPT Plus 和 Enterprise 用户开放 🔗 Twitter
ChatGPT 现在为 Plus 和 Enterprise 用户提供了 DALL·E 3 的支持,允许用户创建独特的图像,并在对话中要求对其进行修改。DALL·E 3 生成的图像在细节和视觉上更引人注目,支持广泛的提示和不同宽高比。安全性得到多层系统的保障,以限制潜在有害图像的生成。用户反馈至关重要,他们可以与研究团队分享反馈,同时出处分类器用于识别图像生成源,但仍需要协作以确定其确切来源。
◇ Midjourney 推出全新 2 倍和 4 倍 放大器 🔗 Twitter
现在最多可以将生成的图像放大 4 倍,这一连续放大的功能表现非常出色,你可以在生成好的图像上找到放大按钮,可选择 2 倍或 4 倍放大。这一功能也适用于之前的旧图像。需要注意的是,4 倍放大会消耗比 2 倍放大多 3 倍的 GPU 时间。目前,只有 Fast 模式支持放大功能,尽管一些 4 倍放大任务可能会出现黑色图像的问题,不过这个问题正在解决中,有时候放大后的图像也会变暗。
◇ 国内首个“ AI 原生应用商店”上线! 🔗 News
百度智能云正在建立国内最繁荣的 AI 原生产业生态,通过千帆大模型服务平台为 17000 多家客户提供服务,覆盖近 500 个场景,吸引各类开发者和企业,包括小开发者、初创企业和互联网老兵,加速大模型的调用。生态建设成为百度智能云的重要战略,旨在实现“云智一体,深入产业,生态繁荣,AI 普惠”。他们提供培训支持、应用商店和千帆社区,支持技术赋能、资源支持、投资和营销支持,加速 AI 原生应用的商业化,促进超过 22 个商业化应用的开发。同时,他们将全面开放内部使用的 Comate 智能编程助手,提供实践经验和产品攻略,得到英特尔和 NVIDIA 的技术支持,以满足大模型的需求。
◇ OpenAI 图像检测工具曝光,准确率高达 99% 🔗 News
OpenAI 正在开发一款高精度的 AI 图像检测工具,声称其准确率可高达 99%。该工具目前正在内部测试,即将公开发布。OpenAI 此前在 AI 文本检测方面遇到挑战,早期的工具仅达到了 26%的准确率。由于担忧使用 AI 制造虚假新闻图像的潜在问题,AI 图像检测工具的开发被认为更为紧迫。但同时,开发 AI 内容生成和检测工具可能存在潜在冲突,一些人建议引入第三方实体来解决这个问题。尚不清楚 OpenAI 即将推出的工具将采用何种具体技术,以及是否将是最准确的工具。OpenAI 的 CTO 和 CEO Sam Altman 在 Tech Live 活动中讨论了公司的未来计划,暗示了可能推出下一代大型模型,即 GPT-5,另外否认了关于 OpenAI 制造智能手机的传闻。
◇ 网易互娱这样用 AIGC , 爆款游戏只是牛刀小试 🔗 News
网易互娱 AI Lab 在游戏领域积累了丰富经验,通过强化学习和多样性模型池的 AI 训练框架,提高了游戏开发效率,降低成本。他们的 AI 技术可生成高质量游戏美术资源和动画,应用于游戏策划、美术、音频、程序、测试、营销等多个领域,包括 UGC 游戏和 AI 模拟玩家。虽然 AI 的决策精度高,但有时可能被普通玩家察觉出来。游戏开发中的挑战在于提高用户体验,需要不断迭代和改进,而 AI 技术在平衡性测试和效率方面表现出色。未来,AI 技术将继续为游戏开发带来改进,但核心玩法设计仍需要人类的创造力。此外,AI 技术在智能 NPC 和内容生成领域的应用有望超越人工。
◇ 人手一个编程助手!北大最强代码 大模型 开源 🔗 News
继开源 CodeLlama 后,北大等机构推出了 CodeShell-7B 和 CodeShell-Chat 两个强大的代码库模型。CodeShell-7B 拥有 700 亿参数,被认为是同类中性能最卓越的模型,使用 GitHub、Stack、StarCoder 数据集等高质量中英文数据进行训练。CodeShell-Chat 是在 CodeShell-7B 基础上训练的代码助手模型,支持代码生成、补全、注释、测试等多种任务。团队还开发了 VSCode 和 IntelliJ IDEA 的 IDE 插件,方便开发者使用。此外,引入了 CodeShell-UCB 作为代码模型能力评估的统一基准,包括代码生成、测试、缺陷检测和修复等任务,为全面评估提供了完整的程序上下文。
- CodeShell 代码:github.com/WisdomShell…
- 基座模型:huggingface.co/WisdomShell…
- 代码助手 VSCode 插件:github.com/WisdomShell…
◇ Transformer 王者归来!时序预测全面领先 🔗 News
清华大学和蚂蚁集团的研究人员提出了一种名为”iTransformer”的全新方法,无需修改 Transformer 结构,却能在时间序列预测任务中实现卓越性能。iTransformer 通过颠倒时间序列数据处理的方式,将同一变量的序列映射到高维特征表示,并利用自注意力机制建模变量之间的相互关系,通过前馈网络编码历史观察结果,从而实现未来预测。这一方法结合了层归一化、前馈网络和自注意力模块,适应多维时间序列数据的需求,在六个主要基准数据集上表现出色,特别在长期和多维时间序列预测等挑战性场景中表现突出。
- paper: arxiv.org/abs/2310.06…
- Github: github.com/thuml/Time-…
◇ 英特尔启动首个 AI PC 加速计划 🔗 News
英特尔在“英特尔 on 技术创新大会”上启动了首个 AI PC 加速计划,旨在到 2025 年将 AI 功能引入超过 100 万台 PC。该计划从 12 月 14 日开始,首发英特尔 Core Ultra 处理器。这是一个全球性的创新计划,旨在加速客户端计算中的 AI 发展。英特尔将与 100 多个独立软件和硬件供应商合作,利用其 AI 工具链、共同创作、硬件和技术专长,以最大化 AI 和机器学习应用。该计划将包括 300 多个 AI 加速功能,以增强 PC 在音频效果、内容创作、游戏、安全、直播和视频协作等领域的体验。值得注意的独立软件供应商包括 Adobe、BlackMagic、Topaz、Wondershare Filmora 和 Zoom。一项最近的研究表明,随着 AI CPU 和 Windows 12 的发布,AI PC 出货量将在接下来的一年中大幅增加,全球估计将发货 1300 万台。AI PC 市场预计将在 2025-2026 年保持两位数的年增长率,并在 2027 年成为 PC 产品的主流类别,这表明未来五年全球 PC 行业将稳步过渡到 AI 时代。
◇ IDC :到 2027 年,全球生成式 AI 支出将达到 1430 亿美元 🔗 News
全球著名信息调查咨询机构 IDC 进行的研究预测,到 2027 年,全球对生成式人工智能的支出将达到 1,430 亿美元,年均增长率为 73.3%。这些支出包括软件、基础设施硬件和 IT/业务服务。到 2023 年,全球企业对 Gen AI 解决方案的投资已达 1600 亿美元,预计 2023 年至 2027 年将以 73.3%的复合年增长率增长。Gen AI 支出预计将在预测期结束时占总人工智能支出的 28.1%,显著高于 2023 年的 9.0%。其中,Gen AI 基础设施和服务领域的投资将成为应用开发的重要领域。研究还强调了 Gen AI 对各行业的深远影响,包括金融、艺术、教育、法律、医疗、电子商务、交通和 IT 等领域。这一技术基于深度学习和神经网络,可以创造代码、图像、文本、视频、音频和游戏等内容,但也需要负责任和道德的应用。
◇ 全都不及格! GPT-4 仅排第三 🔗 News
斯坦福大学 HAI 等研究机构发布了基础模型透明度指标,对 10 家主流大模型进行评分。Llama 2 排名第一,得分 54;BLOOMZ 排名第二,GPT-4 排名第三,Titan Text 得分最低仅得 12 分。评分涵盖上游、模型和下游三大维度,上游类指标得分差异较大。进一步分为 13 个子域包括数据、劳动力、计算、方法、模型基础、模型访问、功能、风险、缓解措施、分布、使用策略、反馈和影响。开源模型普遍领先,GPT-4 的得分略高于闭源模型。缺乏透明度一直是数字技术消费者面临的问题,模型透明度对决策者和科学家都很重要
◇ 微软 Azure OpenAI 支持数据微调啦!打造专属 ChatGPT 🔗 News
微软在 Azure OpenAI 公共预览中推出了 GPT-3.5-Turbo、Babbage-002 和 Davinci-002 模型的数据微调功能。数据微调允许开发者使用自有数据集创建定制的 ChatGPT 模型,提供更专业的问题回答。微软还引入了更经济实惠的 Babbage-002 和 Davinci-002 模型,替代了之前的 Ada、Babbage、Curie 和 Davinci。此外,Azure OpenAI 提供数据筛选功能,自动删除非法、歧视性或有害内容。用户可以使用 Azure OpenAI Studio、REST API 或 OpenAI Python SDK 进行微调,微软还提供了托管服务,价格不同。Azure OpenAI 还提供推理托管,允许用户生成内容。
- 详细微调教程:learn.microsoft.com/en-us/azure…
- 微软 Azure 服务:azure.microsoft.com/en-us/produ…
◇ 4K 画质 3D 合成视频不再卡成幻灯片 🔗 News
最近来自浙江大学、像衍科技和蚂蚁集团的研究者,在一篇题为「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的论文中,提出了一种名为 4K4D 的点云表示方法,大大提升了高分辨率 3D 动态场景合成的渲染速度。4K4D 可实现高保真实时渲染 4K 分辨率的动态 3D 场景,提升了渲染速度和质量。该技术的核心创新在于使用 4D 点云表示和混合外观模型,通过空间雕刻和 4D 特征网格等技术,实现了动态 3D 场景的高效表示和渲染。评估结果显示,与最先进的方法相比,该方法的速度和渲染质量均显著优于其他技术。使用 RTX 4090 GPU,该方法在 DNA 渲染数据集上实现 1080p 分辨率 400 FPS 的实时渲染,在 ENeRF-Outdoor 数据集上实现 4K 分辨率 80 FPS 的实时渲染。
◇ 评估生成人工智能的社会和道德风险 🔗 Twitter
人工智能系统已广泛应用于不同领域,其功能不断增强。为了负责任地开发和部署这些系统,必须进行全面的风险评估。Google DeepMind 提出的三层框架涵盖了评估人工智能系统的能力、人类互动和系统影响。指出了安全评估领域的主要差距,包括背景、具体风险和多模式评估。为了弥合这些差距,建议采用现有的评估方法并进行综合评估,这将提供对模型能力之外的见解,以确定风险是否正在发生和蔓延。为确保技术的预期功能,必须解决社会和技术挑战。
◇ 大型语言模型的基本组成部分 🔗 Twitter
多头自注意力(MHSA)是大型语言模型(LLMs)如 GPT-4、BERT 和 Transformer 的核心组成部分,它为这些模型提供了强大的能力。与传统的递归神经网络不同,MHSA 以并行方式处理语言序列,无论单词在序列中的位置如何,都能够捕捉词之间的依赖关系,这对自然语言处理任务至关重要。MHSA 通过查询、键和值权重矩阵,对每个单词进行比较和重新赋予权重,从而提供了上下文信息。这些权重通过计算查询和键的点积获得,然后通过 softmax 函数进行归一化,形成注意力分数。多头自注意力采用多个“头”,每个“头”都有自己的一组权重矩阵,使模型能够并行学习不同类型的关系。每个自注意力块的输出被串联并进行线性变换,生成最终的 MHSA 输出。
◇ DiagrammerGPT:通过 LLM 规划生成开放域、开放平台图表 🔗 News
DiagrammerGPT 是一个新的两阶段文本到图表生成框架,利用大型语言模型(LLM)如 GPT-4。第一阶段涉及规划师和审计师 LLM 的迭代过程,生成“图表计划”,其中包括实体、关系和布局信息。第二阶段使用图表计划生成图表,并使用 Pillow Python 包渲染文本标签。作者提出了 AI2D-Caption 数据集来进行基准测试,证明 DiagrammerGPT 在文本到图表生成任务中优于现有的 T2I 模型。研究表明 DiagrammerGPT 在各种评估指标上均有所改进,并经人类评估表明在图文对齐和对象关系方面优于基线模型。此外,DiagrammerGPT 还展示了生成符合输入文本提示的开放域图表的能力,并提供了用户编辑和自定义图表的示例。
- website: diagrammergpt.github.io/
◇ 新诉讼指控彭博社、微软和 Meta 使用盗版书籍训练人工智能 🔗 News
Mike Huckabee、Lysa TerKeurst 等人对 Meta、微软和彭博社提起诉讼,指控这些公司未经授权使用其版权作品进行 AI 训练,从中获得“显著价值”。诉讼的焦点在于“Books3”数据集,据称包含非法书籍,用于训练大型语言模型。微软和 Meta 尚未置评,而彭博社称 Books3 数据集仅用于研究目的。此外,EleutherAI 也将 Books3 数据集纳入名为“The Pile”的大型 AI 训练数据集。原告寻求未明示的损害赔偿和禁止滥用其作品的禁令,这是作者对人工智能公司提起的一系列诉讼之一,其中包括针对 OpenAI 的版权侵权案。对于使用受版权保护材料进行 AI 培训的合法性仍存在争议,诉讼结果可能需要数年才能确定。
「 融资快讯 」
◇ 智谱 AI 宣布完成超 25 亿元融资 🔗 News
智谱 AI 今年已经获得超过 25 亿人民币的融资,融资参与方包括多家机构和老股东,如社保基金、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss 直聘、好未来、红杉、高瓴等。这笔融资将用于进一步开发基座大模型,以支持行业生态。另外,蚂蚁集团子公司上海云玡企业管理咨询有限公司成为新的股东。智谱 AI 的业务旨在创建新一代认知智能通用模型,他们合作研发了双语千亿级超大规模预训练模型 GLM-130B,并推出了认知大模型平台 Bigmodel.ai,包括产品 CodeGeeX 和 CogView,提供智能 API 服务。
「 早点趣玩 」
◇ VideoCrafter1:生成高质量视频的开放扩散模型 🔗 Twitter
VideoCrafter 是一个用于制作视频内容的开源视频生成和编辑工具箱。
- demo: huggingface.co/spaces/Vide…
- Github: github.com/AILab-CVC/V…
「 技术阅读 」
◇ 量子电路中测量引起的纠缠相变 🔗 Link
量子粒子可以同时存在两种状态,彼此纠缠,并发现测量对其行为有奇妙影响,将其从量子状态变为经典状态,虽然机制尚不明确。在大型量子系统中,测量可以导致新的量子信息阶段的出现,类似相变。研究观察了包含 70 个量子位的系统中测量引起的效应,包括”量子隐形传态”。这一现象与量子位之间的纠缠网络随时间变得更复杂有关,而测量引起的相变是由相互作用和测量之间的平衡导致的。研究采用了三种技巧来观察测量引起的动态,包括时空交换、克服后选择和利用噪音。结果表明,测量引起的强度变化会导致新的量子纠缠阶段的出现,包括新形式的量子隐形传态。