AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!

目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!

《AI大模型日报》今日要点:今日AI大模型领域的资讯涵盖了多模态新基准的提出、从容大模型在多模态评测中的卓越表现、谷歌开源的Gemma 2模型、字节大模型团队的Depth Anything V2模型被苹果选中、科大讯飞发布的星火大模型V4.0的重大突破、尤洋团队实现的AI实时生成视频、OpenAI的CriticGPT新模型、LeCun和谢赛宁提出的视觉多模态模型Cambrian-1,以及智源大会上关于视觉大模型的探讨。这些报道共同展现了AI大模型在模拟人类推理、多模态能力、效率与经济性、集成应用等方面的快速发展,同时也指出了模型在复杂推理、视觉表征等方面的挑战与机遇。各大科技企业和研究团队通过不断创新,推动AI大模型向更高效、更强大、更贴近人类需求的方向发展。

标题: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点


摘要: 本文作者张天宇聚焦于多模态、GFlowNet、多智能体强化学习等,已在多个机器学习顶会发表论文。文章探讨实现通用人工智能AGI的关键在于模拟人类的思考和推理过程,引入视觉字幕恢复(VCR)任务来评估视觉语言模型的推理能力。VCR任务要求模型填补被遮挡的文字,而当前大多数模型在此任务上表现不佳,尤其在困难模式下。这表明模型在模拟人类复杂推理过程方面仍有很长的路要走。
网址: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点 | 机器之心
 
标题: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
 


摘要: 云从科技的从容大模型在OpenCompass多模态评测中取得重大进展,平均得分65.5,跻身全球前三。在国内市场,该模型排名第一。从容大模型在6个数据集上表现优异,尤其在OCRBench测试集上获得全球最高分。这一成就归功于云从科技自研的高效多模态处理架构和先进的计算技术,及其在视觉、语言领域的深厚积累。此前,从容大模型已在视觉、跨模态领域多次刷新世界纪录。此次表现不仅证明了云从科技的技术实力,也为全球科技企业在AI竞争中树立了典范。
网址: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三 | 机器之心
 
标题: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
 


摘要: 谷歌推出Gemma 2,性能翻倍,可与更大模型竞争。Gemma 2提供9B和27B参数版本,推理性能和效率优于第一代,且成本降低。其27B模型性能卓越,9B模型也超越同类。Gemma 2易于集成,兼容多框架,可通过Google Cloud轻松部署。还有新的Gemma Cookbook和上下文缓存功能助力开发者。模型基于仅解码器transformer架构,交替使用局部和全局注意力,采用logit软封顶。谷歌开放Gemma 2,旨在普及AI工具。
网址: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济! | 机器之心
 
标题: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型
 


摘要: 苹果公司近日在HuggingFace上发布了20个新Core ML模型和4个数据集,其中包括字节大模型团队的单目深度估计模型Depth Anything V2。Core ML是苹果的机器学习框架,可集成模型到iOS、MacOS等设备,高效运行复杂的AI任务,增强用户隐私,减少延迟。Depth Anything V2在细节处理上更精细,鲁棒性更强,速度提升显著。该模型可应用于多个领域,如自动驾驶等。新发布的Core ML模型涵盖多个领域,开发者可使用coremltools转换模型格式,优化设备性能,减少内存占用和功耗。
网址: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型 | 机器之心
 
标题: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
 


摘要: 科大讯飞发布讯飞星火大模型V4.0,该模型在医疗、教育等领域有重大突破,整体性能超越GPT-4 Turbo,成为国内领先的大模型。V4.0在文本生成、语言理解等七大核心能力上全面升级,并在多个国际测试中排名第一。此外,星火大模型还加强了复杂指令跟随和长文本处理能力,并推出新功能——长文本内容溯源,提高了答案准确率。在多模态方面,星火大模型V4.0的图文识别能力持续升级,超越了OpenAI的最新旗舰模型。语音能力也是科大讯飞的绝对优势,V4.0增加了对37种方言的识别,实现了74种语言免切-自由交流。同时,讯飞还展示了超复杂场景语音转写的能力。在医疗领域,讯飞推出了医疗大模型「讯飞晓医」,可以为普通用户提供病历、体检报告解读等服务。在教育领域,讯飞发布了星火智能批阅机和升级后的AI学习机,提高了教育效率。此外,讯飞还推出了「个人空间」,打造懂你的AI助手。
网址: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一 | 机器之心
 
标题: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
摘要: AI实时生成视频的新纪元已经到来!尤洋团队推出了首个基于DiT的实时视频生成方法——Pyramid Attention Broadcast(PAB)。该方法通过减少冗余注意力计算,实现了高达21.6FPS和10.6倍加速,同时保持了视频生成模型的质量。PAB作为一种免训练方法,可为将来任何基于DiT的视频生成模型提供实时功能。这一创新引来了网友和专业人士的惊叹与好评。团队通过比较不同时间步骤的注意力差异,提出用PAB减少不必要的注意力计算,从而节省计算量。相关研究已公开,该团队由尤洋教授领衔,成员包括赵轩磊、王锴和金小龙。
网址: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元 | 量子位
 
标题: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限
 


摘要: OpenAI发布了新模型CriticGPT,该模型基于GPT-4训练,旨在改进下一代GPT训练。CriticGPT在代码挑错方面表现出色,能找到75%以上的Bug,远超人类的25%,且其评论更受人类训练师青睐。该模型还能泛化到代码之外的任务,如RLHF训练中的AI输出挑错,并已进入OpenAI内部训练流程。CriticGPT的成功意味着AI在挑错能力上有望突破人类上限,实现自我改进。该研究由前超级对齐团队负责人Jan Leike带队,虽已解散,但成果仍具重要意义。同时,OpenAI还发布了相关论文,展示了其研究诚意。
网址: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限 | 量子位
 
标题: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
 


摘要: 近日,由LeCun和谢赛宁等大佬共同提出了全新的SOTA MLLM——Cambrian-1,该模型以视觉为中心设计多模态模型,并全面开源了相关权重、代码、数据集及微调评估方法。Cambrian-1围绕五个关键方面构建,包括视觉表示、连接器设计、指令微调数据、指令微调策略和实践以及基准测试,旨在弥补多模态学习中视觉研究的不足,打破语言依赖的瓶颈。模型采用MLLM指令微调作为评估协议,强调视觉问答在解决现实世界感知任务中的重要性。研究团队通过谷歌TPU训练,展示了该模型在视觉表征能力上的优势,并呼吁学界业界共同推进以视觉为中心的多模态学习研究。此外,项目还得到了Jeff Dean和Demis Hassabis等业界大佬的支持。
网址: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V - 智源社区
 
标题: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾
 


摘要: 算法起源于计算机视觉领域,后逐渐迁移至语音、NLP等领域。近年来,随着Transformer的出现,NLP成为新算法发源地,再逐渐应用于视觉领域。今年,计算机视觉似乎重回第一赛道。在智源大会的「视觉大模型」专题论坛上,多位专家探讨了视觉大模型的最新研究成果和实践经验。其中,潞晨科技的申琛惠介绍了Open Sora高效低成本视频生成模型,旨在通过低成本开源方案引入社区,采用基于主流的DiT框架和类似Sora的过程生成视频。生数科技的鲍凡则展示了高保真4D重构模型Vidu4D,该模型采用全球首个Diffusion Transformer融合架构,支持多模态生成式建模和4D表示提取,具有作为世界模拟器的潜力。这些研究展示了视频生成模型在帧真实性和3D一致性方面的优势,以及通过大模型探索世界模型的两条道路。
网址: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾 - 智源社区
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/753930.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

http服务网络请求如何确保数据安全(含python示例源码)

深度学习类文章回顾 【YOLO深度学习系列】图像分类、物体检测、实例分割、物体追踪、姿态估计、定向边框检测演示系统【含源码】 【深度学习】物体检测/实例分割/物体追踪/姿态估计/定向边框/图像分类检测演示系统【含源码】 【深度学习】YOLOV8数据标注及模型训练方法整体流程…

Charles抓包工具系列文章(三)-- 接口映射工具(Map Remote和Map Local)

一、背景 前文的http请求都是静态的,像compose a new request,仅适用于接口的自测。 回放repeat 一个 http 请求,也无法做到动态调试。 这里的动态还是静态,是站在客户端的角度,数据是实时的,可调试的。 …

市场拓展招聘:完整指南

扩大招聘业务会给你带来很多挑战,更不用说你已经在处理的问题了。助教专业人士每周花近13个小时为一个角色寻找候选人。此外,客户的需求也在不断变化,招聘机构之间的竞争也在加剧。毫无疑问,对增长有战略的方法会有很大的帮助。一…

《Redis设计与实现》阅读总结-4

第 17 章 集群 Redis集群是Redis提供的分布式数据库方案,集群通过分片(sharding)来进行数据共享,并提供复制和故障转移的功能 一、命令 CLUSTER MEET命令:用来连接不同的开启集群支持的 Redis 节点,以进入…

dataX同步SQLserver到MySQL数据

引用datax官方描述: DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS…

易用且免费的在线3D交互编辑器?

目前市面上的在线3D交互编辑器,有收费、免费、永久免费的。 1、博维数孪:永久免费的在线3D数字孪生应用平台,用户可以轻松创作和分享多种应用类型,包括3D交互展示、3D产品目录、交互式动画、3D产品配置器、交互式演示文稿、在线商…

webstorm无法识别tsconfig.json引用项目配置文件中的路径别名

问题 vite项目模板中,应用的ts配置内容写在tsconfig.app.json文件中,并在tsconfig.json通过项目引用的方式导入 {"files": [],"references": [{"path": "./tsconfig.app.json"},{"path": "./t…

Dominate_一个用于生成和操作 HTML 文档的 Python 库

目录 01初识 Dominate 什么是 Dominate? 为什么选择 Dominate? 安装与配置 02Dominate 的基本使用 创建简单的 HTML 文档 添加表格 嵌套结构 03Dominate 的高级功能 动态内容生成 使用…

【自动化测试】Selenium自动化测试框架 | 相关介绍 | Selenium + Java环境搭建 | 常用API的使用

文章目录 自动化测试一、selenium1.相关介绍1.Selenium IDE2.Webdriverwebdriver的工作原理: 3.selenium Grid 2.Selenium Java环境搭建3.常用API的使用1.定位元素2.操作测试对象3.添加等待4.打印信息5.浏览器的操作6.键盘事件7.鼠标事件8.定位一组元素9.多层框架定…

CO-DETR利用coco数据集训练和推理过程

CO-DETR利用coco数据集训练和推理过程,参考链接 Co-DETR训练自己的数据集 文章目录 前言训练过程推理过程总结 前言 环境:PyTorch 1.11.0 Python 3.8(ubuntu20.04) Cuda 11.3 先是在github上下载CO-DETR模型 !git clone https://github.com/Sense-X/Co…

新手教程系列 -- SQLAlchemy对同一张表联表两次

在开发过程中,我们经常会遇到对同一张表进行多次联表查询的需求。比如在查询航线时,我们希望将起飞和降落的机场名称代入结果中。为了实现这一目标,机场名称统一存放在 AirPort 表中。下面,我们将介绍如何通过 SQLAlchemy 实现这一需求。 问题描述 一般情况我们第一时间会…

针对VMWare无法使用鼠标功能键问题

在使用 VMWare 虚拟机的Ubuntu系统时发现无法使用许多鼠标带有额外的功能键,比如常用的前进后退,但是双系统中的Ubuntu没有问题,后来一搜发现是,虚拟系统中不支持这些功能键。因此我们对这个问题进行了解决。 解决方案 1.找到自…

Jenkins容器的部署

本文主要是记录如何在Centos7上安装docker,以及在docker里面配置tomcat、mysql、jenkins等环境。 一、安装docker 1.1 准备工作 centos7、VMware17Pro 1.2 通过yum在线安装dokcer yum -y install docker1.3 启动docker服务 systemctl start docker.service1.4 查看docke…

【AUTOSAR 基础软件】DEM模块详解(诊断故障管理)

文章包含了AUTOSAR基础软件(BSW)中DEM模块相关的内容详解。本文从ISO标准,AUTOSAR规范解析,ISOLAR-AB配置以及模块相关代码分析四个维度来帮读者清晰的认识和了解DEM这一基础软件模块。文中涉及的ISOLAR-AB配置以及模块相关代码都…

hive零基础入门

1、hive简介 hive:由facebook开源用于解决海量结构化数据的统计工具。 hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张表,并提供sql查询功能。 2、hive本质 hive的本质是HQL(HiveSQL)转化成MapR…

【人工智能】—XGBoost、CatBoost、LightGBM算法构建信用卡欺骗识别模型

引言 在金融领域,信用卡欺诈行为一直是银行和金融机构面临的一大挑战。随着电子商务的快速发展,信用卡欺诈事件的数量和复杂性都在不断增加。据统计,全球每年因信用卡欺诈造成的损失高达数十亿美元。因此,开发有效的欺诈检测系统…

检索增强生成 (RAG):揭开这一术语的神秘面纱并解释其带来的价值

一、介绍 如今,数据已成为新的黄金,而高效筛选这些丰富信息的能力则是成功企业脱颖而出的关键。Retrieval Augmented Generation(RAG)是创新的标杆,尤其是在知识管理领域。它不再只是为了存储信息,而是为了…

半小时速通Python爬虫!GitHub开源的Python爬虫入门教程

今天给小伙伴们带来了一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者。 小伙伴们只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫。 这篇 Python 爬虫教程主要讲解以下 5 部…

爆款短视频素材库有哪些?分享几个容易火的视频素材网站

当今自媒体时代,每位内容创作者都渴望制作出下一个爆款短视频。你是否在寻找那些能让你的视频迅速蹭热度的顶级素材库?本文将为你介绍几个视频素材库,它们或许能成为你成功的秘密武器。首先要提的,自然是著名的国内素材库——蛙学…

信创加密沙箱,是如何应对国产化系统加密下的场景的?

SDC信创加密沙箱作为一款基于国产操作系统(如麒麟、统信等)设计的安全防护工具,以安全沙箱为核心概念,对沙箱内的数据和应用进行全面保护,保障业务系统和核心资料的安全。 信创加密沙箱的背景与意义 在当前复杂的网络…