Gairdao Community

Loading...

137 个结果

两月蒸发1.6万亿：SaaS 被AI「杀死」了吗？ | GAIR Live 025

旧的 SaaS 范式正在瓦解，但属于 AI Native 的黄金时代才刚刚拉开帷幕。作者丨岑峰胡敏今年开年，全球软件股的投资人共同经历了一场“惊魂六十天”。去年底到今年初，市场尚沉浸在“AI 应用大爆发”的幻梦中，然而 1 月底，Anthropic 甩出了能够自主操控电脑、实现自主办公的 Claude Cowork ，直接震碎了传统 SaaS 的估值逻辑。短短两个月，北美软件股蒸发了超 1.6 万亿美元市值。市场弥漫着一种近乎绝望的论调：既然 AI 已经可以像人一样操作电脑、接管业务流，那么过去二十年里我们辛苦构建的图形界面和业务软件，是否已经沦为了落后的生产力？针对这些事关生死的问题，在雷峰网 GAIR Live 线上圆桌中，三位深耕 SaaS 行业、视角互补的行业老兵—— ▪ 何润：致趣百川联合创始人兼CEO； ▪ Daniel：资深投资人，互联网大厂业务负责人； ▪ 吴昊：《 SaaS 创业路线图》作者、SaaS 领军企业天使投资人、前执行总裁；展开了一场一个半小时的硬核对谈嘉宾们针对 SaaS 的现状与未来给出了极具穿透力的判断。 01 近期...

on 2026-04-24

CVPR 2026 世界模型论文全景梳理：从生成到建模的关键转变

世界模型：通过统一建模空间结构、时间演化与物理规律，实现对现实世界的理解与模拟。作者丨郑佳美编辑丨岑峰在过去几年中，视频生成技术取得了令人瞩目的进展。从基于扩散模型的方法到大规模视频基础模型，生成结果在视觉质量上已经逐渐逼近真实世界。然而，当我们进一步审视这些模型时，一个更本质的问题开始显现：它们究竟是在“理解世界”，还是仅仅在“拟合像素分布”？传统视频生成方法大多建立在 2D 图像空间之上，通过逐帧建模来合成动态内容。这种范式虽然在短时间尺度和视觉表现上表现出色，但也暴露出一系列根本性局限：相机运动难以精确控制，多物体交互缺乏一致性，长时间生成容易出现结构漂移，甚至在复杂场景中违背基本物理规律。这些问题的共同根源在于模型缺乏对“世界本身”的建模能力。正是在这一背景下，“世界模型（World...

on 2026-04-24

清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级丨CVPR 2026

CFG-Ctrl：将不稳定的扩散模型引导机制转化为可控动态系统，实现更稳定、更精准文生图生成。作者丨郑佳美编辑丨岑峰很多人在使用文生图工具时都会遇到类似的情况，输入一段很清晰的描述，希望画面中人物站在左边、动物在右边，或者希望海报上出现一段完整可读的文字，但生成结果却常常让人失望。要么位置关系混乱，要么文字变形，要么整体画面看起来不自然。继续调整参数，有时结果会更接近描述，但画面质量却明显下降，颜色变得奇怪，结构开始扭曲。反复尝试之后，往往需要生成十几张甚至几十张图，才能勉强挑出一张可用的。这种既想让模型听懂指令，又不希望画面被破坏的矛盾体验，已经成为很多用户在实际使用生成模型时的共同感受。随着生成式人工智能逐渐进入设计、电商、内容创作等真实场景，这种问题变得更加突出。用户不再只是追求一张看起来不错的图，而是希望结果稳定、结构正确、细节可靠，可以直接用于实际工作。然而现有方法在可控性和稳定性之间始终存在明显冲突，模型越是强调语义对齐，就越容易牺牲视觉质量，这种内在限制逐渐成为生成模型走向更广泛应用的一道门槛。...

on 2026-04-27

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写

视觉智能：从单一感知能力，扩展为融合感知、认知与行动的一体化智能形态。作者丨郑佳美编辑丨岑峰如果回看过去十年的计算机视觉发展，其主线其实非常清晰：从早期以 ImageNet classification 为代表的“识别范式”，到以检测、分割为核心的“结构理解”，再到扩散模型推动的“生成范式”，视觉研究始终围绕一个核心目标展开——让机器更准确地“看见世界”。然而，这一路径在近两年开始出现明显的边界：当模型已经可以在静态图像上达到接近甚至超过人类的感知水平时，“看得更准”本身，正在变成一个边际收益递减的问题。在这样的背景下，在 CVPR 2026 中的一些相关工作所呈现出的，不再只是性能曲线的继续上扬，而是一种更深层的范式转向：视觉不再被视为终点，而被重新定位为一种中介能力，它服务于更高层的目标，例如推理、决策与交互。这种变化直接体现在多个层面：一方面，越来越多工作开始质疑以语言为中心的推理路径，尝试让模型在视觉或潜在空间中直接完成结构推理；另一方面，研究者也在反思现有评测体系与数据构建方式，因为如果评价标准本身存在偏差，那么所谓的“进步”很可能只是对...

on 2026-04-28

全网最强万字解读：DeepSeek-V4 掀翻了谁的桌子？ | GAIR Live 030

370倍的鸿沟，不只是限时促销作者 | 岑峰 GPT-5.5 “大杯版”的输出价格是 130 美元/百万 Token，而 DeepSeek-V4 只要 2.5 元人民币。在同样的智能水位下，两者的成本差了整整 370 倍。这绝非一场互联网式的“补贴大战”或限时促销，而是一场已经持续了四年的中国特色“效率革命”。在 Agent 时代，当长程任务的一致性需求迫使 Token 消耗量呈指数级增加时，DeepSeek-V4 延续了其“用更少的资源做更多的事”的硬核传统，再一次以极致的压缩方案，将百万上下文的门槛从“奢侈品”变成了“日用品”。但省钱从来不是免费的午餐。每一次效率的跨代领先，都在系统复杂度、生态锁定和能力边界上埋下了伏笔。为什么 OpenAI、Anthropic 始终坚守稠密模型与原生长窗？DeepSeek 与昇腾芯片的深度软硬绑定，究竟是国产替代的曙光，还是构建了新的技术孤岛？当大模型竞赛进入“系统战争”的深水区，谁能定义下一个十年的 AI 基础设施？在Deepseek V4发布当天的GAIR Live圆桌上，雷峰网联合创始人岑峰对话三位行业专家： ...

on 2026-04-28

CVPR 2026 生成式 AI 观察梳理：视觉模型开始重写默认设定

从扩散控制到语义泛化，视觉 AI 进入范式重构期。作者丨郑佳美编辑丨岑峰过去几年，视觉生成与视觉理解领域的技术推进，整体上始终沿着一条相对明确的路径展开：当一套建模范式被验证有效之后，后续的大量工作往往都会围绕这套既有框架持续做模型扩容、训练增强、采样优化与局部模块修补，以此换取更高的性能上限。无论是扩散生成、视频 world model，还是动作建模与视觉匹配，主流研究在很长时间里都更多表现为对既有系统的持续加固，而不是对底层假设本身的重新审视。但从今年 CVPR 集中出现的一批代表性工作来看，这种相对稳定的技术推进逻辑正在发生值得警惕的变化。越来越多研究已经不再满足于在现有模型框架内部继续做增量式性能修补，而是开始系统性地把问题重新拉回到那些长期被工程实践视为“默认正确”的基础设定上。扩散模型中的引导机制是否真的合理，视频生成是否必须建立在 diffusion 的反复去噪之上，生成模型所学习的预测对象是否从一开始就遵循了最自然的数据流形，以及人体动作生成与语义对应任务中长期被粗粒度评价掩盖的控制边界和泛化边界，是否都需要被重新定义。...

on 2026-04-30

CVPR 2026 四篇论文透视：大厂如何靠「算法瘦身」对抗算力涨价？

2026年，大厂们不再比谁的GPU多，而是比谁的算法更聪明。作者丨陈淑瑜编辑丨岑峰一个在2026年越来越难以回避的问题是：如果H100全面断供、电费账单直线飙升、训练一次大模型的成本足以买下一家创业公司，大模型的故事还讲得下去吗？也许顶级学术会议的论文能给大家一个新的启发。今年的CVPR收到了四千余篇投稿，其中一个清晰的信号正在浮现：大厂不再比拼GPU数量，而是较量如何把GPU用得更好。算力封锁之下，算法正在成为新的护城河。在论文的汪洋中，字节跳动Seed团队是出手最密集的玩家之一。 AI 科技评论聚焦四篇来自字节跳动的论文——TEMF、Beyond Token Eviction、Mixture-of-Depths Attention和GenieDrive。它们全都围绕一个核心命题展开：当算力不再能够"暴力"解决，算法如何接棒？这四篇论文覆盖了一条完整的链条：从生成模型的采样步数压缩，到推理过程的显存瘦身，再到注意力计算资源的动态分配，最终延伸到端侧部署的物理感知。它们不是孤立的创新，而是Seed团队围绕"算力降本"这一命题打出的组合拳。 ...

on 2026-05-15

CVPR 2026 自动驾驶与协作智能梳理：模型正在走向可控真实世界

从仿真构造到多主体配合，AI 正在补齐行动决策链条。作者丨郑佳美编辑丨马晓宁过去，视觉模型更多是在回答“看见了什么”，但当 AI 进入自动驾驶、游戏、机器人和多智能体协作场景时，问题已经不只是识别环境，而是“看见之后如何行动”。一辆自动驾驶汽车不能只知道前方有车，还要判断如何避让、如何规划路线，甚至要在遮挡、夜晚和复杂天气中借助外部信息补足感知，一个游戏智能体不能只识别画面里的角色、障碍和敌人，还要把连续观察转化成具体操作；多个机器人或虚拟人也不能只是各自执行动作，而要根据队友位置、物体形状、任务目标和团队规模动态配合。这种变化在 CVPR 2026 的相关研究中变得更加清晰：自动驾驶方向不再只关注单一感知模块，而是开始围绕可控场景生成、真实感仿真、端到端驾驶对齐和空间检索增强展开。智能体方向也不再停留在“看见运动”，而是进一步探索如何从视频追踪走向动作学习，如何从互联网规模的玩家视频中恢复操作监督；多智能体方向则把问题推进到更复杂的团队行为，包括任意队伍规模下的人形协作，以及离线数据条件下的多目标协作学习。...

on 2026-05-15

CVPR 2026 视频模型趋势梳理：不止生成下一帧，更要理解下一步

视频智能正从画面生成走向运动控制、动态建模、信号理解与真实场景应用。作者丨郑佳美编辑丨马晓宁过去，视频生成更多是在解决“像不像”的问题：人物是否清晰，画面是否流畅，风格是否统一。但随着模型能力提升，视频真正困难的部分开始显现出来——它不是一组漂亮帧的连续播放，而是一个由时间、空间、运动、相机、光照和物理信号共同构成的动态系统。只要模型无法理解这些隐含结构，它生成的视频就可能看似逼真，却在运动逻辑、视角一致性或真实场景适应上露出破绽。因此，视频智能正在进入一个更深的阶段：不只是生成画面，而是理解画面为什么会这样变化。从运动轨迹编辑、3D 结构约束、可迭代文生视频，到自适应视频 token、长期运动表征、频闪去除、热成像分离和地球观测模型，研究者实际上都在处理同一个底层问题：如何让模型把视频从“像素序列”理解为“动态世界”。这也是今年 CVPR 相关方向中一个值得注意的信号——视频模型的竞争重心，正在从视觉质量转向对时间、空间和物理规律的建模能力。换句话说，视频 AI...

on 2026-05-15

告别天价账单：端云协同与记忆革命，让 Agent 告别「烧钱时代」丨 GAIR Live 029

当 Agent 不再是昂贵的实验品，而是像水和电一样的基础设施时，真正的 AI 时代才算真正降临。作者丨岑峰 2026 年，大模型行业的叙事中心正在经历一场痛苦但必然的位移：从追逐参数规模的“算力竞赛”，转向追求任务落地的“工程突围”。在这场位移中，AI Agent无疑是最被寄予厚望的终极形态，但它正面临一堵名为“Token 焦虑”的围墙。为什么 Agent 的普及如此之难？因为我们正处于一种极其低效的生产模式中：为了让 Agent 维持对话的连贯性，系统不得不反复加载数万字的上下文；一次简单的任务调度，往往伴随着不可预测的高昂账单；而数据隐私在端与云的频繁传输中，更是变得岌岌可危。 Agent 的普及，正困在安全、成本与智能的“不可能三角”中。但这究竟是模型推理的硬性支出，还是系统基建效率低下的隐形成本？为了拆解这一本质命题，雷峰网举办了“从 Token 焦虑到记忆革命”主题的GAIR Live线上圆桌。论坛由雷峰网岑峰主持，特邀：李志宇记忆张量 MemTensor 联合创始人兼 CTO；闫宇坤 Qiyuan Lab 副研究员清华大学 THUNLP...

on 2026-05-15

User Profile