张小珺Jùn|商业访谈录

张小珺
张小珺Jùn|商业访谈录

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)

  1. 6日前

    103. Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈

    今天的嘉宾又是一位AI应用创业者,Lovart创始人陈冕。 他的产品成为2025年既Manus之后,另一个在全球斩获一定知名度的Agent。不同的是,Manus是通用Agent,Lovart是垂直Agent,面向设计师使用。 与其说他是做产品的CEO,他的精神状态更贴近一名“战斗型CEO”。 这次访谈发生Lovart火了之后,你能感受到陈冕在过去2年遭遇了补贴战争、产品下架、账上只剩4000块现金的绝境、怎么都融不到资等一系列愤懑之后——此时此刻,充斥着的要溢出的快乐。 这是2025年对一位Agent创业者精神状态的截取。浪潮的大幕才刚刚拉开。 2025,期待我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 03:00 开始的快问快答 漂泊 05:00 一个90后的不断跳槽的10年移动互联网经历 (腾讯、360、百度、滴滴、摩拜、美团、每日优鲜、字节教育和剪映) 07:02 经历了两次战斗,战斗正酣的时候是顶点,后面一地鸡毛 13:58 从0到1做瓜瓜龙,刚升字节4-1,就撞上双减了 15:18 换一种选择,会更好吗? AI来了,觉得自己被解救了 25:25 AI至少是电脑的发明,比肩信息革命的变革(智能化vs信息化) 28:58 被救赎的一刻:“希望是一切痛苦的解药,是一切痛苦的意义” 29:51 避开大模型主航道和语言主轴,选择多模态、创作 2023年:前一秒赢了中国第一,下一秒被下架了、裁员了、没钱了 36:00 见的第一个投资人是张予彤 37:43 2023年6月-9月,我全情的战斗!——3个月烧了200万美金 39:03 前一秒刚赢了中国第一,下一秒被下架了、裁员了、没钱了 40:45 怎么看投流?怎么看Kimi投流? 42:35 被下架什么心情?奔溃啊 44:09 公司账上只剩4000块 45:17 现在获客成本是多少?怎么有效获取用户? 49:38 时机稍纵即逝,好的节奏时一定要扩大战果 2024年:哐哐哐狂投 50:05 2024年哐哐狂投,一个月一轮融资,close了3轮 52:21 我们非常清楚第一代产品liblib的局限性,开始考虑第二代产品 55:58 第二代产品Lovart是怎么预研的? 2025年:Lovart火了 59:48 如果这个设计师叫Lovart,他/她又Love art,还蛮酷的 01:01:47 争抢“全球第一个XX Agent”究竟带来什么? 01:03:00 为啥搞邀请码成了标配? 01:03:56 Lovart火了之后 01:07:30 AI应用创业的know-how 这是我创业最!!爽的!!东西!! 01:19:57 我是双子座,时而发狂,时而很软 01:24:04 与焦虑共生,就是干! 01:25:26 这是我创业最!!爽的!!东西!! 01:28:00 但在这一刻就是好爽啊!!!我爽了好一会儿——就是我朴实的快乐哈哈哈哈哈 01:28:32 给我多少钱、给我多少职级,都买不到 01:32:35 在陌生领域的创新,就像用火柴在潮湿的木头上反复地滑动,点燃又熄灭;直到有一天,你抓住了某一个缝隙,把木柴点燃,火势弥漫整个山洞 01:33:58 2023年底去高瓴办公室,阳光中,我恍惚了 大闹一场,悄然离去 01:35:00 童年:漂泊、武侠小说和电脑游戏 01:26:01 我不知道故乡是哪,只能一直往前走 01:38:46 给其他AI应用创业者的建议 01:42:29 最后的快问快答 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

    1 小時 45 分鐘
  2. 6月2日

    102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

    今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。 广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。 张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。 他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。 下面是广密和祥雨的聊天。 2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)多模态研究的10年史:迷茫和转机02:00 张祥雨的学术经历和个人研究主线 12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史 17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观 18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的 24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系 29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合? 38:45 做了大半年十分迷茫,但在此刻出现了转机 训练大模型发现的怪事、蛛丝马迹与办法41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降 43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实 44:33 经过分析,这是next token prediction的本质缺陷 45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验 47:27 生成模型的“特征坍缩现象” 50:48 解决方案就是引入RL(强化学习) 53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need” 01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern 01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT 对多模态研究的新思考和新进展01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目 01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT 01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT) 01:19:06 尝试了半年,结果给大家透露一下吧! 01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern 01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误 01:24:07 o1激发的反思pattern,在预训练语料中都有分布了 01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law? 01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间 01:45:42 多模态的“GPT-4时刻”还有多久 预见下一个“GPT-4时刻”01:46:56 long context和多模型协作 02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质) 02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习 02:21:22 澄清一些有关Agent的观点 02:25:00 人虽然没有生成器官,但人有世界模型 02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

    2 小時 29 分鐘
  3. 5月28日

    101. 对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍

    今天的嘉宾是明超平(小明/Leon),一名AI应用创业者。 2024年的AI叙事还是大模型,《商业访谈录》访谈了杨植麟、王小川、李开复等大模型公司创始人;稍一转眼,2025年的AI叙事已然变成应用公司和Agent——新的主角登场了。 这集节目和往期《对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量》一样,也是来自一线“AI应用爆发”、“Agent爆发”的前沿声音。 在中国创投圈,明超平是一位创业伊始就受到资本相对共识的创业者。他出生于95年,曾先后在OnePlus、ByteDance、Moonshot做产品。这是他第一次做CEO,发的第一个产品叫YouWare。 他和我们此前的两位嘉宾有一些渊源:一个是杨植麟,2023年他和杨植麟深谈了10个小时,从白天到黑夜,聊完决定加入Moonshot;另一个是肖宏,有时候我会听到创投业人士将小明与小红对比来聊,说他们都属于“Hands-on型、产品型创业者”。 是不是这样呢?今天的3小时访谈希望能呈现小明的真实状态,是不是大家说了算。 不过,虽然老被关联,小红与小明至今没见过。 期待2025,我们和AI共同进步:) 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 03:16 开始的快问快答 那些散漫的叛逆的挫败的少年成长 04:36 童年和少年片段 06:52 我在武大打辩论,尤其擅长四辩 13:00 辩论让我学会的最重要的:“永远具有第三方视角,辩论不是说服你的对手”,“1秒钟把自己变成傻子”(by张小龙) 14:40 大学后两年基本睡在实验室里,沉浸式打“智能汽车竞赛”,拿了国奖 19:43 哎,好惨,惨痛的经历——我是输掉比赛最多的队员,也是拿最佳辩手最多的队员 23:06 那是学长的退役比赛,我到今天还很愧疚 产品经理之路的前三站:OnePlus、ByteDance、Moonshot 26:37 产品经理之路第一站:OnePlus导师带我们去坐地铁、逛商场 30:18 “体验不是数据”:续航数据和续航体验不划等号,95-100%和0-5%电量是用户对体验最敏感焦虑的时候 33:58 产品经理之路第二站:刚去字节极不适应,觉得自己很菜 37:42 字节产品方法论劣势是什么?“它会磨灭掉很多灵光一现的创意” 39:35 “数据是‘开车的后视镜’,但它不能指引你前进” 41:03 字节没有乔布斯,字节没有张小龙,但字节有一鸣啊——有一些很小很小的创业团队,一鸣都聊过了 42:08 怎么看字节过去这些年出来了许多创业者,但无人大成? 43:28 23年和杨植麟聊了10个小时,聊音乐、艺术、爱好、产品、过去的经历,实在是到晚上8点我们要去吃pizza,我说“要不给我讲讲技术吧” 50:14 海外产品Noisee的走红与骤停 01:03:03 字节能成为字节,契合了时代几个重要变量(移动设备普及、带宽速度、推荐引擎) 跳下大船创业啦! 01:05:05 立马就遇到the bitter lesson(苦涩的教训) 01:11:59 想雕花的本能,情不自禁给它更多脚手架,你会和这个时代的最大变量背道而驰 01:12:45 突然意识到,这个东西不对劲——产品没上线就停掉了 01:13:18 失眠的顿悟:AI时代关键指标之一是“token消耗速度”,要追求“per token valuation” 01:16:33 “壳”被低估了,应该叫“容器”和“环境”(环境是人的反应器) 01:17:52 只给用户一个Chatbot输入框,是蛮不负责任的 01:21:18 今天Coding发展和当年Camera类似,早期聊相机说的是“拿着单反的人”,巨大变化是出现了新的人群——“手机摄影师” 01:23:50 早期趋势变量是出现新的人群,增速快,今天的新人群是“Vibe Coder(氛围编程师)” 01:25:23 今天Anthropic是不是承担索尼的角色?其他创业公司把时间花在Camera/基座模型上,还是花在——随着Camera迭代出现了Snapchat、Instagram、TikTok、TikTok Live 今天的Agent就像大猩猩刚拿起一根烧火棍 01:37:12 Agent未来可能的两种生态:类比新加坡vs美国 01:40:44 Page rank变成Agent rank 01:42:07 如果你把所有to C公司都变成to B公司,会受到大家的反抗 01:44:02 Agent的网络效应 01:46:02 我们也想成为OS Agent呀!——路径不告诉你:) 01:46:30 我对团队说:“咱们99.9%是要死掉的” 01:46:57 今天的Agent像一个大猩猩拿起石头开始砸东西 01:47:58 “永远相信Model会变好,永远相信Model和你无关” 01:49:50 基础模型在造更聪明的人,应用公司在通过环境/经验适用我们的生产需求 01:53:54 我设想的OS Agent:它是活的 01:58:26 Agent接下来会像人类社会出现部落,遇到信任问题,需要身份证、密码锁 02:03:33 过去2年对AI技术和产品的观察(以更高效的方式消耗token、压榨智能) 第一次做CEO 02:14:50 给你的员工提供情绪价值 02:19:53 90后founders更自信、更洒脱、更叛逆 02:21:17 融资风生水起,我却感觉如履薄冰 02:23:35 有意识地对抗Ego 02:33:45 棋手和对弈的人 02:36:57 最后的快问快答 相关单集: 和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora 和王小川聊再创业这一年:回应朱啸虎与中国AGI第三种可能 和李开复聊聊:如果美国形成AGI霸权,我们应该怎么办? 对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

    2 小時 43 分鐘
  4. 5月23日

    100. 对话奔驰全球CEO康林松:转型期CEO和转型之中的139岁奔驰

    2025年3月底,奔驰汽车全球CEO康林松先生(Ola Källenius)来华9天,期间我对他做了一次访谈。 奔驰是世界上第一个发明了燃油车的公司,现在正处于奔驰139年历史上最重大变革时期,可以说康林松是主导这场关键变革的“一名转型期CEO”。 他1969年出生于瑞典,1993年加入了奔驰,绝大多数职业生涯都在奔驰;6年前,他在2019年担任了奔驰全球CEO。值得一提的是,他是奔驰历史上第一位在上任时非德裔的CEO。 我和康林松先生聊了聊他上任6年的重要战略决策(包括豪华车战略、电动化战略)、中国市场的成与败、科技平权与豪华车是否有悖论,以及在他领导之下的这场奔驰有史以来最重大的关键变革。 我想给大家呈现的是一个,转折之中的139岁巨人。 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 04:12 第一部分:谈中国市场 过去6年,你对中国市场最重要的观点是什么? 你们在中国的市场份额过去3年一直下降,什么原因导致的? 这是否意味你们在中国的电动车之战中,输了? 你们更强调豪华车战略,而不是电动化转型,是这样吗? 你喜欢中国汽车里的彩电、冰箱、大沙发吗? 你们在中国市场的成败会决定全球转型的成败吗? 计划采用哪些创新策略来扭转在中国市场的局面? 18:24 第二部分:谈AI和新技术 外界说特斯拉在电动车上比你们领先10年,你如何回应? 但如果你们无法控制所有技术,你们能控制自己的豪华车吗? 随着汽车行业转向电动化和智能驾驶,奔驰没有完全引领这些新技术,奔驰还能主导豪华吗? 你们正在测试固态电池,能否分享更多进展? 人工智能将如何改变全球汽车行业的游戏规则? 中国DeepSeek正在全球范围内崛起,你会考虑合作吗? 随着“技术民主化”,技术不再是超级排他性,消费者还需要豪华车吗? 如果必须在豪华和科技之间选择,你会选择哪一个? 如果卡尔本茨先生还在世,你觉得他会选哪一个? 40:17 第三部分:谈转型期CEO和转型之中的奔驰 拥有139年历史的奔驰巨头,如今正处于其历史上前所未有的转折点上? 回到2019年5月22日,你接任首席执行官的那一天,那天都发生了什么? 作为变革时期掌舵者,请说出你至今面临过的最大困境 特斯拉和中国车企仍然是创始人驱动,而德国汽车制造商经历了几代职业经理人,这是否会让德国汽车制造商更加保守? 你有没有感觉过,这位139岁的巨人转型缓慢? 当你做出每一个重大决定时,有没有觉得本茨先生在关注着你?这会让你有很大压力吗? 如果能问卡尔本茨先生一个问题,你想问什么?

    58 分鐘
  5. 4月28日

    99. 对能量奇点创始人杨钊3小时访谈:人类驯服可控核聚变还有多少路程?

    2021年,Sam Altman以个人名义向美国核聚变初创公司Helion Energy注资3.75亿美金,这是他迄今最大的一笔个人下注。Helion豪言称,将在2028年前建成全球首座50兆瓦聚变电厂。 马斯克持不同看法。他曾说:“我们的头顶一直就有一个取之不尽、用之不竭的核聚变反应堆——太阳”。他相信太阳能才是人类能源问题的根本路径。 不过,在许多人眼中,可控核聚变仍然是“能源界的圣杯”。 随着今天我们向AGI迈进,能源将是文明演进的最大瓶颈——毕竟,AGI或许不惧怕人类,但一定害怕断电。 这集节目,我邀请了中国可控核聚变创业公司、能量奇点创始人杨钊来聊聊。相比AI,可控核聚变是一条更漫长、更人迹罕至的创业之路。 它几乎是面对人类有史以来最复杂的物理难题之一,站在科技与人类文明的边界上,做技术摸索。 节目中,杨钊帮我们做了一次关于可控核聚变的前沿技术科普;作为中国可控核聚变事业的参与者,他也相对清晰地计算出了,人类驯服可控核聚变还需要多少资金要消耗?还有多少路程要走?我们也聊了聊,在更远处的未来,当能源成为无限,我们的世界、我们的文明又将怎样? 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:00 开始的快问快答 高频专业名词解释04:10 核聚变、核裂变、可控核聚变、托卡马克、高温超导托卡马克,全世界只有3台全低温超导装置 13:22 多国联合推出的“国际热核聚变实验堆计划”(ITER), 一个超大型托卡马克装置,已投入资金250亿欧元,建设周期30年 14:47 高温超导材料和低温超导材料都是低温(高温超导在的能量增益的条件下,可以将装置体积缩小两个数量级,也意味建造成本大约缩小两个数量级) 19:17 一个关键指标:Q值/能量增益由三乘积(等离子体的密度×温度×约束时间)决定,Q值全球最高刚过1,目前追求Q>10 可控核聚变的历史21:55 从爱因斯坦质能方程E=MC²开始说起,非常小质量损失会产生巨大能量 27:09 从氢弹到惯性约束到磁约束,不同磁场形状对应不同磁约束分叉技术路线 27:50 上个世纪60年代,苏联想到用甜甜圈一样的磁场位形托卡马克路线 28:50 全世界大概有100台以上托卡马克装置 29:11 从用铜做托卡马克的时代过渡到用超导做托卡马克 30:17 2024年,我们建成全世界第一台全高温超导托卡马克(“洪荒70”装置) 核聚变创业这4年34:01 2021年想法:也许高温超导显著缩小装置体积,将成本两个数量级降低 39:43 想清楚以后搭团队,最开始4个人 41:05 杨钊的个人背景:斯坦福博士方向是比较底层的物理,量子引力、弦论、量子引力和量子信息的交叉,离这个世界比较远的基础物理 46:36 人类科学的“明珠”和“有生之年”系列 51:05 从博士毕业到核聚变创业之间?在金沙江创投美国做EIR(驻场准创业者)、第一段人工智能和音乐教育结合的创业 55:36 2021年初,针对核聚变科研院所和供应商的市场调研 “洪荒70”、“洪荒170”和经天磁体59:37 “洪荒70”是怎么建造的?做一台全高温超导托卡马克需要几步? 01:07:33 每个环节都在不断出问题,你越接近实物状态,你的问题越大、问题越多,改动修补成本越高 01:15:43 “洪荒70”的意义 01:18:49 通往第一个可控核聚变商品的“三步走” 01:21:10 经天磁体(大孔径磁体)和“洪荒170”的意义 01:35:18 点评世界上3台全低温超导装置(中国合肥的EAST、韩国的KSTAR、日本的JT-60SA) 01:38:40 “洪荒380”,按照完整能长时间运行的示范电站的要求做 人类驯服可控核聚变还有多少路程?01:41:40 Sam Altman迄今为止最大的一笔个人投资是Helion Energy:“磁场位形是直线性的,不像我们是甜甜圈” 01:45:06 核聚变和AI的关系是什么? 01:52:13 中美核聚变市场格局的分割与差异 01:54:10 我们和CFS(Commonwealth Fusion Systems,美国麻省理工学院分拆出来的联邦核聚变系统公司)技术路线是相似的 01:56:40 真正聚变商业化的原料需要用氘氘去发电,而不是氘氚 02:03:16 当能源无限,世界会怎么样? 02:04:57 聊聊自我与组织、登山与跌落 02:30:57 最后的快问快答 位于上海临港的能量奇点现场及装置图: (上图:公司外) (上图:厂房内) (上图:“洪荒70”建设中) (上图:“洪荒70”等离子体) (上图:“洪荒70”建成时刻) (上图:“经天磁体”) (上图:“经天磁体”的测试系统,“经天磁体”躺在大罐子里) 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

    2 小時 35 分鐘
  6. 4月6日

    98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

    今天的嘉宾是清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇。他的研究和创业方向都是人形机器人。 大语言模型浪潮爆发后,学界和工业界看见了机器人从专用走向通用的可能迹象,机器人革命随之而来。其中,本轮革命最重要的是,对机器人底层架构,也就是机器人“大脑”的探索。 但通用机器人还在科学研究阶段,处于产业发展早期。这集节目,陈老师将带领大家,概览式阅读机器人基座模型和当下最前沿的架构VLA架构(Vision-Language-Action Model,视觉语言动作模型)的经典论文。 希望我们的节目能直观地帮助更多人靠近科学前线,感受技术之美,并且能直观感知当前技术拐点。 还是那句话:期待2025,我们和AI共同进步! (因为因为,陈老师真的分享了很多很多的动图和视频,本集结合视频服用效果更佳噢!可以前往:含投屏的视频版本。嘿嘿!预祝你学得开心!学得顺利啦!)我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)02:30 陈建宇的研究和创业方向 04:11 讲解开始前,先提问几个小问题 17:36 当下最大变量:从专用模型到通用模型(robot foundation model)的可能性 21:12 大模型浪潮爆发后,机器人领域经历了两个阶段:从利用基础模型进行机器人研究(leveraging foundation models in robotics)到为机器人预训练基础模型(pretraining foundation models for robotics) 第一阶段:利用基础模型进行机器人研究(leveraging foundation models in robotics)21:59 机器人传统三板块:Planning+Perception+Actuation(规划+感知+执行)——第一步,用LLM(Large Language Model,大语言模型)替代Planning 23:54 由Google Robotics团队提出的具身智能开创性论文Say Can《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》 (中文名:我能做到,而不是我说到:将语言与机器人的可供性相结合) 27:03 第二步,用VLM(Vision-Language Models,视觉语言模型)替代Perception 27:52 来自Google的论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》 (中文名:内心独白:通过语言模型规划进行具身推理) 29:51 由清华和上海姚期智研究院提出的《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》 (中文名:DoReMi:通过检测和恢复规划-执行不一致来落地语言模型) 32:47 第三步,想把Actuation进一步自动化,用Code LM(专门用于代码相关任务的大型语言模型)来替代Actuation 32:24 由李飞飞团队提出的《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》 (中文名:VoxPoser:使用语言模型进行机器人操作的可组合3D价值地图) 第二阶段:为机器人预训练基础模型(pretraining foundation models for robotics)38:36 VLA端到端模型(Vision-Language-Action Model,视觉语言动作模型)——“人是很智能的VLA Agent” 39:53 关于VLA的经典论文及分类: 40:17 Aloha论文《Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware》 (中文名:学习用低成本硬件进行精细双手操作) 47:36 Mobile Aloha论文《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》 (中文名:移动ALOHA:使用低成本全身远程操作学习双手移动操作) 50:15 论文《A Generalist Agent》介绍了一个名为Gato的通用型人工智能代理 (中文名:通用型代理) 52:45 RT-1论文《RT-1: Robotics Transformer for Real-World Control at Scale》 (中文名:RT-1:机器人Transformer用于大规模现实世界控制) 59:02 Octo论文《Octo: An Open-Source Generalist Robot Policy》 (中文名:Octo:一个开源的通用机器人策略) 01:02:20 CrossFormer论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》 (中文名:扩展跨具身学习:操控、导航、运动和飞行的统一策略) 01:06:58 字节跳动AI Lab的两个工作GR-1和GR-2: 《Unleashing Large-Scale Video Generative Pre-Training For Visual Robot Manipulation》(为视觉机器人操控释放大规模视频生成预训练模型) 《A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation》(用于机器人操作的网络规模知识生成视频-语言-动作模型》) 01:15:02 Palm-E论文《PaLM-E: An Embodied Multimodal Language Model》 (中文名:PaLM-E:具身多模态语言模型) 01:20:02 当前VLA最有名的开山工作:Google推出的RT-2论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》 (中文名:RT-2:视觉-语言-动作模型将网络知识迁移到机器人控制中) 01:26:05 RT-X论文《Open X-Embodiment: Robotic Learning Datasets and RT-X Models》 (中文名:开放X具身:机器人学习数据集与RT-X模型) 01:31:16 《OpenVLA: An Open-Source Vision-Language-Action Model》(约等于开源版RT-2) (中文名:OpenVLA:一个开源的视觉-语言-动作模型) 01:32:56 陈建宇课题组《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》 (中文名:HiRT:利用分层机器人Transformer增强机器人控制) 01:38:40 Figure AI Helix,没发论文,但是今年Figure最新架构 01:39:28 Pi0论文《π₀: A Vision-Language-Action Flow Model for General Robot Control》 (中文名:π₀:一个视觉-语言-动作的流模型用于通用机器人控制) 01:41:36 英伟达最近发布的GROOT N1模型《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》 (中文名:GR00T N1:通用人形机器人的开放基础模型) 01:42:32 《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》 (中文名:扩散策略:通过动作扩散进行视觉运动策略学习) 01:47:39 清华发布的《RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation》 (中文名:RDT-1B:双手操作机器人的扩散基础模型) 01:51:04 《Prediction with Action: Visual Policy Learning via Joint Denoising Process》(动作预测:通过联合去噪过程进行视觉策略学习) 和续作《Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations》(视频预测策略:一个预测视觉表征的通才机器人策略) 02:03:06 两个未来方向:《UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent》(UP-VLA:具身智能体的统一理解与预测模型) 《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通过在线强化学习改进视觉-语言-动作模型) 02:09:22 最后的提问 【技术之美】系列: 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净” 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学” 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

    2 小時 30 分鐘
  7. 3月30日

    97. 25年Q1大模型季报:和广密聊当下最大非共识、AGI的主线与主峰

    很多人在催更《全球大模型季报》的2025年第一集,在Q1的最后一天,终于和大家见面了! 这一集广密依然带来了信息满满的有关于全球大模型最新的的前沿认知。经历了最近几个月的全球AI格局巨变,他最大的变化是,重新坚信了Pre-training(预训练)——认为只有Pre-training才能决定模型内在的上限,涌现新能力,而Post-training+RL(后训练+强化学习)是加强。 在这一集季报中,我们对于Q1的全球明星DeepSeek、作为模型“盗火者”的Manus、OpenAI的烟雾弹、硅谷的认知分歧与价值观、未来的范式级新路线,都进行了一一讨论。更重要的是,他更新了在一位AGI原教旨主义者的眼中,AGI的主线、珠峰与路途。 希望《全球大模型季报》能持续陪伴你,2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)04:22 Pre-training叙事卷土重来今天最大非共识是Pre-training空间还非常大,Pre-training决定了模型内在的上限 还是要再喊一下,大家还是要重视Pre-training了,这个最本质 OpenAI现在不那么重视Pre-training,为什么?OpenAI的Pre-train核心团队一直挺动荡 11:56 Coding是最通用赛博世界的环境,是模型的手我对两年内实现AGI有前所未有的信心 Coding意义不在于编程本身,而在于Coding是数字经济GDP活动最重要的环境,是最通用的赛博世界的环境 Coding是比搜索引擎和推荐引擎重要的东西 19:55 OpenAI vs Anthropic:战略是不同组织能力的表达OpenAI和Anthropic同宗同源,最开始路线一样,但走着走着,核心战略bet或路线已经发生了分化 OpenAI是frontier team做出了O系列,frontier team的老大Mark Chen现在成为了仅次于Sam/Greg的三号人物 硅谷的认知分歧?这个问题本质是:智能重要,还是流量重要? 我有点担心OpenAI过早的走向一家消费互联网公司 30:18 一位AGI原教旨主义眼中的AGI roadmap(路线图)智能提升是唯一主线,智能本身就是最大应用 今天回头看,ChatGPT只是这座高山山脚的第一站,后面还有很多个山头:Coding、Coding Agent、General Agent、AI for Science、Robotics ChatGPT只是前菜,接下来Agent才是正餐 今天还是围绕智能主线,最重要的是push智能能力往上走,做应用的要构建一个环境或容器,承接研究溢出的智能红利 文生图有可能是OpenAI烟雾弹 今天做Robotics Foundation model/Research的做法不够本质 26/27年可能是AI for Science爆发的时间点 43:00 智能的本质是什么?这是个极好的问题——大家有想法可以打在评论区:) 人类进化就3个关键词:1. 生存,2. 探索,3. 自动化 智能进步的衡量标志是什么? 一个Chatbot对话可能消耗几千个Token,一个Perplexity搜索大概几十K Token,但一个Manus平均可能要70-80万个Token 48:03 Agent是新物种“智能水平离AGI越近,可能就越像宇宙大爆炸” Agent落地最关键的3个能力:1. Long Context reasoning, 2. Tool use, 3. Instruction following指令遵循 AGI接下来的milestone是long-term memory,这个会取代long context 55:49 未来范式级的路线,可能Online Learning是一个 如果说未来还有范式级的路线,可能Online Learning是一个,让模型可以在线自主探索并学习 对GPU或者英伟达叙事影响有多大? 怎么看待贾扬清的公司(Lepton AI)被卖掉?英伟达在下一盘什么大棋? 01:02:45 模型与产品的关系、壁垒和商业模式今天定价为什么20美元,是copy SaaS的定价吗?但SaaS不会消耗大量token 裸模型发布的时代即将结束?形成壁垒主要是两个:一是成为Cloud,OpenAI自己变成微软的Azure Cloud;二是成为OS,要有生态,后面打造新的Operating System 投资人怎么投AI应用? 模型长期会把产品吃掉吗?本质是,feature system vs Learning system哪个更快 Perplexity/Cursor/Manus都是“模型的盗火者” 01:15:11 全球大模型公司竞争格局和全球AI产品公司GPT-4.5算不算领先?GPT-5为什么一直在跳票?OpenAI有没有失败的风险? 怎么看待OpenAI支持了Anthropic的MCP协议?OpenAI和微软为什么会有裂痕?分家对微软影响多大? Manus vs Perplexity,都是执行力很强的团队,被称作“套壳之王” 理想的投资组合:25% Anthropic, 25% Bytedance, 10% OpenAI, 10% Mira Thinking Machine Lab, 5% SSI, 5% Cursor, 5% Manus, 另外15%还没想好 如果DeepSeek融资,我会放基金的25% 01:54:32中美格局:如何跨越地缘封锁科技投资不是靠“混”能混出结果的,很多VC investor到处混圈子,其实没意义,还是得靠“创造” 【全球大模型季报】系列 2023年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观 2024年Q1:和广密聊AGI大基建时代:电+芯片=产出智能 2024年Q2:口述全球大模型这半年:Perplexity突然火爆和尚未爆发的AI应用生态 2024年Q3:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL 2024年Q4:大模型季报年终特辑:和广密预言LLM产品超越Google之路 【免责声明】 单纯内容分享,不作为投资建议。 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

    2 小時 1 分鐘
  8. 3月16日

    96. 和郎咸朋聊,自动驾驶10年演进史、关键技术细节和特斯拉

    今天发布的是和理想汽车自动驾驶研发副总裁郎咸朋的聊天。本次访谈发生在2024年12月,和我们之前发布的《对李想的3小时访谈》在同一时期进行。 郎咸朋13-18年在百度做自动驾驶,18年加入理想,过去10年都在中国的自动驾驶领域。他以亲历者的视角聊了自动驾驶10年演进史,详解了其中的关键节点和技术细节。这次谈话更像是对自动驾驶的一次技术科普。我觉得我们聊的还不错,所以决定分享给大家。 (因为访谈发生在去年,如果大家听到今年,指的是24年;如果听到去年,指的是23年。) 期待2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)01:32 10年前的自动驾驶当成有轨电车研发,现在看起来很可笑 04:30 2018年,从高精地图+激光雷达到BEV+Transformer,Tesla是标杆 12:07 当年激光雷达50-60万/台,早期百度/Cruise一辆车7-8个激光雷达,传感器成本远高于这辆车(当时我们在百度,一辆车500万人民币) 13:09 为什么特斯拉要用视觉解决问题?为什么自己造芯片? 15:16 特斯拉一辆车的传感器+芯片成本?一辆车有几个芯片? 20:06 特斯拉总在用“升维”方式解决问题 25:06 激光雷达和camera解决方案区别 28:46 端到端、“我们以前做自动驾驶都做错了” 41:14 我的工作经历:13-18年在百度,18年开始在理想 50:50 “L3不是L2的延长,而是L4的先导” 01:15:15 端到端是最典型的强化学习,端到端+VLM+世界模型是RL架构 01:26:40 2024年3月李想对智驾团队发火 01:32:23 “卫城”项目:“他就觉得你一定要跪下来求他”“老子就算死也要站着死” 01:35:51 想过职业生涯栽在这儿吗?李想脾气不太好? 【从蒸汽机到无人驾驶】系列 对李想的3小时访谈(播客版):宅男、AI、家庭、游戏和天梯 和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊 和楼天城聊聊Robotaxi和ACRush:“L2做得越厉害,离L4越远” 从蒸汽机到无人驾驶3|和孟醒聊特斯拉FSD进化史 从蒸汽机到无人驾驶4|Waymo和它的对手们:我暗中考察了四个月 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

    2 小時

關於

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)

你可能也會喜歡

如要聆聽兒童不宜的單集,請登入。

隨時掌握此節目的最新消息

登入或註冊後即可關注節目、儲存單集和掌握最新消息。

請選擇國家或地區

非洲、中東和印度

亞太

歐洲

拉丁美洲與加勒比海

美國和加拿大