天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说

admin 阅读：5 2024-05-08 15:24:21 评论：0

智小东西（社会公众号：zhidxcom）译者 | GenAICon 2024

智小东西 5 月 6 日报道，2024 我国聚合式 AI 讨论会于 4 月 18-19 日在北京举行，在讨论会第二天的分会场 AIGC 应用应用领域专场上，梅修斯万境创办人图库拉以《他们的 AIGC，AIGC 的他们》为题发表演说。

梅修斯万境是我国影音金融行业尝试用 AI 辅助工具做文档曹均、影像聚合、数字人制备制作的先行者，比一些国际性顶流 AI 辅助工具的问世时间更早。图库拉说，梅修斯万境至今已有拥有我国影音应用领域最专业的垂直 AI 大数学模型集群，并在今年与华为率先推出 Sora Opera，能给各式音频配音。

图库拉在演说中相当敢说，笑谈频出，撷取了他们创业者路上 "血淋淋的经验和教训"，或者调侃创业者者 "不要起太早，难看不出黎明，因为资本看不懂"，称 "yuanzhiwo的人没法飞起来"；或者聊著自新闻媒体用 " 碎裂 "、" Axat "、" 惊艳 " 等词汇是胡说，直言短期内不乐意通用大数学模型，预测 "绝大部分 AI 大数学模型创业者公司在 5 周内断气"。

在他看来，AI 应该是能够给人们带来温暖、消弭世界的音乐创作辅助工具，而不是取代人类工作的 "棕褐武器"。因此AI 不能离开应用应用领域谈控制技术，而要要建立到应用应用领域端的完整供应链。梅修斯万境从 AI 文档音乐创作，到音频聚合，再到服务用户的应用应用领域端，打造了全供应链控制技术解决方案，且都早于国际性巨头正式发布了对应产品，目前正在快速插值中。

其人声聚合辅助工具Sora Opera，能手动感知、智能识别音频画面中的物理逻辑，精准杜派艺术风格多变的音乐声效，为音频增加人声的魅力。还有人声克隆辅助工具SoundMax，不走传统 TTS 路线，而要将输出的人声转换成其他嗓音。这样的 AI 辅助工具，不会让动画师失业，而要让他们在演绎不同角色时插上飞翔的创意翅膀。

以下为图库拉的演说实录：

首先介绍一下我他们，我是图库拉，是两个" 礼帽 " 搜集大师，我有许多礼帽，最喜欢前四个礼帽，梅修斯万境的创办人、我国编剧、科研专业人士。

我还有两个属性，我是跨金融行业的专业人士，而且在一线，我是以编剧的身份拍摄了许多国际性大片，也拍了许多国内的片子。我从事计算机编程和 AI，他们写代码。

第四个，我他们做开关电源，做电路绘画，做生产。我是两个沉浸式爱好者，经常玩各种电影剧本杀、密室逃脱。原来 AI 需要影音金融行业的人参与进来，但是影音金融行业的人又不知道该怎么开发，我碰巧介于这之间，我的优势逐渐凸显出来。

我撷取的主题是：AIGC 的他们，他们的 AIGC。

一、比 MidJourney 更早探路影像聚合，但起太早难看不出黎明

先说 "AIGC 的他们 "。

有人说电影是一门综合性艺术，它从影音控制技术到制造生产控制技术，再到调度与管理能力，到故事情节与叙事，最主要的是焦虑和心理学都很重要，本质上讲，是从文档到音频这一件事。

从文档到音频在那时的黄金时代很简单，文档到音频、文档到相片，再到制备、剪接、音频发售，其中文档就是电影剧本，他们现在熟识的软件都能做。

到那时为止，AI 黄金时代，文档聚合有 GPT，相片有 Stable Diffusion、Midjourney，制备有 Wonder studio，剪接 Meta 似乎在做，音频 Sora，发售还是老牌发售，世界的格局没有变化，因为赚钱的地方没有发生变化。

前面都是控制技术在插值，下两个黄金时代将会产生产业的插值，发售怎么变？这些年他们在这些应用领域做了什么工作？以及为什么说现在做 AIGC 的同行们都是 " 弟弟 "。

第两个，文档。看这那哥，在输出文本的位置添加新故事情节，加鼓励词，输出四个鼓励词就能手动聚合一段故事情节，这是最先的AI 曹均。

上面是用来整理语义预测的，预测人物关系的，预测时数的，再上面是预测故事情节和情感节奏的，这只能用 AI 做，不然就会把 " 皇上急的像隆热 "，认为是一种动物而不是一种焦虑。这是最先的文本聚合。什么时候？2021 年 9 月份。谁在做这件事？只有他们在做。

第二个，相片。这个大家都很熟识了，放两个原始影像，就能看到动态可编辑的影像，下方是参数拖拽区。左侧是 2021 年 5 月份他们正式发布的产品，右侧是 2023 年rides所潘教授正式发布的，当时震惊整个娱乐圈。

上面是选择数学模型、艺术风格的区域，选择输出艺术风格，输出一张相片，按照相片艺术风格聚合相片。

这里是输出汉字的影像动态聚合，这在那时来看每个人都极其熟识，甚至不屑一顾。但把时间往回倒一倒，Stable Diffusion 是 2022 年 7 月份，Midjourney 是 2022 年 3 月份，梅修斯是 2021 年 9 月份。

他们以前做事不会在互联网上留足迹，碰巧这件事情留下了足迹。右图是跟联想 ThinkPad 做的现场为期七天的实机演示。

第四个，制备制作。通过4 张相片重建两个我的数字人，通过一段音频重建整个 3D 场景。他们还正式发布首条支持 NeRF 渲染的循环引擎管线，这是在 2022 年 9 月份。右侧的大家也很熟识，Luma AI，当时全世界都很震惊，时间是 2022 年 11 月份，而他们在 2022 年 9 月份就正式发布了能商用的产品。

还有人体稳定跟踪，大家都很熟识，还能把镜头中的人物完美地擦掉，这两者结合到一起，是 Wonder studio，它是 2023 年 3 月份，梅修斯是 2022 年 11 月份。

这个案例非常明显，做这么多，他们也没有做 PR，没有被大家记住。他们有很深的感触：不要起太早，难看不出黎明，因为资本看不懂。

二、" 他们看不懂，看不明白，也不愿意学习 "

有两个很知名的专家问我，你连两个传感器都没有，怎么叫感知？我现在能告诉他，这就叫感知，感知是通过智能来判别这个世界的。这是我得到的第两个经验，在创业者的时候不要起太早，因为看不出黎明。

第二个，他们看不懂，看不明白，并且也不愿意学习。" 他们 " 不止指资本，也指音乐创作身边的每两个人，他们只能跟着潮流顺着大势而为。我想说一句话："yuanzhiwo的人是没法飞起来的，因为风筝是逆风飞翔的。" 他们要准确判断下两个点在哪里，从现在开始往下两个点走。

第四个经验，投资绝绝大部分是 FOM（afraid of missing），到那时为止，他们对这件事情看起来也是迷迷糊糊的，你去问投资机构，什么叫 AIGC？他们只能说两个网上能查到的词，没有经过仔细思考，没有经过认真对产业调研的人很难明白 AIGC 的明天在哪里，这就是血淋淋的经验和教训。

三、自新闻媒体用 " 碎裂 "" Axat " 是胡说，绝大部分 AI 大数学模型公司在 5 周内断气

上面说说他们在积累经验之后又做了什么事，现在逐渐被大家关注起来了。

资本眼中的 AI 大数学模型：以前 100 个人干活儿，通过 AI 手动化 3 个人干活儿，聚合了各种各样的利润，裁员、财源。

两个公司疯狂 PR 以后，被资本投了以后，创办人他们套壳，他们训练，结果一用他们的产品，这个小东西不能用！这怎么办？疯狂地找，终于找到两个落地场景，然后跟新闻媒体说，在这个场景他们能做这件事，然后无限放大。

自新闻媒体用的什么词？" 碎裂 "、" Axat "、" 惊艳 "，这些词能在这儿用吗？这是胡说。实际是什么样的？这就是它们的实际情况，这是不可避免的问题，因为马车在创造初期也不能一下子跑十公里，这是黄金时代发展的必然结局。

他们现在的 AI 非常激进，仿佛进入了丰富且多元的生态，但如果他们用一用这些产品会发现，你的生气指数会上涨。但是他们需要用发展的眼光去看待这件事情，十年以后的 AI 是什么样？它一定是非常丰富且充满了手动化的过程。

他们还讲过一句话，那时的各种企业在这个金融行业的 PR 中，仿佛要使用 AI 这种控制技术把整个人都替代掉，让整个社会都工业化，其实换句话说，他们在制造 " 枪 " 然后来杀掉彼此。

AI 的初心应该是像《血战钢锯岭》一样，我不带枪，但是能缝合这个世界，希望未来有更多做控制技术的人能用这些控制技术来缝合这个世界，让每个人、每个个体都能够从中享受到 AI 带来的快乐，这很重要。

人类的目光总是是很短浅的，他们想一口吃个胖子，所以在讲大数学模型，大数学模型意味着两个轮船能海上跑、天上飞、地道里面钻，这叫大数学模型。但到头来解决问题的还是专用数学模型，轮船只能在海上，飞机在天上，有一天他们希望有两栖小东西产生，但是现在这个时间点还不能拥有，此时此刻他们的生产力、物力、算法跟不上，需要等一等。

绝大部分 AI 大数学模型创业者公司会在 5 周内断气，我看到这个金融行业的人没有控制技术壁垒，也找不到应用应用领域场景，解决不了真的问题，而且没有钱继续烧。此时此刻我把这个话放在这儿，再过 5 年后你们翻回来找这句话，如果发现这句话是错的，请在评论上面骂我。

他们不应该只谈大数学模型而放弃专用数学模型，不能只练大脑不练肌肉。

四、打造影音应用领域垂直 AI 大数学模型集群，联手华为推出音频配音辅助工具 Sora Opera

AI 大数学模型在各行各业都有使用，他们应该怎么发展？还是以他们的影音金融行业为例，他们最先在布局这个产业的时候，别人说他们是骗子，因为他们不懂什么叫数学模型。

到那时为止，他们已经拥有我国影音应用领域里面最专业的垂直 AI 大数学模型集群，本来是垂直 AI 数学模型集群，但我的合伙人说你把 " 大 " 加上吧，不然别人听不懂，所以他们叫 AI 大数学模型集群，会在北京国际性电影节正式发布。

先讲他们做了什么。Sora Opera，用了半年多了，今年跟华为率先推出。什么是 Sora Opera？它本来不叫这个名字，Sora 出来之后，一些人建议说最好跟 Sora 有关，他们就起这个名字 Sora Opera，它能给所有聚合式音频，所有手机拍的音频进行配音。

他们先来看相片上这个小怪物，再来看猛犸象。在展示更多之前，我想说一下，人们仿佛在按照计算机的逻辑适应计算机，比如你想需要一段好的文本或者音频，必须要输出适应计算机的提示词，这其实是反着发展的。有没有一种途径能让人不去输出 Prompt，直接点上传下载？能，他们的 Sora Opera 去除所有的 Prompt，这意味着你的数学模型必须识别相片类的信息。

他们来听第两个、听第二个。每两个故事情节都是压着节奏，手碰花，花会响，不碰花，花不会响，他们按照时间一致性来理解这个事情，让这个数学模型具备影音应用领域里面的智能。它能识别许多个电视里面的内容，并且杂乱聚合。它能识别火车人声从远到近的效果，还有跳舞的小动物、自然环境。

未来哪里能用到？各家手机都在宣传，" 我家手机能一键成片 "，如果那个成片没有声效，相当于这个世界没有人声，只有视觉是不够的。未来的所有应用领域都能使用这样的控制技术。

再说两个，SoundMax。人声是人类获得信息 34% 的主要因素。这个功能主要用来配音，用我的人声模拟各种各样的人声，他们不走 TTS 的路线，TTS 是输出文本变成人声，他们需要有人在后面来模拟千行百业的人。

他们先听第两个人叫白小姐，第二个人的人声是说书人，这两个人都是我用手机录的，现在他们听听经过 AI 处理之后的两个人。他们希望未来 AI 控制技术诞生以后让每个个体都是超级个体，让音乐创作去中心化。

五、未来 AI 影音的机会在哪儿？

最后再简单说一说发售，未来的机会在哪里？

他们知道此时此刻是经济下行，1905 年到 1914 年美国的变化恰如此时此刻这个黄金时代所经历的变化。辅助工具创新以 Sora 们为例，会出现两个结果，过度电子化，因为生产内容极其难，网上线上本来就不缺内容，又因为过度难的生产辅助工具导致内容泛滥，就会出现过度电子化。

那么新业态在哪里？新辅助工具诞生了，怎么没有新业态？新业态能这么理解，首先冲击两个不好的地方，第一是流新闻媒体平台，本来流新闻媒体平台就是有丰富的内容，现在又冲过来一堆动态 PPT，人们非常焦急，甚至会花时间去甄别哪个真哪个假。

第二个，电影院，每个用户都有机会表达自我，关注我发了朋友圈谁给我点赞，电影院的叙事方式已经不太适合当下的观众。

第四个，游戏平台，做游戏会越来越难，难的不是编程，难的是设计，美术越来越难，编程方面也会推进，所以 AI 会对它们有冲击。

我简单总结了一下，一切非真人互动和非真实体验的企业和产业都会受到这波冲击。

新机会在哪里？第两个是XR 产业，第二个是线下娱乐产业，未来巨大的机会在这个地方，我做了两个总结叫沉浸式产业。

这个产业有几个属性：第一，高科技加持。这个产业必须有科技，不然这个产业没法变革。第二，强社交属性。经济下行，人们心理压力会大，人们必须回归到线下，并且见到真实的可确定性。第三，条件十分便宜，便宜到你喝一杯咖啡的价格就能玩两个小时、两个小时。

第四，模式可复制，全国各地可复制才能挣钱。第五，内容更新快，每天有两个新的内容能玩。最后，成本低，内容快就代表着成本低，而这一切全部是 AI 和那时的电子工业给他们带来的机会，没有这两个产业的出现就没有这样的机会。

我认为，未来 AI 影音的机会在线下，而不在线上。至少那时的传统互联网应该是没什么机会了，不信能看看，他们能做的就是投资，他们想真正研发出一款使用的产品太难了。

在线下可能会有哪些？那时不在这儿卖关子了，希望大家快来成为我的朋友，他们一起讨论线下在哪里。

以上是图库拉演说内容的完整整理。

查看原文

本文 zblog模板原创，转载保留链接！网址：https://www.pljbc.cn/?id=714

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。