天图万境图拉古:大部分大模型公司5年内死去,自媒体用“炸裂”“吊打”是瞎说

admin 阅读:5 2024-05-08 15:24:21 评论:0

智小东西(社会公众号:zhidxcom)译者 | GenAICon 2024

智小东西 5 月 6 日报道,2024 我国聚合式 AI 讨论会于 4 月 18-19 日在北京举行,在讨论会第二天的分会场 AIGC 应用应用领域专场上,梅修斯万境创办人图库拉以《他们的 AIGC,AIGC 的他们》为题发表演说。

梅修斯万境是我国影音金融行业尝试用 AI 辅助工具做文档曹均、影像聚合、数字人制备制作的先行者,比一些国际性顶流 AI 辅助工具的问世时间更早。图库拉说,梅修斯万境至今已有拥有我国影音应用领域最专业的垂直 AI 大数学模型集群,并在今年与华为率先推出 Sora Opera,能给各式音频配音。

图库拉在演说中相当敢说,笑谈频出,撷取了他们创业者路上 "血淋淋的经验和教训",或者调侃创业者者 "不要起太早,难看不出黎明,因为资本看不懂",称 "yuanzhiwo的人没法飞起来";或者聊著自新闻媒体用 " 碎裂 "、" Axat "、" 惊艳 " 等词汇是胡说,直言短期内不乐意通用大数学模型,预测 "绝大部分 AI 大数学模型创业者公司在 5 周内断气"。

在他看来,AI 应该是能够给人们带来温暖、消弭世界的音乐创作辅助工具,而不是取代人类工作的 "棕褐武器"。因此AI 不能离开应用应用领域谈控制技术,而要要建立到应用应用领域端的完整供应链。梅修斯万境从 AI 文档音乐创作,到音频聚合,再到服务用户的应用应用领域端,打造了全供应链控制技术解决方案,且都早于国际性巨头正式发布了对应产品,目前正在快速插值中。

其人声聚合辅助工具Sora Opera,能手动感知、智能识别音频画面中的物理逻辑,精准杜派艺术风格多变的音乐声效,为音频增加人声的魅力。还有人声克隆辅助工具SoundMax,不走传统 TTS 路线,而要将输出的人声转换成其他嗓音。这样的 AI 辅助工具,不会让动画师失业,而要让他们在演绎不同角色时插上飞翔的创意翅膀。

以下为图库拉的演说实录:

首先介绍一下我他们,我是图库拉,是两个" 礼帽 " 搜集大师,我有许多礼帽,最喜欢前四个礼帽,梅修斯万境的创办人、我国编剧、科研专业人士。

我还有两个属性,我是跨金融行业的专业人士,而且在一线,我是以编剧的身份拍摄了许多国际性大片,也拍了许多国内的片子。我从事计算机编程和 AI,他们写代码。

第四个,我他们做开关电源,做电路绘画,做生产。我是两个沉浸式爱好者,经常玩各种电影剧本杀、密室逃脱。原来 AI 需要影音金融行业的人参与进来,但是影音金融行业的人又不知道该怎么开发,我碰巧介于这之间,我的优势逐渐凸显出来。

我撷取的主题是:AIGC 的他们,他们的 AIGC。

一、比 MidJourney 更早探路影像聚合,但起太早难看不出黎明

先说 "AIGC 的他们 "。

有人说电影是一门综合性艺术,它从影音控制技术到制造生产控制技术,再到调度与管理能力,到故事情节与叙事,最主要的是焦虑和心理学都很重要,本质上讲,是从文档到音频这一件事。

从文档到音频在那时的黄金时代很简单,文档到音频、文档到相片,再到制备、剪接、音频发售,其中文档就是电影剧本,他们现在熟识的软件都能做。

到那时为止,AI 黄金时代,文档聚合有 GPT,相片有 Stable Diffusion、Midjourney,制备有 Wonder studio,剪接 Meta 似乎在做,音频 Sora,发售还是老牌发售,世界的格局没有变化,因为赚钱的地方没有发生变化。

前面都是控制技术在插值,下两个黄金时代将会产生产业的插值,发售怎么变?这些年他们在这些应用领域做了什么工作?以及为什么说现在做 AIGC 的同行们都是 " 弟弟 "。

第两个,文档。看这那哥,在输出文本的位置添加新故事情节,加鼓励词,输出四个鼓励词就能手动聚合一段故事情节,这是最先的AI 曹均

上面是用来整理语义预测的,预测人物关系的,预测时数的,再上面是预测故事情节情感节奏的,这只能用 AI 做,不然就会把 " 皇上急的像隆热 ",认为是一种动物而不是一种焦虑。这是最先的文本聚合。什么时候?2021 年 9 月份。谁在做这件事?只有他们在做。

第二个,相片。这个大家都很熟识了,放两个原始影像,就能看到动态可编辑的影像,下方是参数拖拽区。左侧是 2021 年 5 月份他们正式发布的产品,右侧是 2023 年rides所潘教授正式发布的,当时震惊整个娱乐圈。

上面是选择数学模型、艺术风格的区域,选择输出艺术风格,输出一张相片,按照相片艺术风格聚合相片

这里是输出汉字的影像动态聚合,这在那时来看每个人都极其熟识,甚至不屑一顾。但把时间往回倒一倒,Stable Diffusion 是 2022 年 7 月份,Midjourney 是 2022 年 3 月份,梅修斯是 2021 年 9 月份。

他们以前做事不会在互联网上留足迹,碰巧这件事情留下了足迹。右图是跟联想 ThinkPad 做的现场为期七天的实机演示。

第四个,制备制作。通过4 张相片重建两个我的数字人,通过一段音频重建整个 3D 场景。他们还正式发布首条支持 NeRF 渲染的循环引擎管线,这是在 2022 年 9 月份。右侧的大家也很熟识,Luma AI,当时全世界都很震惊,时间是 2022 年 11 月份,而他们在 2022 年 9 月份就正式发布了能商用的产品。

还有人体稳定跟踪,大家都很熟识,还能把镜头中的人物完美地擦掉,这两者结合到一起,是 Wonder studio,它是 2023 年 3 月份,梅修斯是 2022 年 11 月份。

这个案例非常明显,做这么多,他们也没有做 PR,没有被大家记住。他们有很深的感触:不要起太早,难看不出黎明,因为资本看不懂

二、" 他们看不懂,看不明白,也不愿意学习 "

有两个很知名的专家问我,你连两个传感器都没有,怎么叫感知?我现在能告诉他,这就叫感知,感知是通过智能来判别这个世界的。这是我得到的第两个经验,在创业者的时候不要起太早,因为看不出黎明

第二个,他们看不懂,看不明白,并且也不愿意学习。" 他们 " 不止指资本,也指音乐创作身边的每两个人,他们只能跟着潮流顺着大势而为。我想说一句话:"yuanzhiwo的人是没法飞起来的,因为风筝是逆风飞翔的。" 他们要准确判断下两个点在哪里,从现在开始往下两个点走。

第四个经验,投资绝绝大部分是 FOM(afraid of missing),到那时为止,他们对这件事情看起来也是迷迷糊糊的,你去问投资机构,什么叫 AIGC?他们只能说两个网上能查到的词,没有经过仔细思考,没有经过认真对产业调研的人很难明白 AIGC 的明天在哪里,这就是血淋淋的经验和教训

三、自新闻媒体用 " 碎裂 "" Axat " 是胡说,绝大部分 AI 大数学模型公司在 5 周内断气

上面说说他们在积累经验之后又做了什么事,现在逐渐被大家关注起来了。

资本眼中的 AI 大数学模型:以前 100 个人干活儿,通过 AI 手动化 3 个人干活儿,聚合了各种各样的利润,裁员、财源。

两个公司疯狂 PR 以后,被资本投了以后,创办人他们套壳,他们训练,结果一用他们的产品,这个小东西不能用!这怎么办?疯狂地找,终于找到两个落地场景,然后跟新闻媒体说,在这个场景他们能做这件事,然后无限放大。

自新闻媒体用的什么词?" 碎裂 "、" Axat "、" 惊艳 ",这些词能在这儿用吗?这是胡说。实际是什么样的?这就是它们的实际情况,这是不可避免的问题,因为马车在创造初期也不能一下子跑十公里,这是黄金时代发展的必然结局

他们现在的 AI 非常激进,仿佛进入了丰富且多元的生态,但如果他们用一用这些产品会发现,你的生气指数会上涨。但是他们需要用发展的眼光去看待这件事情,十年以后的 AI 是什么样?它一定是非常丰富且充满了手动化的过程

他们还讲过一句话,那时的各种企业在这个金融行业的 PR 中,仿佛要使用 AI 这种控制技术把整个人都替代掉,让整个社会都工业化,其实换句话说,他们在制造 " 枪 " 然后来杀掉彼此。

AI 的初心应该是像《血战钢锯岭》一样,我不带枪,但是能缝合这个世界,希望未来有更多做控制技术的人能用这些控制技术来缝合这个世界,让每个人、每个个体都能够从中享受到 AI 带来的快乐,这很重要。

人类的目光总是是很短浅的,他们想一口吃个胖子,所以在讲大数学模型,大数学模型意味着两个轮船能海上跑、天上飞、地道里面钻,这叫大数学模型。但到头来解决问题的还是专用数学模型,轮船只能在海上,飞机在天上,有一天他们希望有两栖小东西产生,但是现在这个时间点还不能拥有,此时此刻他们的生产力、物力、算法跟不上,需要等一等

绝大部分 AI 大数学模型创业者公司会在 5 周内断气,我看到这个金融行业的人没有控制技术壁垒,也找不到应用应用领域场景,解决不了真的问题,而且没有钱继续烧。此时此刻我把这个话放在这儿,再过 5 年后你们翻回来找这句话,如果发现这句话是错的,请在评论上面骂我。

他们不应该只谈大数学模型而放弃专用数学模型,不能只练大脑不练肌肉。

四、打造影音应用领域垂直 AI 大数学模型集群,联手华为推出音频配音辅助工具 Sora Opera

AI 大数学模型在各行各业都有使用,他们应该怎么发展?还是以他们的影音金融行业为例,他们最先在布局这个产业的时候,别人说他们是骗子,因为他们不懂什么叫数学模型。

到那时为止,他们已经拥有我国影音应用领域里面最专业的垂直 AI 大数学模型集群,本来是垂直 AI 数学模型集群,但我的合伙人说你把 " 大 " 加上吧,不然别人听不懂,所以他们叫 AI 大数学模型集群,会在北京国际性电影节正式发布。

先讲他们做了什么。Sora Opera,用了半年多了,今年跟华为率先推出。什么是 Sora Opera?它本来不叫这个名字,Sora 出来之后,一些人建议说最好跟 Sora 有关,他们就起这个名字 Sora Opera,它能给所有聚合式音频,所有手机拍的音频进行配音。

他们先来看相片上这个小怪物,再来看猛犸象。在展示更多之前,我想说一下,人们仿佛在按照计算机的逻辑适应计算机,比如你想需要一段好的文本或者音频,必须要输出适应计算机的提示词,这其实是反着发展的。有没有一种途径能让人不去输出 Prompt,直接点上传下载?能,他们的 Sora Opera 去除所有的 Prompt,这意味着你的数学模型必须识别相片类的信息。

他们来听第两个、听第二个。每两个故事情节都是压着节奏,手碰花,花会响,不碰花,花不会响,他们按照时间一致性来理解这个事情,让这个数学模型具备影音应用领域里面的智能。它能识别许多个电视里面的内容,并且杂乱聚合。它能识别火车人声从远到近的效果,还有跳舞的小动物、自然环境。

未来哪里能用到?各家手机都在宣传," 我家手机能一键成片 ",如果那个成片没有声效,相当于这个世界没有人声,只有视觉是不够的。未来的所有应用领域都能使用这样的控制技术。

再说两个,SoundMax。人声是人类获得信息 34% 的主要因素。这个功能主要用来配音,用我的人声模拟各种各样的人声,他们不走 TTS 的路线,TTS 是输出文本变成人声,他们需要有人在后面来模拟千行百业的人。

他们先听第两个人叫白小姐,第二个人的人声是说书人,这两个人都是我用手机录的,现在他们听听经过 AI 处理之后的两个人。他们希望未来 AI 控制技术诞生以后让每个个体都是超级个体,让音乐创作去中心化

五、未来 AI 影音的机会在哪儿?

最后再简单说一说发售,未来的机会在哪里?

他们知道此时此刻是经济下行,1905 年到 1914 年美国的变化恰如此时此刻这个黄金时代所经历的变化。辅助工具创新以 Sora 们为例,会出现两个结果,过度电子化,因为生产内容极其难,网上线上本来就不缺内容,又因为过度难的生产辅助工具导致内容泛滥,就会出现过度电子化。

那么新业态在哪里?新辅助工具诞生了,怎么没有新业态?新业态能这么理解,首先冲击两个不好的地方,第一是流新闻媒体平台,本来流新闻媒体平台就是有丰富的内容,现在又冲过来一堆动态 PPT,人们非常焦急,甚至会花时间去甄别哪个真哪个假。

第二个,电影院,每个用户都有机会表达自我,关注我发了朋友圈谁给我点赞,电影院的叙事方式已经不太适合当下的观众。

第四个,游戏平台,做游戏会越来越难,难的不是编程,难的是设计,美术越来越难,编程方面也会推进,所以 AI 会对它们有冲击。

我简单总结了一下,一切非真人互动和非真实体验的企业和产业都会受到这波冲击

新机会在哪里?第两个是XR 产业,第二个是线下娱乐产业,未来巨大的机会在这个地方,我做了两个总结叫沉浸式产业

这个产业有几个属性:第一,高科技加持。这个产业必须有科技,不然这个产业没法变革。第二,强社交属性。经济下行,人们心理压力会大,人们必须回归到线下,并且见到真实的可确定性。第三,条件十分便宜,便宜到你喝一杯咖啡的价格就能玩两个小时、两个小时。

第四,模式可复制,全国各地可复制才能挣钱。第五,内容更新快,每天有两个新的内容能玩。最后,成本低,内容快就代表着成本低,而这一切全部是 AI 和那时的电子工业给他们带来的机会,没有这两个产业的出现就没有这样的机会。

我认为,未来 AI 影音的机会在线下,而不在线上。至少那时的传统互联网应该是没什么机会了,不信能看看,他们能做的就是投资,他们想真正研发出一款使用的产品太难了。

在线下可能会有哪些?那时不在这儿卖关子了,希望大家快来成为我的朋友,他们一起讨论线下在哪里。

以上是图库拉演说内容的完整整理。

查看原文

本文 zblog模板 原创,转载保留链接!网址:https://www.pljbc.cn/?id=714

可以去百度分享获取分享代码输入这里。
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
标签列表
    关注我们

    扫一扫关注我们,了解最新精彩内容