天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

智东西（公众号：zhidxcom）
作者 | GenAICon 2024

智东西5月6日报道，2024中(zhong)国(guo)生成式AI大会于4月18-19日在北(bei)京(jing)举行，在大会第二天(tian)的(de)主会场AIGC应用专场上，天(tian)图万境(jing)创始人图拉古(gu)以《我们的(de)AIGC，AIGC的(de)我们》为题发(fa)表演讲。

天图(tu)万(wan)(wan)境是(shi)中国视(shi)听行业尝试(shi)用AI工(gong)具做文本扩写、图(tu)像(xiang)生成(cheng)(cheng)、数(shu)字人合成(cheng)(cheng)制作的(de)先行者，比一些国际顶流(liu)AI工(gong)具的(de)问世时间更早。图(tu)拉古说，天图(tu)万(wan)(wan)境迄今(jin)已(yi)拥有(you)中国视(shi)听领域最专业的(de)垂(chui)直(zhi)AI大模型集群，并在(zai)今(jin)年与华为联(lian)合推出(chu)Sora Opera，能给各式视(shi)频配音。

图拉古在演讲中相当敢说，金句频出，分享了自己创业路上“血淋淋的经验和教训”，或者调侃创业者“不要起太早，容易看不到曙光，因为资本看不懂”，称“追风的人没法飞起来”；或者吐槽自媒体用“炸裂”、“吊打”、“惊艳”等词汇是瞎说，直言短期内搞不定通用大模型，预测“大部分AI大模型创业公司在5年内死去”。

在他看来，AI应该是能够给人们带来温暖、弥合世界的创作工具，而不是取代人类工作的“内卷武器”。因此AI不能离开应用谈技术，而是要建立到应用端的完整产业链。天图万境从AI文本创作(zuo)，到视频生成，再(zai)到服务用户的应(ying)用端，打造(zao)了(le)全产业链技术解决方案(an)，且都早于国际(ji)巨头(tou)发布(bu)了(le)对应(ying)产品，目(mu)前(qian)正在(zai)快速迭代(dai)中。

其声音生成工具Sora Opera，可以自动感知、智能识别视频画面中的物理逻辑，精准配出风格多变的音乐音效，为视频增加声音的魅力。还有声音克隆工具SoundMax，不(bu)走传统TTS路线，而是将输入(ru)的(de)(de)人(ren)声转换成其他(ta)(ta)声线。这样的(de)(de)AI工(gong)具，不(bu)会让配(pei)音(yin)演员失业，而是让他(ta)(ta)们在演绎不(bu)同角色时插上飞翔的(de)(de)创意翅膀。

以下为图拉古的演讲实录：

首先介绍一下我自己，我是图拉古，是一个“帽子”搜集大师，我(wo)有很多帽子(zi)(zi)，最喜欢前(qian)三个帽子(zi)(zi)，天(tian)图万境(jing)的创(chuang)始人、中国导演、科研从(cong)业者。

我还有一个属性，我是跨行业的从业者，而且在一线，我是以导演的(de)身份拍摄了(le)很多国际(ji)大(da)片(pian)，也(ye)拍了(le)很多国内的(de)片(pian)子。我从事计算机编程和AI，自(zi)己写(xie)代码。

第三个，我自己做电路设计，做电路绘画，做生产。我是一个沉浸式爱好者，经常玩各种剧本(ben)杀(sha)、密室(shi)逃脱。原来(lai)AI需要视听(ting)行(xing)业的人参与进(jin)来(lai)，但是视听(ting)行(xing)业的人又(you)不(bu)知道该怎么开发，我(wo)碰巧(qiao)介(jie)于这(zhei)之间，我(wo)的优势逐渐凸显(xian)出来(lai)。

我分享的(de)主题(ti)是：AIGC的(de)我们，我们的(de)AIGC。

一、比MidJourney更早探路图像生成，但起太早容易看不到曙光

先(xian)说(shuo)“AIGC的我们”。

有人(ren)说电影是一门综合性艺术(shu)，它(ta)从视听技术(shu)到(dao)制造(zao)生产技术(shu)，再到(dao)调(diao)度与(yu)管理(li)能力，到(dao)故事(shi)与(yu)叙事(shi)，最主要的(de)是情(qing)绪和心(xin)理(li)学都很重要，本质上讲，是从文(wen)本到(dao)视频这一件事(shi)。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

从(cong)文(wen)(wen)本(ben)到视(shi)(shi)频在(zai)今天的时代很简单，文(wen)(wen)本(ben)到视(shi)(shi)频、文(wen)(wen)本(ben)到图片，再到合成、剪辑(ji)、视(shi)(shi)频发行(xing)，其中文(wen)(wen)本(ben)就是剧本(ben)，我们现在(zai)熟悉的软件都可(ke)以做(zuo)。

到今天(tian)为止(zhi)，AI时代(dai)，文本生成有(you)(you)GPT，图(tu)片有(you)(you)Stable Diffusion、Midjourney，合(he)成有(you)(you)Wonder studio，剪(jian)辑Meta似乎在做，视频Sora，发(fa)(fa)(fa)行还是老牌发(fa)(fa)(fa)行，世界的(de)格局没(mei)有(you)(you)变化，因为赚钱的(de)地方没(mei)有(you)(you)发(fa)(fa)(fa)生变化。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

前面(mian)都是技术在迭代，下一个时代将(jiang)会产生产业的(de)迭代，发(fa)行怎么变？这些年我(wo)们(men)在这些领(ling)域做(zuo)了什(shen)么工作？以及为什(shen)么说现在做(zuo)AIGC的(de)同(tong)行们(men)都是“弟弟”。

第一个，文本。看这张图，在输入文字的位置添加新故事，加引导词，输入三个引导词就可以自动生成一段故事，这是最早的AI扩写。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

下面是用来整理语义分析的，分析人物关系的，分析时长的，再下面是分析故事和情感节奏的，这(zhei)只能用AI做，不然就会把“皇上(shang)急的像热锅上(shang)的蚂(ma)蚁”，认为是(shi)一种(zhong)动物而不是(shi)一种(zhong)情(qing)绪。这(zhei)是(shi)最早的文字生成(cheng)。什(shen)么时候？2021年(nian)9月份(fen)。谁(shei)在做这(zhei)件事？只有我们在做。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

第二个，图片。这个大家都很熟悉了，放一(yi)个原始图(tu)像，就可以看到实时可编辑的图(tu)像，下方是(shi)参数拖拽区。左侧(ce)是(shi)2021年(nian)5月(yue)份我(wo)们(men)发(fa)布的产品，右侧(ce)是(shi)2023年(nian)马普所潘教授发(fa)布的，当时震惊(jing)整(zheng)个娱乐圈(quan)。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

上面是选择模型、风格的区域，选择输入风格，输入一张图片，按照图片风格生成图片。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

这里是输入汉字的图像实时生成，这在今(jin)天来(lai)看每个人都极其熟悉，甚至嗤之以鼻(bi)。但(dan)把时间往(wang)回倒一倒，Stable Diffusion是2022年(nian)7月(yue)份，Midjourney是2022年(nian)3月(yue)份，天图(tu)是2021年(nian)9月(yue)份。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

我们以前做(zuo)事不会在互联网上留足迹(ji)，碰巧这件(jian)事情留下(xia)了(le)足迹(ji)。右图(tu)是跟联想ThinkPad做(zuo)的(de)现场(chang)为(wei)期七天的(de)实(shi)机演示。

第三个，合成制作。通过4张图片重建一个我的数字人，通过一段视频重建整个3D场景。我们还发布首条支持NeRF渲染的循环引擎管线，这是在2022年(nian)9月份。右侧的大家也很熟悉(xi)，Luma AI，当时全世(shi)界都很震(zhen)惊，时间是2022年(nian)11月份，而(er)我(wo)们在2022年(nian)9月份就(jiu)发布了(le)可以商(shang)用的产(chan)品。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

还有人体稳定跟踪，大(da)家(jia)都很熟悉，还可(ke)以把镜头中的人(ren)物完美地擦掉，这两者结合到一起，是Wonder studio，它(ta)是2023年(nian)3月份，天图(tu)是2022年(nian)11月份。

这个案例非常明显，做这么多，我们也没有做PR，没有被大家记住。我们有很深的感触：不要起太早，容易看不到曙光，因为资本看不懂。

二、“他们看不懂，看不明白，也不愿意学习”

有一个很知名的专家问我，你连一个传感器都没有，怎么叫感知？我现在可以告诉他，这就叫感知，感知是通过智能来判别这个世界的。这是我得到的第一个经验，在创业的时候不要起太早，因为看不到曙光。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

第二个，他们看不懂，看不明白，并且也不愿意学习。“他们”不止指资本，也指创作身边的每一个人，他们只能跟着潮流顺着大势而为。我想说一句话：“追风的人是没法飞起来的，因为风筝是逆风飞翔的。”我们要准确(que)判断下(xia)一个点在哪里，从现(xian)在开始(shi)往(wang)下(xia)一个点走。

第三个经验，投资绝大部分是FOM（afraid of missing），到今天为止，他们对这件事情看起来也是迷迷糊糊的，你去问投资机构，什么叫AIGC？他们只能说一个网上能查到的词，没有经过仔细思考，没有经过认真对产业调研的人很难明白AIGC的明天在哪里，这就是血淋淋的经验和教训。

三、自媒体用“炸裂”“吊打”是瞎说，大部分AI大模型公司在5年内死去

下(xia)面说(shuo)说(shuo)我们在积累(lei)经(jing)验之后又做(zuo)了什么事(shi)，现在逐渐被大(da)家(jia)关注(zhu)起(qi)来了。

资本眼中(zhong)的(de)AI大(da)模型：以前100个人干活儿(er)，通过AI自动化3个人干活儿(er)，生成了各种(zhong)各样的(de)利润(run)，裁员、财源。

一(yi)个(ge)(ge)公司疯狂PR以后(hou)，被资本(ben)投了以后(hou)，创始人自(zi)己套壳，自(zi)己训(xun)练，结(jie)果一(yi)用自(zi)己的产品，这(zhei)(zhei)(zhei)个(ge)(ge)东西不能用！这(zhei)(zhei)(zhei)怎么办？疯狂地找(zhao)，终(zhong)于找(zhao)到一(yi)个(ge)(ge)落(luo)地场景(jing)，然后(hou)跟(gen)媒(mei)体说，在这(zhei)(zhei)(zhei)个(ge)(ge)场景(jing)我(wo)们可以做这(zhei)(zhei)(zhei)件(jian)事，然后(hou)无(wu)限放(fang)大(da)。

自媒体用的什么词？“炸裂”、“吊打”、“惊艳”，这些词能在这儿用吗？这是瞎说。实际是什么样的？这就是它们的实际情况，这是不可避免的问题，因为马车在创造初期也不能一下子跑十公里，这是时代发展的必然结局。

我们现在的AI非常激进，仿佛进入了丰富且多元的生态，但如果我们用一用这些产品会发现，你的生气指数会上涨。但是我们需要用发展的眼光去看待这件事情，十年以后的AI是什么样？它一定是非常丰富且充满了自动化的过程。

我们还讲过(guo)一(yi)句话，今天(tian)的各种(zhong)(zhong)企业在这(zhei)个(ge)(ge)行业的PR中(zhong)，仿佛(fo)要使用AI这(zhei)种(zhong)(zhong)技术把整个(ge)(ge)人(ren)都(dou)(dou)替代掉，让整个(ge)(ge)社(she)会都(dou)(dou)工业化，其实换句话说(shuo)，他(ta)们在制造“枪”然后来杀掉彼此。

AI的初心应该是像《血战钢锯岭》一样，我不带枪，但是可以缝合这个世界，希望未来(lai)有更多(duo)做技(ji)术的(de)人可以用这(zhei)些技(ji)术来(lai)缝合这(zhei)个世界，让每个人、每个个体(ti)都(dou)能(neng)够从(cong)中享受到AI带来(lai)的(de)快乐，这(zhei)很重要。

人类的目光总是是很短浅的，他们想一口吃个胖子，所以在讲大模型，大模型意味着一个轮船可以海上跑、天上飞、地道里面钻，这叫大模型。但到头来解决问题的还是专用模型，轮船只能在海上，飞机在天上，有一天我们希望有两栖东西产生，但是现在这个时间点还不能拥有，此时此刻我们的生产力、物力、算法跟不上，需要等一等。

天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

大部分AI大模型创业公司会在5年内死去，我看到这个行业的人没有技术壁垒，也找不到应用场景，解决不了真的问题，而且没有钱继续烧。此时此刻我(wo)把(ba)这(zhei)个话(hua)(hua)放在这(zhei)儿，再过5年(nian)后你(ni)们翻回来找这(zhei)句话(hua)(hua)，如果发现这(zhei)句话(hua)(hua)是错的，请(qing)在评论下面骂我(wo)。

我们不应该只谈大模型而放弃专用模型，不能只练大脑不练肌肉。

四、打造视听领域垂直AI大模型集群，联手华为推出视频配音工具Sora Opera

AI大模型在各行(xing)(xing)各业都(dou)有使用，我(wo)们(men)应该怎么发展？还是以我(wo)们(men)的视听行(xing)(xing)业为例，我(wo)们(men)最早在布局(ju)这个(ge)产业的时(shi)候，别(bie)人说我(wo)们(men)是骗子，因为他们(men)不懂什(shen)么叫模型。

到今天为止，我们已经拥有中国视听领域里面最专业的垂直AI大模型集群，本来是垂直AI模型集群，但我(wo)的合伙人说你把(ba)“大”加(jia)上(shang)吧，不然别人听不懂，所以我(wo)们叫AI大模型集群，会在北(bei)京国(guo)际电影节发布。

先讲我们做了什么。Sora Opera，用(yong)了半(ban)年多(duo)了，今年跟华为联合(he)推出。什(shen)么(me)是(shi)Sora Opera？它本(ben)来(lai)不(bu)叫这(zhei)个(ge)名字，Sora出来(lai)之后，一些人(ren)建(jian)议说(shuo)最好跟Sora有(you)关，我们(men)就(jiu)起(qi)这(zhei)个(ge)名字Sora Opera，它可以给(ji)所有(you)生(sheng)成式(shi)视频，所有(you)手机拍(pai)的视频进行配音。

我们先来(lai)看(kan)图(tu)片(pian)上这(zhei)(zhei)(zhei)个小怪(guai)物，再来(lai)看(kan)猛犸象。在展示更多之前，我想说(shuo)一下，人(ren)(ren)们仿佛(fo)在按照计(ji)算机(ji)(ji)的逻辑适(shi)(shi)应计(ji)算机(ji)(ji)，比如(ru)你想需要一段好的文字或者视(shi)频，必(bi)(bi)须要输(shu)入适(shi)(shi)应计(ji)算机(ji)(ji)的提示词，这(zhei)(zhei)(zhei)其实是反着发展的。有(you)(you)没有(you)(you)一种途径可以让人(ren)(ren)不去(qu)输(shu)入Prompt，直接点上传下载？可以，我们的Sora Opera去(qu)除(chu)所有(you)(you)的Prompt，这(zhei)(zhei)(zhei)意(yi)味(wei)着你的模型必(bi)(bi)须识别图(tu)片(pian)类的信(xin)息。

我们来听(ting)第一个(ge)(ge)、听(ting)第二个(ge)(ge)。每一个(ge)(ge)故事都是压着节奏，手(shou)碰(peng)花(hua)，花(hua)会响，不碰(peng)花(hua)，花(hua)不会响，我们按照时间一致性来理解这个(ge)(ge)事情(qing)，让这个(ge)(ge)模型具备视听(ting)领(ling)域里面的智能。它可(ke)以(yi)识别很多个(ge)(ge)电视里面的内容，并且杂乱生成。它可(ke)以(yi)识别火车声(sheng)音从远到近的效果，还(hai)有(you)跳舞的小(xiao)动(dong)物(wu)、自然环(huan)境(jing)。

未(wei)来(lai)哪里能(neng)用到(dao)？各家手(shou)机都在宣传(chuan)，“我家手(shou)机可以一键(jian)成片”，如果那个成片没有音效，相当(dang)于这(zhei)个世界没有声音，只有视觉是不够的。未(wei)来(lai)的所有领域都可以使用这(zhei)样的技术(shu)。

再说一个，SoundMax。声(sheng)音(yin)是人类获(huo)得信(xin)息34%的主(zhu)要因素。这个功能主(zhu)要用来(lai)(lai)配音(yin)，用我的声(sheng)音(yin)模拟各种(zhong)各样的声(sheng)音(yin)，我们不走(zou)TTS的路线，TTS是输入文(wen)字变(bian)成声(sheng)音(yin)，我们需要有人在后面来(lai)(lai)模拟千行(xing)百业的人。

我们先听第一个人叫白小姐，第二个人的声音是说书人，这两个人都是我用手机录的，现在我们听听经过AI处理之后的两个人。我们希望未来AI技术诞生以后让每个个体都是超级个体，让创作去中心化。

五、未来AI视听的机会在哪儿？

最后再简单说一说发行，未来的机会在哪里？

我们(men)知道此时此刻是经(jing)(jing)济下行，1905年(nian)到1914年(nian)美国的变化(hua)(hua)(hua)恰如此时此刻这(zhei)个(ge)时代所经(jing)(jing)历的变化(hua)(hua)(hua)。工具创新以Sora们(men)为(wei)例，会(hui)出(chu)现一个(ge)结果，过度电子化(hua)(hua)(hua)，因为(wei)生产内容(rong)极其容(rong)易(yi)，网(wang)上线(xian)上本来就不缺内容(rong)，又因为(wei)过度容(rong)易(yi)的生产工具导(dao)致内容(rong)泛(fan)滥，就会(hui)出(chu)现过度电子化(hua)(hua)(hua)。

那么新业态在哪里？新工具诞生了，怎么没有新业态？新业态可以这么理解，首先冲击两个不好的地方，第一是流媒体平台，本(ben)来(lai)流媒体平台就是有丰(feng)富(fu)的内容(rong)，现在又冲(chong)过来(lai)一堆动态PPT，人们非常焦急，甚至会花(hua)时间去(qu)甄别哪(na)个(ge)(ge)真(zhen)哪(na)个(ge)(ge)假。

第二个，电影院，每个用(yong)户(hu)都(dou)有(you)机会表达(da)自我(wo)，关注我(wo)发了朋友圈谁给我(wo)点(dian)赞，电影院的(de)叙事方式已(yi)经不太(tai)适合当下的(de)观众。

第三个，游戏平台，做游(you)戏会越(yue)(yue)来越(yue)(yue)容易，容易的不是编程，容易的是设计，美(mei)术(shu)越(yue)(yue)来越(yue)(yue)容易，编程方面也会推(tui)进，所以AI会对它们有冲击(ji)。

我简单总结了一下，一切非真人互动和非真实体验的企业和产业都会受到这波冲击。

新机会在哪里？第一个是XR产业，第二个是线下娱乐产业，未来巨大的机会在这个地方，我做了一个总结叫沉浸式产业。

这个产业有几个属性：第一，高科技加持。这个产业必须有科技，不然这个产业没法变革。第二，强社交属性。经济下行，人们心理压力会大，人们必须回归到线下，并且见到真实的可确定性。第三，条件十分便宜，便宜到你喝一(yi)杯咖啡的价格就可以玩一(yi)个(ge)小时(shi)、两个(ge)小时(shi)。

第四，模式可复制，全国各地可复制才能挣钱。第五，内容更新快，每天有两个新的内容可以玩。最后，成本低，内容快就(jiu)代表着成本(ben)低(di)，而这(zhei)一切全部是AI和今天的电(dian)子工业给我们(men)带来的机会，没有这(zhei)两个产业的出现就(jiu)没有这(zhei)样(yang)的机会。

我认为，未来AI视听的机会在线下，而不在线上。至少今天的传统(tong)互联网应该是没(mei)什么(me)机会了，不信可以看(kan)看(kan)，他们(men)(men)能做的就是投资，他们(men)(men)想真正(zheng)研发出一款使用的产品(pin)太难了。

在线(xian)下(xia)可能会有哪些？今天不(bu)在这儿卖(mai)关(guan)子了，希望(wang)大家快(kuai)来(lai)成为我的(de)朋友，我们一起讨论线(xian)下(xia)在哪里。

以上是图拉古演讲内容的完整整理。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、比MidJourney更早探路图像生成，但起太早容易看不到曙光

二、“他们看不懂，看不明白，也不愿意学习”

三、自媒体用“炸裂”“吊打”是瞎说，大部分AI大模型公司在5年内死去

四、打造视听领域垂直AI大模型集群，联手华为推出视频配音工具Sora Opera

五、未来AI视听的机会在哪儿？

相关推荐