当前位置:首页学习教程剪辑技巧Diffusion的火,只是AIGC的缩影 | 量子位智库报告(附下载)

Diffusion的火,只是AIGC的缩影 | 量子位智库报告(附下载)

量子智囊团起源于凹非寺量子位|公众号QbitAI

aigc(ai生成内容)的概念最近可以说非常火。

例如,Stable Diffusion只要说一句话,就能在“快速”秒内做出画来。

Big chunky Venom (巨大敦实的毒药)。

著名博客大谷Spitzer“重拍”了好莱坞国际巨星版的《华强买瓜》 :

此前谷歌家族的Imagen和OpenAI推出的DALLE系列等也成为了深受网民欢迎的AI内容生成神器。

有些人拿着中杰尼创作的画去参加艺术比赛,或者把人类挤得满满的获得第一名,惹怒了艺术家。

但是,“可以使用的技术才是好技术”,网民们之所以掀起这种AIGC技术的热度,是因为对其实力的认可。

此前市场公布项目仅一个月的Stable Diffusion背后的公司估值为69亿元,这是资本对AIGC的肯定。

那么,站在现在的时间节点上,是AIGC从技术发展路线、产业发展方向等多方面进行整理的时候了。

为此,量子智库在深入调查后,正式发布了《AIGC/AI生成内容产业展望报告》,核心回答了三个问题。

从技术上来说,AIGC能完成什么样的创作? 在价值方面,AIGC除了直接生成艺术作品还能做什么? 未来,AIGC将如何改变内容和相关产业呢? (获取完整报告的方法见文末)

AIGC技术和8个场景应用AIGC均称为AI-Generated Content,是指基于对抗网络GAN、大型预训练模型等人工智能技术的生成,从现有数据中寻找规则,通过合适的泛化能力生成相关内容的技术。

与此类似的概念有同步媒体。 合成媒体主要是指基于AI生成的文字、图像、语音等。

Gartner也提出了类似概念的Generative AI,即生成式AI。 生成式AI是指根据现有的数据生成类似的原始数据。

与量子比特智库认为的AIGC相比,该概念的范围更窄。

目前,AIGC的产生已经完成从以金融/体育新闻产生为代表的单纯外挂,向以绘画创作素材提供为代表的增值创造的转变,多模式/多模式内容成为重要的发展节点。

技术观点认为,文本-图像-视频的交叉模式生成、2D到3D生成、多模式理解结合生成的场景将成为未来发展的重点。

商业观点认为,未来三年内,虚拟人生成和游戏AI这两个综合AIGC场景将商业化成熟。

下图的绿色部分是被认为在2-3年内有快速增长潜力的细分赛道。

文本生成以结构性新闻制作、内容不断制作、诗词创作等细分功能为代表,基于NLP技术的文本生成可以认为是AIGC中发展最快的技术组成部分,在新闻报道、会话机器人等应用场景中广泛商业化落地

从现有落地场景出发,分为应用型文本和创作型文本生成来看,前者的进展明显优于后者。 另外,从APP应用的普及的观点来看,辅助性文本制作已经落地到了现在最广泛的场景。

应用型文本大多是结构化的文章,包括面向顾客的聊天问答; a、以新闻制作等为中心的场景。 主要玩家为自动输入(美联社Wordsmith )、Narrative Science、textengine.io、AX Semantics、Yseop、Arria、retresco、Viable

创作型文本主要适用于剧情后续、营销文本等细分场景等,文本开放度和自由度高,需要一定的创造性和个性化,对生成能力的技术要求较高。

具有代表性的国内外公司有Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy AI、RIL

除了从头到尾进行文本创作外,辅助文本创作其实是目前国内供给和落地最广的场景。 基本上,它承担着基于素材爬网的辅助作用,包括信息素材的方向收集、文本素材的预处理、自动聚类、根据创作者的需求提供相关素材等。

这部分国内代表产品包括写字猫、Gilso写字机、Get写字机、写字狐、沃AI人工智能写字机。

图像产生的传统思想是产生对抗网络( GAN ),它由生成器和鉴别器两部分组成,生成器捕获数据产生新的产生数据,然后将其混合到原始数据中发送到鉴别器以进行区分。

可以说现有的GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了相应的突破,提高了最终图像的特定细节、内在逻辑、生成速度等。

但为了在实际应用中得到大规模、稳定的应用,GAN还需要解决以下问题:训练不稳定、生成的样品大量重复、结构和压缩等。

2022年,扩散模型( Diffusion Model )将成为图像生成领域的重要发现,并有望超越GAN。

与其他图像生成模型(如GAN、VAE和基于流的模型)相比,在需要较少数据的背景下,Diffusion Model的图像生成效果大幅提高。

在3D内容生成中,神经辐射场模型NeRF成为下一代模型。

NeRF将场景表示为隐式神经辐射场,渲染时通过神经网络查询位置的场景信息生成新视点的图像。 简而言之,NeRF利用深度学习完成了计算机图形中的3D渲染任务。

根据对不同技术原理的梳理,将图像生成领域的技术场景划分为图像属性编辑、图像部分生成与修改、端到端图像生成。

属性编辑部分可以直观地理解为用AI降低了门槛的PhotoShop。 目前的代表性公司有美图秀秀(美图AI开放平台)、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、skylum )、Photopa。

图像部分编辑部是指部分变更图像部分的构成,或修正脸部特征。 代表性的是被选为CVPR2022的InsetGAN,该机型由adobe发售。

图像的端对端生成主要是基于草图产生完整的图像、将多幅图像有机组合产生新图像、根据指定属性产生目标图像等。

该部分包含两种场景,分别是创意图像生成和功能图像生成。 前者多以NPF等形式出现,后者多以营销类海报/界面、logo、模式图、用户头像为主。

垂直代表公司/产品包Deepdream Generator、Rosebud.ai、AI Gahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、阿里

这种语音生成技术可以应用于流行歌曲、乐曲、有声读物的内容制作,以及视频、游戏、电影等领域的音乐制作,可以大幅度降低音乐版权的购买成本。

我们现在最期待的场景是实时音乐、语音克隆、心理安抚等功能性音乐的自动生成。

文本到速度( TTS )在AIGC领域已经相当成熟,广泛应用于呼叫中心、硬件机器人、有声读物制作、语音播报等任务。

目前技术关键是通过文本的深层情感、深层语义理解等富文本信息更好地表达其抑扬顿挫,以及基于用户较少的个性化数据获得整体复制能力。

垂直代表公司包括语音、科大讯飞、思必驰( DUI )、Readspeaker、DeepZen和Sonantic。

随着内容媒体的变迁,短视频内容的配音成为了重要的场景。 部分软件可以基于文档自动生成解说配音,在线提供150种包含不同方言和音色的AI智能配音播音员。 代表性的公司有剪、九锤配音、加音、XAudioPro等。

在TTS领域,语音克隆值得特别关注。 该技术目前已应用于虚拟歌手的演唱、自动配音等,除了语音的IP化外,对动画、电影以及虚拟人行业具有重要意义。

代表性的公司包括标签技术、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod、Resemble Ai、Respeecher、DeepZen、DeepZen

……

另外,由于篇幅有限,更多的AIGC落地细分场景可以在文末获得完整的报告进一步了解。

但总体而言,不同课程下的aigc APP推广落地普及程度主要受两个方面的影响,这是特定技术水平状况和实际应用中出现的转化门槛。

长文本生成、开放文本生成、NeRF模型、Diffusion模型、横切模式大型预训练模型(支持的模式数据类型、模式对齐架构设计、支持的下游APP应用)、小样本

技术场景下,基于聊天的文本生成、个性化营销文本、情感和细节丰富的TTS、拼视频生成、基于文本的AI绘制、语音复刻等,被认为在短期内会明显爆发

分析AIGC的价值和产业发展量子智库指出,AI创作的价值主要来自五点。

与市场观点不同,我们认为最后一点,即与AI系统的个性化、实时化交互最能体现潜在价值。

目前,AIGC未能达到准确可控的生成,但相信本课程未来技术和市场规模的上限。

以下是五个主要价值,重要性逐步增加。

降低内容制作门槛,增加UGC用户群

AIGC可以让更多的人参与高价值的内容创建过程,而不是人工录制音频、渲染图像等。 该效果在2B结构化内容生成领域非常明显,预计在个别场景中将出现2C服务。 模态生成将成为未来的重点。

提高创作和反馈效率,在线实时互动

目前,效率的提高主要体现在专家工作效率的提高上。 对用户能够动态交互的个性化数字内容的需求越来越大,传统的开发方式无法满足越来越高的需求,消费速度远远高于制作速度。 AIGC需要填补供需缺口。

但更重要的是,他认为AI同样对提高内容反馈生成速度、实时交流内容具有重要意义,有可能将在线和真人的快速交流转移到在线上。 也就是说,如果让AI承担真人社交、创作、协作功能,社交类、搜索类游戏等新的潜在场景有可能出现。

目前,内容消费者更容易将现实的情感需求投射到虚拟世界中,产生了许多深层次的实时交互需求,预计市场规模巨大。

基于海量数据获得较强的创造性和开放性,有利于提高创造性认知,增强内容生产多样性

与人类艺术家相比,AI可以访问和参考更多的数据,基于prompt生成内容后,AI创建的内容具有更多的二次创造空间和自由度。

例如,生成算法可以基于特定条件或完全随机地生成现实中不存在的形状、颜色组合、图案或结构等,为内容的创作提供更多可能性,产生“超现实感”或“未来感”,推进艺术创新

对不同模式要素进行二次分解组合,改变内容的生产逻辑和形式

通过语音克隆、编曲风格提取等手段,AIGC可以分析与原始对象相对应的不同模态信息,如演讲者的面部形象、语音、演讲内容等。

重新组合后,可以完成过去在条件上做不到的工作。 例如,行人语音专业的播放逻辑、符合特定审美的面孔等,打破了真人/真人场景要素组合的局限性。

与其他AI系统和数据库联动,实现高度个性化/高频率优化

结合特定数据库(如实时更新的客户数据、市场反馈数据、特定主题的历史统计数据)和AI系统(如个性化推荐系统)后,AIGC基于更准确的未来预测/个性化预测

例如,根据用户的习惯调整内容的营销文本,根据渠道风格调整生成内容,参照历史数据优化生成内容等。

在产业链分析中,由于我国的AIGC行业还没有发展起来,这里根据自我理解绘制了产业链分布图。

目前,在上游,我国AIGC产业还存在许多缺点,以数据标注为重点。

我认为未来与业务相关的大型企业收购可能会成为主流,或者应该有明显的大型工厂业务扩大倾向。 但大厂拓展业务的动机往往是通过新卖点快速获取流量,优化核心业务,而不会过度关注AIGC自身业务价值的充分挖掘。

因此,在清晰的新场景出现之前,该行业很容易分散到不同的内容消费场景中。

我们分析的行业门槛和核心竞争力:

无论是内容还是扩展领域,产品最终都需要回归一体化解决方案的服务能力,避免大型制造商后期的竞争压力和与行业的深度联系,构建业务闭环。 最后是在这次调查的基础上得出的六个重要结论。

完整的报告可以在微信文章的末尾获得。 https://MP.weixin.QQ.com/s/vqefnw _ tx48 mj fir 927 nkq——完—量子位QbitAI 头条号合约关注我们,第一时间了解前沿科技动态

个人中心
今日签到
有新私信 私信列表
搜索