中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇
创建于 更新于
摘要
报告系统梳理视频生成技术演进,聚焦OpenAI 2024年Sora发布引发的DiT路径收敛及其带来的模型能力突破,深入解析多模态基础模型和端到端架构对未来视频生成的提升潜力。结合全球及中国市场空间测算,预计2025年视频生成市场P端和B端合计可达百亿美元,中国厂商快手可灵领先全球,商业定价已进入创作者价格不敏感区间,展示较强成长潜力和商业化路径。报告强调技术与产品多强并存格局,视频生成已成为内容创作降本利器,并探讨多模态理解生成统一架构对生态和岗位结构的深远影响 [page::0][page::5][page::6][page::8][page::9][page::14]
速读内容
视频生成技术路径三阶段发展与收敛 [page::1][page::2][page::3]

- 2016-2020年图像拼接生成阶段,以GAN/VAE为核心,时长受限,跳帧严重。
- 2021-2023年探索自回归与扩散混合模型,技术路径分散,视频连贯性不足。
- 2024年OpenAI Sora基于DiT(扩散Transformer)发布,引发技术路径收敛,提升长视频时长(60秒)、多分辨率支持和连贯性。
- Sora架构指标一致性达89%,成为行业技术标杆,后续拓展多模态融合为关键发展方向。
多模态基础模型与端到端架构前瞻 [page::3][page::4][page::5]

- 未来视频生成技术趋向端到端多模态大模型,Google Gemini和Veo3代表行业领先。
- 理解与生成模型统一架构(如DeepSeek Janus-Pro)提高生成内容智能和一致性。
- 快手发布的Orthus 多模态生成理解模型,展示了跨模态信息融合的潜力,预计支撑视频编辑类产品。
- DiT为底层生成架构,端到端多模态为系统级框架,两者相辅相成。
全球及中国视频生成市场空间测算 [page::5][page::6]
| 细分市场 | 估算空间(亿美元) | 说明 |
|------|----------------|-----|
| P端(专业创作者)| 32 (中性估计) | 海外2亿创作者、中国1.6亿,付费渗透率10%,定价35美元/月等假设测算 |
| B端(企业商业)| 94 (中性估计) | 广告、电商、影视等行业AI成本节约带来市场渗透,假设不同渗透率与降本率 |
| 合计 | 约100 | 考虑20%创作者重合,合计估算,C端尚处早期,潜力更大 |
主要厂商技术及产品格局 [page::8][page::9][page::10][page::11][page::12][page::13]

- 技术路径以DiT为主,存在部分自回归派(如Sand AI)。
- 国内快手可灵、海螺、生数科技、爱诗等迅速追赶海外进展。
- 产品覆盖2P、2B,兼顾高质量创作者和企业级用户,部分厂商布局C端低门槛如爱诗PixVerse。
- 商业化体量集中,快手可灵2025年预计ARR全球领先,市占率约20%。
视频生成商业模式与定价趋势 [page::14]

- 商业模式以月费订阅及API调用为主,分标准与高质量模式。
- 单秒价格范围:标准模式0.08元-1.06元,高质量模式0.31元-5.3元。
- 价格整体进入创作者价格敏感度降低区间,尤其P端/B端。
- 技术进步带来显著降本,基础模型能力为企业长期议价核心能力。
量化策略相关信息
- 研报未包含具体量化因子构建或量化策略回测内容,无相关策略总结。
深度阅读
中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇 —— 综合深度分析
---
1. 元数据与报告概览
- 报告标题:《AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇》
- 作者:于钟海,张雪晴等,中金公司研究部
- 发布日期:2025年8月1日
- 核心主题:全球及中国AI视频生成领域技术发展现状、未来趋势及产业机遇,尤其聚焦2024-2025年视频生成技术路径的收敛和商业化发展;
- 核心论点总结:
- 2024年OpenAI发布Sora引领视频生成技术路径收敛至DiT(Diffusion transformer),开启了视频生成商业化元年。
- 视频生成从美学质量、角色一致性、清晰度和效率显著提升,已经覆盖影视、电商、广告等生产力场景。
- 中国厂商(以快手可灵为代表)在视频生成赛道技术和商业化表现突出,预计2025年实现全球领先的ARR和市场份额。
- 目前P端(专业内容创作者)和B端(商业用户)构成主要市场,预计规模超过百亿美元,长期C端(大众消费者)潜力巨大。
- 未来技术将向端到端多模态基础模型演进,实现理解与生成一体化。
- 商业模式向订阅制+API收费转变,视频生成单秒价格已进入创作者价格不敏感区间,进一步降本或将成为商业化拐点。
---
2. 逐节深度解读
2.1 技术路线演进与路径收敛
- 视频生成发展经历三阶段:
1. 图像拼接生成(2016-2020)
利用GAN/VAE模型逐帧生成视频,再用光流拼接以保证连贯,代表作如VGAN、Deepfakes,缺点是跳帧严重、时长有限(≤3秒),不支持复杂物理逻辑。
2. 混合架构探索(2021-2023)
结合自回归模型和扩散模型的混合方式提升时序连贯性,代表Phenaki、Make-A-Video,获得生成30秒+视频的能力,但存在错误累计、抖动等问题。
3. DiT扩散模型路径(2023末-2024初)
OpenAI于2024年2月发布的Sora基于DiT架构实现时空联合注意力,生成60秒长视频,支持任意分辨率,物理仿真能力显著提升,一致性89%。此路径成为主流技术路线,其他厂商纷纷跟进。
- DiT架构介绍及优势:
通过Transformer模块处理图像潜在补丁,超越传统U-Net架构,实现高效扩展、高质量生成,支持文本、图像多模态输入。
- 自回归路径的存在:
虽然DiT路径收敛为主流,但像OpenAI GPT-4o和Sand AI等依旧押注自回归,认为其更适合时间因果关系建模,便于后续与多模态大模型融合。
- 多模态融合是未来方向:
Google Gemini等端到端多模态模型开创统一文本、图像、视频、音频的基础模型架构,显著突破长上下文及多指令控制,视频生成有望融合为多模态基础模型一部分。快手发布的Orthus模型则体现了自主开源统一多模态生成理解模型的创新,未来可能将类似架构应用于视频领域。
---
2.2 市场空间与产业格局分析
- 全球AI视频生成市场规模测算:
2024年全球市场约6亿美元,预期P端+B端生产力工具未来市场空间约100亿美元,若扩展到C端低门槛用户,则潜在规模达千亿美元级别。
- P端市场测算:
- 内容创作者基数估计:海外2亿,国内1.6亿
- AI工具使用率假设约30-35%
- 付费渗透率中期预期为8%-12%
- 定价基于快手可灵月费折合,约35美元/月
- 综合以上,2025年P端市场中性测算规模约32亿美元。
- B端市场测算:
- 涉及广告、电商、影视等产业成熟视频生产成本300美元/分钟,相较传统动画200万美元/分钟成本大幅降低。
- 综合考虑技术渗透率、市场规模、降本率,估算中性下2025年B端市场约94亿美元。
- 总计P+B端约合100亿美元规模(考虑部分重合率调整)。
- 产业竞争格局:
- 快手可灵2025年ARR预估1.5亿美元,约占全球20%市场份额,领先全球。
- 海螺、爱诗(PixVerse)、生数科技、字节即梦等在用户规模和商业化方面表现亮眼,均具备千万级月活。
- 美国、海外以Runway领先,单用户变现效率最高(MRR/MAU 6.3美元)。
- 预期未来多厂商多强并存,基于各自单点优势(如快手可灵图生视频电影质感领先,PixVerse、即梦主攻C端低门槛)。
---
2.3 产品维度与技术实力
- 核心厂商技术对比:
所有领先厂商均收敛至DiT路径,采用时空注意力机制、3D Causal VAE、RoPE编码等技术提升视频连贯性和物理真实感。
- 开放的生成时长普遍在5~10秒,少数(OpenAI Sora 20秒,Google Veo3 60秒)突破长视频,但实测需求8秒已满足主流场景。
- 分辨率多以720p-1080p为主,部分厂商支持4K。
- 生成瓶颈主要在提示词理解和角色一致性,中文提示词处理能力偏弱普遍存在。
- 产品排名与全球排名:
- 文生视频排名:字节跳动Seedance、Google Veo3、快手可灵前三;
- 图生视频排名:字节海螺、MiniMax、Google Veo3居前;
- 全球AI产品榜:快手可灵(Kling)、海螺(Hailuo AI)、Sora均跻身前二三十名,且均为中国厂商。
---
2.4 产品定位与业务模式
- 用户细分定位:
- 2C低门槛用户:注重趣味性和时长,门槛低,代表厂商:爱诗PixVerse、字节即梦;
- 2P专业用户(Prosumer):注重画质和功能复杂度,代表快手可灵、海螺等;
- 2B商业用户:高内容质量与专业流程,高门槛接受制作复杂度,广告、影视公司重点客户。
国内外厂商均覆盖P端和B端,C端短期以国内厂商布局为主。
- 商业模式与定价:
- 主流为订阅制(月费)、API调用计费和积分包购买组合模式。
- 视频生成单秒价格划分为标准模式和高质量模式,价格区间:
- 标准模式0.08元(生数Vidu海外)至1.06元(Google Veo3);
- 高质量模式0.31元至5.3元不等。
- 中国厂商价格稳定在1元/秒以下,单5秒视频成本约5元,已进入创作者“不敏感”价格区间。
- 定价并非直接成本加成,基础模型能力强的厂商具备议价权,模型和工程化都能带来显著降本空间,利于毛利率提升。
---
2.5 风险因素
- 多模态模型能力提升不及预期:
若未来多模态基础模型及理解生成统一框架发展受挫,视频生成的一致性、连贯性将难优化,影响用户体验和下游应用扩展。
- 视频生成商业化不及预期:
可能由于价格敏感、用户增长慢、竞争激烈或技术门槛高阻碍普及,导致厂商ARR增长不及预期。
报告未详细披露风险缓解措施,但可推断持续技术创新和多点产品突破是主要应对策略。
---
3. 图表深度解读
- 图表1(视频生成技术路径三阶段)
清晰梳理了从2016年以来视频生成技术的三大进化阶段,每个阶段的创新点、优势和局限展示了技术发展逻辑和瓶颈所在。
如DiT阶段强调物理仿真和时空注意力,优化了前两阶段跳帧、错误积累的问题,给出了技术成熟化的路径脉络。[page::1][page::2]
- 图表2(2023年底视频生成AI产品进度)
以时间线形式罗列全球主要厂商的里程碑事件,反映出2023年整体现阶段前的分散探索,Sora发布后路线趋向明确。[page::2]
- 图表3(DiT架构解构)
多细节展示了DiT模块的结构,体现Transformer模块替代U-Net的技术优势,说明DiT可扩展性和效率提升的理论基础。[page::3]
- 图表5-6(市场规模测算表)
详尽使用创作者人数、AI工具渗透率、付费率及定价等多维假设计算P端市场规模,并以行业视频广告、影视、直播等产业数据推演B端规模,数字详实且逻辑严密。[page::5][page::6]
- 图表7(数字歌手Yuri AI原生MV案例)
展示了使用多款AI视频生成工具制作的示例视频做商业传播,佐证视频生成的产业应用深度和社会影响力。[page::7]
- 图表8(AI创意工具渗透率)
说明AI逐步从文本创作辅助延展至图像、视频编辑和声音创作,体现多模态技术渗透的趋势和广泛应用可能性。[page::8]
- 图表9、11、12(视频生成各关键厂商技术及产品能力分析)
详细比对了OpenAI、谷歌、字节、快手等头部厂商的技术架构、视频最大生成时长、帧率、分辨率及缺陷,体现国内厂商快速追赶并在多点实现对标甚至超越。[page::8][page::9][page::10]
- 图表14、15(全球AI产品榜/视频生成产品访问量排名)
反映快手可灵、海螺、Sora在全球市场中的知名度和用户基础,体现了中国视频生成厂商的崛起和全球影响力。[page::12]
- 图表16(视频生成定位图)
将厂商根据产品复杂度和用户定位放置座标轴,揭示了产品差异化策略和市场区分逻辑,为理解不同阶段商业模式提供直观依据。[page::13]
- 图表17(视频生成单秒价格分布)
显示国内外厂商视频生成价格差异和定位,判断当前行业处于价格不敏感区间,暗示未来商业化扩张的可能性和竞争策略重点。[page::14]
---
4. 估值分析与预测
本报告未对具体公司做传统财务估值模型(如DCF、市盈率法)详述,但通过市场空间测算结合各家企业2025e ARR推断市场份额分布,给出行业整体成长前景明确指引。
- 市场规模与收入预测:
报告综合P端和B端制作市场,预计至少100亿美元市场空间。结合快手可灵、Runway等厂商披露的 ARR,合理测算快手约占20%,闭环商业化案例清晰。
- 商业模式说明及定价驱动:
随着单秒价格进入“几毛钱”区间,边际降本将刺激需求量暴涨,且具备规模效应和议价能力,预计未来视频生成厂商盈利能力有望提升。
- 敏感性分析隐含于多场景市场空间估算中:
通过乐观、中性、悲观多场景给出不同AI渗透率、付费率、使用率假设,体现对行业未来波动的合理预判。
---
5. 风险因素评估
- 多模态模型能力提升不及预期:可能导致视频生成质量提升缓慢,影响用户体验和商业付费意愿。
- 视频生成商业化不及预期:价格下降不带来需求大幅增长,或市场教育、用户采纳缓慢,导致厂商收入增长受限。
报告未突出缓解策略,但可以理解为依赖技术持续创新及产品优化,加速降本增效,并关注细分市场和多点业务线布局。
---
6. 审慎视角与细节分析
- 报告展现明显对国产厂商技术快速追赶且已达国际领先水平的正面评价,部分预测假设较为乐观,涉及未来市场规模及价格弹性假设仍存在实现难度,需关注技术瓶颈是否突破及用户接受度实际表现。
- 生成时长虽被认为“8秒足够覆盖主流需求”,但长视频、剧情连续性、特效复杂度的更高要求仍是技术发展难点,未来场景多样性或会推动生成时长扩展需求。
- 商业模式场景下,C端包含的潜力市场虽巨大,但实际进入低门槛用户仍需解决提示词理解、生成门槛及成本,短期商业价值难量化。
- 报告将视频生成定位为工具属性,认定网络效应弱,暗示竞争将长期多强并存,未必出现单一头部厂商垄断,其判断较为稳健。
---
7. 结论性综合
本报告系统全面梳理了AI视频生成领域的发展历程、技术路径、产品现状及产业格局,核心结论和洞见如下:
- 技术路径收敛至DiT扩散Transformer架构,新一代模型显著提升视频生成的时长、分辨率和一致性,推动视频生成进入商业化发动阶段。
- 端到端多模态基础模型和多模态理解生成统一架构是技术发展的主线,代表Google Gemini、快手Orthus等,预示视频生成将被纳入综合多模态智能系统。
- 市场规模在2024年约6亿美元起步,2025年P/B端合计空间超百亿美元,未来C端潜力巨大。
- 中国厂商技术进步迅猛,快手可灵预计2025年ARR将达到1.5亿美元,约占全球20%市场份额,海螺、爱诗、生数等后起势均具备核心竞争力。
- 目前生成时长以10秒及以下为主,提示词理解和角色一致性为关键难点,国内厂商在产品力方面已接近或媲美国际领先水平。
- 视频生成商业模式以订阅制和API调用为主,单秒定价已进入创作者价格不敏感区间,预计成本下降将推动商业化爆发。
- 风险主要为多模态模型突破及商业化推广不及预期,但多强并存、技术不断迭代的行业特性有望带来持续成长。
报告体现了对中国AI视频生成赛道的高度认可和积极展望,并且紧密结合最新技术成果及市场测算,为投资者提供了全面的行业技术、产品和市场参考框架。[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15]
---
附:核心图片示例解读
图1:视频生成技术路径三阶段发展概览
描述视频生成自2016年至2024年技术进化,由图像拼接到自回归和扩散混合,再到DiT独立路径形成。展示了各阶段核心算法、里程碑事件和关键限制,帮助读者理解技术历史脉络。

图5:全球AI视频生成P端市场空间测算表
分项展示海外及国内创作者人数、AI使用率、付费渗透率、定价及用量膨胀系数,综合估算P端市场规模,体现计算过程的严密与数据的合理假设。

图14:2025年全球AI生成产品排名
列出Sora、海螺、快手可灵等AI视频生成厂商在全球AI应用排行榜的位置,反映了中国厂商在全球市场的竞争力。

图17:视频生成服务单秒价格对比图
对比国际和国内不同厂商高质量和标准模式的单秒价格,显示目前价格已下降至几毛钱水平,表明商业化临近拐点和市场扩容潜力。

---
以上为《AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇》报告的全面深度解析,内容涵盖技术、市场、产品、竞争、商业和风险多个维度,详实且富有前瞻性。