如何利用 AIGC 技术生成超长视频
随着 AIGC(AI Generated Content)技术的快速发展,生成“超长视频”(通常指超过1分钟,甚至达到5-10分钟或更长的叙事性视频)正从梦想走向现实。但需要明确的是:目前尚无任何模型能通过单一指令一键生成超长视频。现有模型(如 Sora、Runway、Luma、可灵等)单次生成时长通常在5秒到20秒之间,且长视频生成面临三大核心挑战:角色一致性、剧情连贯性、画面稳定性。
因此,生成超长视频的本质是构建一个**“分镜拆解 + 一致性控制 + 后期组装”的工作流**。
目前业界主要采用两种模式来实现超长视频生成:
-
一站式全自动平台:适合创意驱动、快速验证内容的创作者。
-
专业级分步制作:适合对画面、剧情有高度控制需求的专业团队。
graph TD A[超长视频生成流程] --> B[剧本输入] B --> C{选择模式} C -->|一站式平台| D[Seedance / Seko / 神笔马良] C -->|分步制作| E[LLM分镜拆解] E --> F[图像生成
Midjourney / SD] F --> G[视频生成
LongCat / Runway / 可灵] G --> H[后期合成
剪映 / Premiere / 音频工具] D --> I[输出视频] H --> I
Sora vs Runway vs Pika: 2026 年最佳 AI 视频生成器对比
专业级分步制作
通过**“大语言模型(LLM)+ 多模态生成模型”**的串联工作流。
利用LLM解析剧本,拆解出场景、角色和情节;然后调用文生图/视频模型生成对应的画面;最后通过视频合成模块,将画面、配音和背景音乐整合成完整的视频。
像拍摄电影一样,精细控制每个镜头的构图、运镜和角色表演,需要你扮演导演、摄影指导和剪辑师的多重角色。
核心难点与解决思路
| 难点 | 描述 | 解决思路 |
|---|---|---|
| 时长限制 | 模型单次生成短(5-10 秒) | 分段生成:将长视频拆解为数百个短镜头,后期拼接。 |
| 角色一致性 | 主角在不同镜头中长得不一样 | 固定种子/参考图:使用 LoRA、IP-Adapter、Character Reference 等技术。 |
| 剧情连贯 | 动作、逻辑不连贯,画面闪烁 | 人工干预 + 控制网:使用 ControlNet 控制姿态,人工审核每个镜头。 |
| 音频同步 | 口型对不上,背景音乐断裂 | 专业音频工具:使用 HeyGen 做口型,Suno/Udio 生成长音乐并剪辑。 |
剧本分析与分镜设计
将剧本拆分为多个分镜头,时长需要满足多模态的范围,超出时需要切割时长。
可以借助大语言模型(如ChatGPT、Claude)来辅助完成这项繁琐的前期工作。
-
核心任务:将超长剧本拆解成一个个独立的"镜头"。
-
具体操作:向AI提供剧本和指令,例如:“请将以下剧本拆解成详细的分镜头脚本,每个镜头需包含:场景、景别(远景/特写)、摄影机运动(推/拉/摇/移)、角色动作、对应台词和预估时长。” 得到分镜列表后,你还可以让AI为每个镜头生成高质量的、用于后续视频生成的提示词(Prompt)。
剧本撰写:使用 LLM(如 Claude 3.5, GPT-4o)撰写详细剧本,并拆解为分镜脚本。
- Prompt 示例:“请将这个故事拆解为 50 个镜头,每个镜头描述画面内容、景别、角色动作和情绪。”
风格设定:确定视觉风格(如:赛博朋克、吉卜力风格、写实电影感),并生成风格参考图(Style Reference)。
角色设定:生成角色的三视图(正、侧、背),作为后续生成的一致性基准。
Prompt 模板
结构化Prompt
提示词 = 主体(主体描述) + 运动 + 场景(场景描述) + (镜头语言 + 光影 + 氛围)
主体+主体描述:谁?长什么样?穿什么?做什么姿态?
运动:做什么动作?(动作必须符合5秒内可展现的物理规律)
场景+场景描述:在哪里?前景背景有什么?
镜头语言:怎么拍?(特写/全景/推拉摇移/仰拍/俯拍)
光影:什么光?(晨光/夕阳/霓虹/丁达尔效应)
氛围:什么感觉?(温馨/赛博朋克/电影质感)
输入剧本片段:“侦探在雨夜点烟,陷入沉思”
智能体输出:
镜头3(5秒):主体:中年侦探,穿着湿透的棕色风衣,机械义肢右手运动:缓慢抬起右手,用打火机点烟,低头凝视火苗场景:雨夜小巷,霓虹灯光在积水中的倒影镜头语言:特写推镜,从手部动作缓慢上移至侧脸光影:冷色调雨夜背景,打火机暖色侧光氛围:Film noir风格,压抑中带一丝温暖
分段式叙事Prompt
“一个镜头,一段描述”:镜头1:[景别+动作描述];镜头2:[景别+动作描述];镜头3:[景别+动作描述]
镜头1:特写,机械义肢手指擦亮打火机,火苗在雨中跳动;镜头2:中景,侦探低头凑近火苗,雨水顺着帽檐滴落,霓虹灯光在湿润的皮衣上反射;镜头3:近景,侦探深吸一口烟,烟雾与雨雾交织,眼神疲惫而深邃。
多镜头结构
为超长视频/多镜头叙事设计的高级格式,特别适合"超长剧本"场景:
Shot 1 [0-5s] 第一镜头详细描述,包括主体、动作、运镜、光线。
Shot 2 [5-10s] 第二镜头详细描述,包括与前一镜头的衔接。
Shot 3 [10-15s] 第三镜头详细描述,剧情推进。
雨夜城市追踪场景。
Shot 1 [0-5s] 俯拍镜头,侦探在霓虹闪烁的狭窄街道上快步行走,雨水打湿镜头前景,营造紧张氛围,冷色调光线。
Shot 2 [5-10s] 过肩镜头跟拍,侦探突然停步转身,警觉地望向镜头方向(观众即追踪者),手缓缓伸向内兜,呼吸产生的白雾在冷空气中可见。
Shot 3 [10-15s] 特写,侦探从内兜掏出警徽,警徽反射远处的霓虹灯光,他表情从警觉转为疑惑。
控制变量法
“万能公式”,强调可控性:主体 + 场景 → 动作 → 运镜 → 风格/光线 → 节奏/约束 → (可选)负向提示
主体:穿着湿透棕色风衣的中年侦探,机械义肢右手场景:雨夜小巷,积水倒映霓虹灯光动作:缓慢抬手点烟,低头凝视跳动的火苗运镜:缓慢推镜(slow dolly-in),从手部特写推至侧脸风格:Film noir,电影级调色光线:冷色调雨夜背景,打火机暖色侧光节奏:一镜到底(single continuous shot)负向提示:文字,水印,画面抖动,多余人物
剧本解析引擎
通过 LLM 解析剧本,构建剧本理解提示词:
1 | 你是一个专业的剧本分镜师。请将以下剧本拆解为详细的分镜头脚本,输出格式为JSON: |
5秒约束处理
根据万兴天幕的提示词技巧,5秒视频有几个关键约束:
-
运动不宜过于复杂:动作必须符合5秒内可展现的画面
-
物理规律:描述要符合现实物理逻辑(如球类弹跳目前较难生成)
-
镜头切换:描述与图片相差较大可能引起镜头切换,建议保持"一镜到底"的单镜头描述
智能体需要做的:对剧本中复杂的连续动作进行"5秒切片",例如"他从口袋掏出打火机,点燃香烟,深吸一口"需要拆解为:
- 镜头1(5秒):手伸入口袋掏出打火机
- 镜头2(5秒):擦亮打火机,凑近香烟
- 镜头3(5秒):深吸一口,烟雾弥漫
角色一致性
智能体需要为每个角色生成**“一致性关键词包”**,并在每个镜头的提示词中注入这些关键词。例如:
1 | { |
多模型适配器
内部的分镜数据结构转换为目标视频模型的具体格式
1 | def format_for_model(scene_data, target_model="wan2.6"): |
推荐智能体
剧本分镜智能体 已初步实现以上功能,将任意格式的剧本,分镜分割后输出提示词指令,可直接应用到多模态应用中,具体可参照:HengLine/video-shot-agent 长剧本分镜工具:把任意格式的长剧本(>5秒)拆分为 AI 生视频的脚本片段,且会保持视频转场的连贯性,可直接应用于“文生视频”模型。支持A2A、LangGraph、API等多种集成方式)
分镜画面生成
-
核心任务:生成高质量、风格统一且角色一致的单帧画面。
-
推荐工具:Midjourney / Stable Diffusion:行业标准的图像生成工具,画质精美,控制力强。
-
关键技术:为了确保主角在第一个镜头和第一百个镜头里长相一致,你需要使用角色一致性技术。例如,在Stable Diffusion中通过LoRA(低秩适应)模型微调,或使用InstantID、PuLID等工具,将几张主角的定妆照作为参考,让AI在生成任何画面时都锁定其长相和服装。
图片生成视频
将静态图像扩展为5秒左右的动态视频片段。
-
推荐工具:
- 美团 LongCat-Video / LongCat-Video-Avatar:开源模型,在长视频生成和虚拟人生成方面有显著优势,能生成5分钟以上画面稳定、不褪色的视频。其创新的"跨片段隐空间拼接"技术能有效解决长视频的画面崩坏问题。
- 阿里云 EasyAnimate:提供了完整的WebUI和API,上手容易,支持文本/图片生成高清长视频,并包含模型微调功能。
- Luma Dream Machine / Runway Gen-2 / 可灵(Kling):目前效果领先的商业化工具,对提示词的遵循度和动作流畅度都非常出色。
-
进阶技巧(处理超长视频):
对于超长剧本,不可能一次性生成。你需要使用"视频续写"功能。例如,LongCat-Video专门针对续写任务进行了优化,你可以在SeaArt AI等平台上找到它的扩展工作流,上传一段视频,并设置新的提示词,让它无缝地"演"下去。
-
注意事项:
- 动作连贯性:需确保前后镜头的动作逻辑一致,避免“跳跃式”动作。
- 画面稳定性:长视频容易出现“色彩漂移”或“画质下降”,建议使用ControlNet或帧插值工具修复。
音频生成与口型同步
目标:为视频配上角色语音、背景音乐、音效,并实现口型同步。
工具推荐:
-
TTS语音:ElevenLabs(多语言、情感丰富)、Fish Audio(免费)
-
背景音乐:Suno / Udio(可生成长达2分钟音乐片段)
-
口型同步:
- 真人角色:HeyGen / SadTalker
- 动画角色:Wav2Lip
使用ElevenLabs生成林峰的配音:“喂?是我。”;
使用Suno生成2分钟循环BGM,拼接成10分钟配乐;
将音频与视频导入HeyGen,生成口型同步的数字人视频。
注意事项:
-
音频时长需与视频片段严格对齐;
-
口型同步对角色面部清晰度要求较高,避免大角度侧脸。
后期合成
将生成的众多视频片段、配音、音效和背景音乐,在传统的视频剪辑软件(如剪映、Premiere Pro、Final Cut Pro)中进行最终合成,添加转场、字幕和调色,完成你的"导演剪辑版"。
-
语音生成 (TTS):使用 ElevenLabs 或 Fish Audio 生成角色配音,确保音色统一。
-
背景音乐 (BGM):使用 Suno 或 Udio 生成长音乐。技巧:生成 2 分钟的高质音乐,通过循环(Loop)和变奏拼接成 10 分钟。
-
口型同步:
- 如果是真人/数字人:使用 HeyGen 或 SadTalker,上传音频和人物图片,自动生成说话视频。
- 如果是动画角色:使用 Wav2Lip 或 Live2D 技术。
-
组装:将生成的数百个 5 秒片段导入 Premiere Pro 或 DaVinci Resolve。
-
转场与修复:
- 使用 AI 插帧工具(如 Topaz Video AI)将帧率统一提升至 60fps,使画面更流畅。
- 使用 AI 放大工具(如 Magnific AI)提升分辨率至 4K。
- 添加转场效果掩盖生成瑕疵。
一站式全自动平台
目前市面上已经有一些非常强大的选择:
| 工具/平台 | 核心亮点 | 适合谁 |
|---|---|---|
| 字节跳动 Seedance 2.0 (即梦) | 支持导入剧本和一张参考图,即可生成逻辑连贯的短剧,甚至能将小说秒变横屏短片,被业内誉为"个人剧组"。 | 追求高效、创意驱动的内容创作者。 |
| 商汤科技 Seko 2.0 | 专为长篇动画剧集设计,支持一句话创意或上传剧本,一键生成最高100集、人物零崩坏的连贯动画。 | 想创作系列动画、长篇故事的创作者。 |
| 猫眼娱乐 “神笔马良” | 专注于影视行业前期,上传剧本后可一键生成动态故事板,包含AI角色创作、智能分镜和台词朗读,帮助可视化评估剧本。 | 编剧、导演、影视项目前期开发人员。 |
| 亚马逊云科技 文生动图解决方案 | 一套可自定义的云上部署方案,包含Scene Director(场景导演)、Image/Animation Generator等模块,适合有开发能力、希望构建自有系统的团队。 | 有技术开发能力,希望定制工作流的企业或团队。 |
| Huobao Drama 开源平台 | 一个基于Go+Vue3的开源项目,覆盖"剧本解析→角色/分镜生成→视频合成"全流程,支持本地部署和多模型接入,高度可控。 | 技术开发者、希望自建AI创作后台且注重数据隐私的团队。 |
