随着 AIGC(AI Generated Content)技术的快速发展,生成“超长视频”(通常指超过1分钟,甚至达到5-10分钟或更长的叙事性视频)正从梦想走向现实。但需要明确的是:目前尚无任何模型能通过单一指令一键生成超长视频。现有模型(如 Sora、Runway、Luma、可灵等)单次生成时长通常在5秒到20秒之间,且长视频生成面临三大核心挑战:角色一致性、剧情连贯性、画面稳定性

因此,生成超长视频的本质是构建一个**“分镜拆解 + 一致性控制 + 后期组装”的工作流**。

目前业界主要采用两种模式来实现超长视频生成:

  • 一站式全自动平台:适合创意驱动、快速验证内容的创作者。

  • 专业级分步制作:适合对画面、剧情有高度控制需求的专业团队。

      graph TD
        A[超长视频生成流程] --> B[剧本输入]
        B --> C{选择模式}
        C -->|一站式平台| D[Seedance / Seko / 神笔马良]
        C -->|分步制作| E[LLM分镜拆解]
        E --> F[图像生成
    Midjourney / SD] F --> G[视频生成
    LongCat / Runway / 可灵] G --> H[后期合成
    剪映 / Premiere / 音频工具] D --> I[输出视频] H --> I

Sora vs Runway vs Pika: 2026 年最佳 AI 视频生成器对比

专业级分步制作

通过**“大语言模型(LLM)+ 多模态生成模型”**的串联工作流。

利用LLM解析剧本,拆解出场景、角色和情节;然后调用文生图/视频模型生成对应的画面;最后通过视频合成模块,将画面、配音和背景音乐整合成完整的视频。

像拍摄电影一样,精细控制每个镜头的构图、运镜和角色表演,需要你扮演导演、摄影指导和剪辑师的多重角色。

核心难点与解决思路

难点 描述 解决思路
时长限制 模型单次生成短(5-10 秒) 分段生成:将长视频拆解为数百个短镜头,后期拼接。
角色一致性 主角在不同镜头中长得不一样 固定种子/参考图:使用 LoRA、IP-Adapter、Character Reference 等技术。
剧情连贯 动作、逻辑不连贯,画面闪烁 人工干预 + 控制网:使用 ControlNet 控制姿态,人工审核每个镜头。
音频同步 口型对不上,背景音乐断裂 专业音频工具:使用 HeyGen 做口型,Suno/Udio 生成长音乐并剪辑。

剧本分析与分镜设计

将剧本拆分为多个分镜头,时长需要满足多模态的范围,超出时需要切割时长。

可以借助大语言模型(如ChatGPT、Claude)来辅助完成这项繁琐的前期工作。

  • 核心任务:将超长剧本拆解成一个个独立的"镜头"。

  • 具体操作:向AI提供剧本和指令,例如:“请将以下剧本拆解成详细的分镜头脚本,每个镜头需包含:场景、景别(远景/特写)、摄影机运动(推/拉/摇/移)、角色动作、对应台词和预估时长。” 得到分镜列表后,你还可以让AI为每个镜头生成高质量的、用于后续视频生成的提示词(Prompt)

  1. 剧本撰写:使用 LLM(如 Claude 3.5, GPT-4o)撰写详细剧本,并拆解为分镜脚本。

    • Prompt 示例:“请将这个故事拆解为 50 个镜头,每个镜头描述画面内容、景别、角色动作和情绪。”
  2. 风格设定:确定视觉风格(如:赛博朋克、吉卜力风格、写实电影感),并生成风格参考图(Style Reference)

  3. 角色设定:生成角色的三视图(正、侧、背),作为后续生成的一致性基准。

Prompt 模板

结构化Prompt

提示词 = 主体(主体描述) + 运动 + 场景(场景描述) + (镜头语言 + 光影 + 氛围)

  • 主体+主体描述:谁?长什么样?穿什么?做什么姿态?

  • 运动:做什么动作?(动作必须符合5秒内可展现的物理规律)

  • 场景+场景描述:在哪里?前景背景有什么?

  • 镜头语言:怎么拍?(特写/全景/推拉摇移/仰拍/俯拍)

  • 光影:什么光?(晨光/夕阳/霓虹/丁达尔效应)

  • 氛围:什么感觉?(温馨/赛博朋克/电影质感)

输入剧本片段:“侦探在雨夜点烟,陷入沉思”
智能体输出:

镜头3(5秒):主体:中年侦探,穿着湿透的棕色风衣,机械义肢右手运动:缓慢抬起右手,用打火机点烟,低头凝视火苗场景:雨夜小巷,霓虹灯光在积水中的倒影镜头语言:特写推镜,从手部动作缓慢上移至侧脸光影:冷色调雨夜背景,打火机暖色侧光氛围:Film noir风格,压抑中带一丝温暖

分段式叙事Prompt

“一个镜头,一段描述”:镜头1:[景别+动作描述];镜头2:[景别+动作描述];镜头3:[景别+动作描述]

镜头1:特写,机械义肢手指擦亮打火机,火苗在雨中跳动;镜头2:中景,侦探低头凑近火苗,雨水顺着帽檐滴落,霓虹灯光在湿润的皮衣上反射;镜头3:近景,侦探深吸一口烟,烟雾与雨雾交织,眼神疲惫而深邃。

多镜头结构

超长视频/多镜头叙事设计的高级格式,特别适合"超长剧本"场景:

Shot 1 [0-5s] 第一镜头详细描述,包括主体、动作、运镜、光线。
Shot 2 [5-10s] 第二镜头详细描述,包括与前一镜头的衔接。
Shot 3 [10-15s] 第三镜头详细描述,剧情推进。

雨夜城市追踪场景。
Shot 1 [0-5s] 俯拍镜头,侦探在霓虹闪烁的狭窄街道上快步行走,雨水打湿镜头前景,营造紧张氛围,冷色调光线。
Shot 2 [5-10s] 过肩镜头跟拍,侦探突然停步转身,警觉地望向镜头方向(观众即追踪者),手缓缓伸向内兜,呼吸产生的白雾在冷空气中可见。
Shot 3 [10-15s] 特写,侦探从内兜掏出警徽,警徽反射远处的霓虹灯光,他表情从警觉转为疑惑。

控制变量法

“万能公式”,强调可控性:主体 + 场景 → 动作 → 运镜 → 风格/光线 → 节奏/约束 → (可选)负向提示

主体:穿着湿透棕色风衣的中年侦探,机械义肢右手场景:雨夜小巷,积水倒映霓虹灯光动作:缓慢抬手点烟,低头凝视跳动的火苗运镜:缓慢推镜(slow dolly-in),从手部特写推至侧脸风格:Film noir,电影级调色光线:冷色调雨夜背景,打火机暖色侧光节奏:一镜到底(single continuous shot)负向提示:文字,水印,画面抖动,多余人物

剧本解析引擎

通过 LLM 解析剧本,构建剧本理解提示词

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
你是一个专业的剧本分镜师。请将以下剧本拆解为详细的分镜头脚本,输出格式为JSON:

1. 首先提取所有角色,生成角色设定表(包含外貌、服装、关键道具、一致性关键词)
2. 然后按时间顺序拆解场景,每个场景包含:
- 场景编号/名称
- 场景描述(地点、时间、氛围)
- 该场景下的所有镜头列表
3. 每个镜头必须包含:
- 镜号
- 时长(固定5秒)
- 主体(谁/什么)
- 主体描述(姿态、表情、细节)
- 动作(具体做什么)
- 场景背景
- 镜头类型(景别、角度)
- 运镜方式(固定/推/拉/摇/移/跟)
- 光影描述
- 对应台词/音效
- 与上一镜头的衔接方式

剧本内容:
{{用户输入的剧本}}

5秒约束处理

根据万兴天幕的提示词技巧,5秒视频有几个关键约束:

  • 运动不宜过于复杂:动作必须符合5秒内可展现的画面

  • 物理规律:描述要符合现实物理逻辑(如球类弹跳目前较难生成)

  • 镜头切换:描述与图片相差较大可能引起镜头切换,建议保持"一镜到底"的单镜头描述

智能体需要做的:对剧本中复杂的连续动作进行"5秒切片",例如"他从口袋掏出打火机,点燃香烟,深吸一口"需要拆解为:

  • 镜头1(5秒):手伸入口袋掏出打火机
  • 镜头2(5秒):擦亮打火机,凑近香烟
  • 镜头3(5秒):深吸一口,烟雾弥漫

角色一致性

智能体需要为每个角色生成**“一致性关键词包”**,并在每个镜头的提示词中注入这些关键词。例如:

1
2
3
4
5
6
7
8
9
10
{
"character_keywords": {
"侦探": "中年男性,湿透的棕色风衣,机械义肢右手,疲惫但锐利的眼神,雨夜湿发"
},
"consistency_tags": {
"outfit": "棕色风衣",
"prop": "机械义肢右手",
"style": "Film noir"
}
}

多模型适配器

内部的分镜数据结构转换为目标视频模型的具体格式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def format_for_model(scene_data, target_model="wan2.6"):
if target_model == "wan2.6":
return format_wan26(scene_data)
elif target_model == "tianmu":
return format_tianmu(scene_data)
elif target_model == "seedance":
return format_seedance(scene_data)
else:
return format_general_json(scene_data)

def format_wan26(scene_data):
# Wan2.6 带时间戳的多镜头格式
shots = []
for i, shot in enumerate(scene_data['shots']):
start = i * 5
end = start + 5
shot_text = f"Shot {i+1} [{start}-{end}s] {shot['subject']} {shot['action']}{shot['camera']}{shot['lighting']}"
shots.append(shot_text)
return "\n".join(shots)

推荐智能体

剧本分镜智能体 已初步实现以上功能,将任意格式的剧本,分镜分割后输出提示词指令,可直接应用到多模态应用中,具体可参照:HengLine/video-shot-agent 长剧本分镜工具:把任意格式的长剧本(>5秒)拆分为 AI 生视频的脚本片段,且会保持视频转场的连贯性,可直接应用于“文生视频”模型。支持A2A、LangGraph、API等多种集成方式)

分镜画面生成

  • 核心任务:生成高质量、风格统一且角色一致的单帧画面。

  • 推荐工具Midjourney / Stable Diffusion:行业标准的图像生成工具,画质精美,控制力强。

  • 关键技术:为了确保主角在第一个镜头和第一百个镜头里长相一致,你需要使用角色一致性技术。例如,在Stable Diffusion中通过LoRA(低秩适应)模型微调,或使用InstantID、PuLID等工具,将几张主角的定妆照作为参考,让AI在生成任何画面时都锁定其长相和服装。

图片生成视频

将静态图像扩展为5秒左右的动态视频片段。

  • 推荐工具

    • 美团 LongCat-Video / LongCat-Video-Avatar:开源模型,在长视频生成虚拟人生成方面有显著优势,能生成5分钟以上画面稳定、不褪色的视频。其创新的"跨片段隐空间拼接"技术能有效解决长视频的画面崩坏问题。
    • 阿里云 EasyAnimate:提供了完整的WebUI和API,上手容易,支持文本/图片生成高清长视频,并包含模型微调功能。
    • Luma Dream Machine / Runway Gen-2 / 可灵(Kling):目前效果领先的商业化工具,对提示词的遵循度和动作流畅度都非常出色。
  • 进阶技巧(处理超长视频)

    对于超长剧本,不可能一次性生成。你需要使用"视频续写"功能。例如,LongCat-Video专门针对续写任务进行了优化,你可以在SeaArt AI等平台上找到它的扩展工作流,上传一段视频,并设置新的提示词,让它无缝地"演"下去。

  • 注意事项

    • 动作连贯性:需确保前后镜头的动作逻辑一致,避免“跳跃式”动作。
    • 画面稳定性:长视频容易出现“色彩漂移”或“画质下降”,建议使用ControlNet帧插值工具修复。

音频生成与口型同步

目标:为视频配上角色语音、背景音乐、音效,并实现口型同步。

工具推荐

  • TTS语音:ElevenLabs(多语言、情感丰富)、Fish Audio(免费)

  • 背景音乐:Suno / Udio(可生成长达2分钟音乐片段)

  • 口型同步

    • 真人角色:HeyGen / SadTalker
    • 动画角色:Wav2Lip
  • 使用ElevenLabs生成林峰的配音:“喂?是我。”;

  • 使用Suno生成2分钟循环BGM,拼接成10分钟配乐;

  • 将音频与视频导入HeyGen,生成口型同步的数字人视频。

注意事项

  • 音频时长需与视频片段严格对齐;

  • 口型同步对角色面部清晰度要求较高,避免大角度侧脸。

后期合成

将生成的众多视频片段、配音、音效和背景音乐,在传统的视频剪辑软件(如剪映、Premiere Pro、Final Cut Pro)中进行最终合成,添加转场、字幕和调色,完成你的"导演剪辑版"。

  1. 语音生成 (TTS):使用 ElevenLabsFish Audio 生成角色配音,确保音色统一。

  2. 背景音乐 (BGM):使用 SunoUdio 生成长音乐。技巧:生成 2 分钟的高质音乐,通过循环(Loop)和变奏拼接成 10 分钟。

  3. 口型同步

    • 如果是真人/数字人:使用 HeyGenSadTalker,上传音频和人物图片,自动生成说话视频。
    • 如果是动画角色:使用 Wav2LipLive2D 技术。
  4. 组装:将生成的数百个 5 秒片段导入 Premiere ProDaVinci Resolve

  5. 转场与修复

    • 使用 AI 插帧工具(如 Topaz Video AI)将帧率统一提升至 60fps,使画面更流畅。
    • 使用 AI 放大工具(如 Magnific AI)提升分辨率至 4K。
    • 添加转场效果掩盖生成瑕疵。

一站式全自动平台

目前市面上已经有一些非常强大的选择:

工具/平台 核心亮点 适合谁
字节跳动 Seedance 2.0 (即梦) 支持导入剧本和一张参考图,即可生成逻辑连贯的短剧,甚至能将小说秒变横屏短片,被业内誉为"个人剧组"。 追求高效、创意驱动的内容创作者。
商汤科技 Seko 2.0 专为长篇动画剧集设计,支持一句话创意或上传剧本,一键生成最高100集、人物零崩坏的连贯动画。 想创作系列动画、长篇故事的创作者。
猫眼娱乐 “神笔马良” 专注于影视行业前期,上传剧本后可一键生成动态故事板,包含AI角色创作、智能分镜和台词朗读,帮助可视化评估剧本。 编剧、导演、影视项目前期开发人员。
亚马逊云科技 文生动图解决方案 一套可自定义的云上部署方案,包含Scene Director(场景导演)、Image/Animation Generator等模块,适合有开发能力、希望构建自有系统的团队。 有技术开发能力,希望定制工作流的企业或团队。
Huobao Drama 开源平台 一个基于Go+Vue3的开源项目,覆盖"剧本解析→角色/分镜生成→视频合成"全流程,支持本地部署和多模型接入,高度可控。 技术开发者、希望自建AI创作后台且注重数据隐私的团队。