如何利用 AIGC 技术生成超长视频

随着 AIGC（AI Generated Content）技术的快速发展，生成“超长视频”（通常指超过1分钟，甚至达到5-10分钟或更长的叙事性视频）正从梦想走向现实。但需要明确的是：目前尚无任何模型能通过单一指令一键生成超长视频。现有模型（如 Sora、Runway、Luma、可灵等）单次生成时长通常在5秒到20秒之间，且长视频生成面临三大核心挑战：角色一致性、剧情连贯性、画面稳定性。

因此，生成超长视频的本质是构建一个**“分镜拆解 + 一致性控制 + 后期组装”的工作流**。

目前业界主要采用两种模式来实现超长视频生成：

一站式全自动平台：适合创意驱动、快速验证内容的创作者。

专业级分步制作：适合对画面、剧情有高度控制需求的专业团队。

  graph TD
    A[超长视频生成流程] --> B[剧本输入]
    B --> C{选择模式}
    C -->|一站式平台| D[Seedance / Seko / 神笔马良]
    C -->|分步制作| E[LLM分镜拆解]
    E --> F[图像生成
Midjourney / SD]
    F --> G[视频生成
LongCat / Runway / 可灵]
    G --> H[后期合成
剪映 / Premiere / 音频工具]
    D --> I[输出视频]
    H --> I

Sora vs Runway vs Pika: 2026 年最佳 AI 视频生成器对比

专业级分步制作

通过**“大语言模型（LLM）+ 多模态生成模型”**的串联工作流。

利用LLM解析剧本，拆解出场景、角色和情节；然后调用文生图/视频模型生成对应的画面；最后通过视频合成模块，将画面、配音和背景音乐整合成完整的视频。

像拍摄电影一样，精细控制每个镜头的构图、运镜和角色表演，需要你扮演导演、摄影指导和剪辑师的多重角色。

核心难点与解决思路

难点	描述	解决思路
时长限制	模型单次生成短（5-10 秒）	分段生成：将长视频拆解为数百个短镜头，后期拼接。
角色一致性	主角在不同镜头中长得不一样	固定种子/参考图：使用 LoRA、IP-Adapter、Character Reference 等技术。
剧情连贯	动作、逻辑不连贯，画面闪烁	人工干预 + 控制网：使用 ControlNet 控制姿态，人工审核每个镜头。
音频同步	口型对不上，背景音乐断裂	专业音频工具：使用 HeyGen 做口型，Suno/Udio 生成长音乐并剪辑。

剧本分析与分镜设计

将剧本拆分为多个分镜头，时长需要满足多模态的范围，超出时需要切割时长。

可以借助大语言模型（如ChatGPT、Claude）来辅助完成这项繁琐的前期工作。

核心任务：将超长剧本拆解成一个个独立的"镜头"。
具体操作：向AI提供剧本和指令，例如：“请将以下剧本拆解成详细的分镜头脚本，每个镜头需包含：场景、景别（远景/特写）、摄影机运动（推/拉/摇/移）、角色动作、对应台词和预估时长。” 得到分镜列表后，你还可以让AI为每个镜头生成高质量的、用于后续视频生成的提示词（Prompt）。

剧本撰写：使用 LLM（如 Claude 3.5, GPT-4o）撰写详细剧本，并拆解为分镜脚本。

Prompt 示例：“请将这个故事拆解为 50 个镜头，每个镜头描述画面内容、景别、角色动作和情绪。”

风格设定：确定视觉风格（如：赛博朋克、吉卜力风格、写实电影感），并生成风格参考图（Style Reference）。

角色设定：生成角色的三视图（正、侧、背），作为后续生成的一致性基准。

Prompt 模板

结构化Prompt

提示词 = 主体(主体描述) + 运动 + 场景(场景描述) + (镜头语言 + 光影 + 氛围)

主体+主体描述：谁？长什么样？穿什么？做什么姿态？

运动：做什么动作？（动作必须符合5秒内可展现的物理规律）

场景+场景描述：在哪里？前景背景有什么？

镜头语言：怎么拍？（特写/全景/推拉摇移/仰拍/俯拍）

光影：什么光？（晨光/夕阳/霓虹/丁达尔效应）

氛围：什么感觉？（温馨/赛博朋克/电影质感）

输入剧本片段：“侦探在雨夜点烟，陷入沉思”
智能体输出：

镜头3（5秒）：主体：中年侦探，穿着湿透的棕色风衣，机械义肢右手运动：缓慢抬起右手，用打火机点烟，低头凝视火苗场景：雨夜小巷，霓虹灯光在积水中的倒影镜头语言：特写推镜，从手部动作缓慢上移至侧脸光影：冷色调雨夜背景，打火机暖色侧光氛围：Film noir风格，压抑中带一丝温暖

分段式叙事Prompt

“一个镜头，一段描述”：镜头1：[景别+动作描述]；镜头2：[景别+动作描述]；镜头3：[景别+动作描述]

镜头1：特写，机械义肢手指擦亮打火机，火苗在雨中跳动；镜头2：中景，侦探低头凑近火苗，雨水顺着帽檐滴落，霓虹灯光在湿润的皮衣上反射；镜头3：近景，侦探深吸一口烟，烟雾与雨雾交织，眼神疲惫而深邃。

多镜头结构

为超长视频/多镜头叙事设计的高级格式，特别适合"超长剧本"场景：

Shot 1 [0-5s] 第一镜头详细描述，包括主体、动作、运镜、光线。
Shot 2 [5-10s] 第二镜头详细描述，包括与前一镜头的衔接。
Shot 3 [10-15s] 第三镜头详细描述，剧情推进。

雨夜城市追踪场景。
Shot 1 [0-5s] 俯拍镜头，侦探在霓虹闪烁的狭窄街道上快步行走，雨水打湿镜头前景，营造紧张氛围，冷色调光线。
Shot 2 [5-10s] 过肩镜头跟拍，侦探突然停步转身，警觉地望向镜头方向（观众即追踪者），手缓缓伸向内兜，呼吸产生的白雾在冷空气中可见。
Shot 3 [10-15s] 特写，侦探从内兜掏出警徽，警徽反射远处的霓虹灯光，他表情从警觉转为疑惑。

控制变量法

“万能公式”，强调可控性：主体 + 场景 → 动作 → 运镜 → 风格/光线 → 节奏/约束 → (可选)负向提示

主体：穿着湿透棕色风衣的中年侦探，机械义肢右手场景：雨夜小巷，积水倒映霓虹灯光动作：缓慢抬手点烟，低头凝视跳动的火苗运镜：缓慢推镜（slow dolly-in），从手部特写推至侧脸风格：Film noir，电影级调色光线：冷色调雨夜背景，打火机暖色侧光节奏：一镜到底（single continuous shot）负向提示：文字，水印，画面抖动，多余人物

剧本解析引擎

通过 LLM 解析剧本，构建剧本理解提示词：

你是一个专业的剧本分镜师。请将以下剧本拆解为详细的分镜头脚本，输出格式为JSON：

1. 首先提取所有角色，生成角色设定表（包含外貌、服装、关键道具、一致性关键词）
2. 然后按时间顺序拆解场景，每个场景包含：
   - 场景编号/名称
   - 场景描述（地点、时间、氛围）
   - 该场景下的所有镜头列表
3. 每个镜头必须包含：
   - 镜号
   - 时长（固定5秒）
   - 主体（谁/什么）
   - 主体描述（姿态、表情、细节）
   - 动作（具体做什么）
   - 场景背景
   - 镜头类型（景别、角度）
   - 运镜方式（固定/推/拉/摇/移/跟）
   - 光影描述
   - 对应台词/音效
   - 与上一镜头的衔接方式

剧本内容：
{{用户输入的剧本}}

5秒约束处理

根据万兴天幕的提示词技巧，5秒视频有几个关键约束：

运动不宜过于复杂：动作必须符合5秒内可展现的画面
物理规律：描述要符合现实物理逻辑（如球类弹跳目前较难生成）
镜头切换：描述与图片相差较大可能引起镜头切换，建议保持"一镜到底"的单镜头描述

智能体需要做的：对剧本中复杂的连续动作进行"5秒切片"，例如"他从口袋掏出打火机，点燃香烟，深吸一口"需要拆解为：

镜头1（5秒）：手伸入口袋掏出打火机

镜头2（5秒）：擦亮打火机，凑近香烟

镜头3（5秒）：深吸一口，烟雾弥漫

角色一致性

智能体需要为每个角色生成**“一致性关键词包”**，并在每个镜头的提示词中注入这些关键词。例如：

{
  "character_keywords": {
    "侦探": "中年男性，湿透的棕色风衣，机械义肢右手，疲惫但锐利的眼神，雨夜湿发"
  },
  "consistency_tags": {
    "outfit": "棕色风衣",
    "prop": "机械义肢右手",
    "style": "Film noir"
  }
}

多模型适配器

内部的分镜数据结构转换为目标视频模型的具体格式

def format_for_model(scene_data, target_model="wan2.6"):
    if target_model == "wan2.6":
        return format_wan26(scene_data)
    elif target_model == "tianmu":
        return format_tianmu(scene_data)
    elif target_model == "seedance":
        return format_seedance(scene_data)
    else:
        return format_general_json(scene_data)

def format_wan26(scene_data):
    # Wan2.6 带时间戳的多镜头格式
    shots = []
    for i, shot in enumerate(scene_data['shots']):
        start = i * 5
        end = start + 5
        shot_text = f"Shot {i+1} [{start}-{end}s] {shot['subject']} {shot['action']}，{shot['camera']}，{shot['lighting']}"
        shots.append(shot_text)
    return "\n".join(shots)

分镜画面生成

核心任务：生成高质量、风格统一且角色一致的单帧画面。
推荐工具：Midjourney / Stable Diffusion：行业标准的图像生成工具，画质精美，控制力强。
关键技术：为了确保主角在第一个镜头和第一百个镜头里长相一致，你需要使用角色一致性技术。例如，在Stable Diffusion中通过LoRA（低秩适应）模型微调，或使用InstantID、PuLID等工具，将几张主角的定妆照作为参考，让AI在生成任何画面时都锁定其长相和服装。

图片生成视频

将静态图像扩展为5秒左右的动态视频片段。

推荐工具：
- 美团 LongCat-Video / LongCat-Video-Avatar：开源模型，在长视频生成和虚拟人生成方面有显著优势，能生成5分钟以上画面稳定、不褪色的视频。其创新的"跨片段隐空间拼接"技术能有效解决长视频的画面崩坏问题。
- 阿里云 EasyAnimate：提供了完整的WebUI和API，上手容易，支持文本/图片生成高清长视频，并包含模型微调功能。
- Luma Dream Machine / Runway Gen-2 / 可灵（Kling）：目前效果领先的商业化工具，对提示词的遵循度和动作流畅度都非常出色。
进阶技巧（处理超长视频）：

对于超长剧本，不可能一次性生成。你需要使用"视频续写"功能。例如，LongCat-Video专门针对续写任务进行了优化，你可以在SeaArt AI等平台上找到它的扩展工作流，上传一段视频，并设置新的提示词，让它无缝地"演"下去。
注意事项：
- 动作连贯性：需确保前后镜头的动作逻辑一致，避免“跳跃式”动作。
- 画面稳定性：长视频容易出现“色彩漂移”或“画质下降”，建议使用ControlNet或帧插值工具修复。

音频生成与口型同步

目标：为视频配上角色语音、背景音乐、音效，并实现口型同步。

工具推荐：

TTS语音：ElevenLabs（多语言、情感丰富）、Fish Audio（免费）
背景音乐：Suno / Udio（可生成长达2分钟音乐片段）
口型同步：
- 真人角色：HeyGen / SadTalker
- 动画角色：Wav2Lip

使用ElevenLabs生成林峰的配音：“喂？是我。”；

使用Suno生成2分钟循环BGM，拼接成10分钟配乐；

将音频与视频导入HeyGen，生成口型同步的数字人视频。

注意事项：

音频时长需与视频片段严格对齐；
口型同步对角色面部清晰度要求较高，避免大角度侧脸。

后期合成

将生成的众多视频片段、配音、音效和背景音乐，在传统的视频剪辑软件（如剪映、Premiere Pro、Final Cut Pro）中进行最终合成，添加转场、字幕和调色，完成你的"导演剪辑版"。

语音生成 (TTS)：使用 ElevenLabs 或 Fish Audio 生成角色配音，确保音色统一。
背景音乐 (BGM)：使用 Suno 或 Udio 生成长音乐。技巧：生成 2 分钟的高质音乐，通过循环（Loop）和变奏拼接成 10 分钟。
口型同步：
- 如果是真人/数字人：使用 HeyGen 或 SadTalker，上传音频和人物图片，自动生成说话视频。
- 如果是动画角色：使用 Wav2Lip 或 Live2D 技术。
组装：将生成的数百个 5 秒片段导入 Premiere Pro 或 DaVinci Resolve。
转场与修复：
- 使用 AI 插帧工具（如 Topaz Video AI）将帧率统一提升至 60fps，使画面更流畅。
- 使用 AI 放大工具（如 Magnific AI）提升分辨率至 4K。
- 添加转场效果掩盖生成瑕疵。

一站式全自动平台

目前市面上已经有一些非常强大的选择：

工具/平台	核心亮点	适合谁
字节跳动 Seedance 2.0 （即梦）	支持导入剧本和一张参考图，即可生成逻辑连贯的短剧，甚至能将小说秒变横屏短片，被业内誉为"个人剧组"。	追求高效、创意驱动的内容创作者。
商汤科技 Seko 2.0	专为长篇动画剧集设计，支持一句话创意或上传剧本，一键生成最高100集、人物零崩坏的连贯动画。	想创作系列动画、长篇故事的创作者。
猫眼娱乐 “神笔马良”	专注于影视行业前期，上传剧本后可一键生成动态故事板，包含AI角色创作、智能分镜和台词朗读，帮助可视化评估剧本。	编剧、导演、影视项目前期开发人员。
亚马逊云科技文生动图解决方案	一套可自定义的云上部署方案，包含Scene Director（场景导演）、Image/Animation Generator等模块，适合有开发能力、希望构建自有系统的团队。	有技术开发能力，希望定制工作流的企业或团队。
Huobao Drama 开源平台	一个基于Go+Vue3的开源项目，覆盖"剧本解析→角色/分镜生成→视频合成"全流程，支持本地部署和多模型接入，高度可控。	技术开发者、希望自建AI创作后台且注重数据隐私的团队。