商品视频创作多智能体协同系统

任务目标

•本 Skill 用于：将商品信息和需求转化为完整的商品宣传视频
•
能力包含：
- •文案创作：分析商品卖点，生成吸引人的核心文案
- •故事策划：设计贴合商品的场景故事线
- •脚本创作：将故事转化为可执行的分镜脚本
- •分镜设计：规划每个镜头的画面描述、时长、转场
- •图片生成：为分镜生成符合描述的场景图片
- •字幕创作：为每个镜头创作精炼的字幕文本
- •音效推荐：推荐背景音乐和音效方案
- •视频合成：将所有素材合成为最终MP4视频
•触发条件：用户提供商品信息（名称、卖点、图片等）和视频需求（时长、风格、目标受众）

前置准备

•依赖说明：视频合成脚本所需依赖

code

moviepy>=1.0.3
pillow>=10.0.0
opencv-python>=4.8.0

•
文件准备：确保工作目录下有以下资源（如需自定义）
- •bgm/：背景音乐文件夹（可选，脚本会推荐也可使用默认）
- •product_images/：商品原始图片（可选，智能体可基于描述生成）

操作步骤

步骤1：文案创作师 - 核心卖点提炼

职责：分析商品信息，生成吸引目标受众的核心文案

执行要点：

•识别商品的核心卖点和差异化优势
•针对目标受众（如年轻女性、家庭用户、商务人士等）调整语言风格
•
生成3-5条备选文案，包含：
- •标题（简短有力，5-10字）
- •核心宣传语（朗朗上口，15-20字）
- •详细卖点（3-5个要点）

输出：核心文案文本

步骤2：故事策划师 - 场景故事设计

职责：基于文案设计连贯的场景故事线，让商品卖点自然融入

执行要点：

•设计故事主题（如"问题-解决方案"、"使用场景展示"、"对比测试"等）
•规划故事起承转合，通常3-5个场景
•确保故事逻辑流畅，卖点自然出现而非硬植入
•设计情感曲线（吸引-兴趣-欲望-行动）

输出：场景故事大纲（含每个场景的情节和卖点关联）

步骤3：脚本创作师 - 分镜脚本编写

职责：将故事转化为具体的分镜脚本

执行要点：

•根据视频时长要求分配每个镜头的时间（通常30秒视频8-12个镜头）
•
为每个镜头定义：
- •序号（如镜头1、镜头2）
- •时长（秒）
- •画面内容描述（详细到人物、动作、背景、商品位置）
- •字幕内容（简短精炼，与画面配合）
- •转场方式（切、淡入淡出、推拉等）
•确保分镜连贯性和节奏感

输出：分镜脚本表格，格式参考 references/storyboard_format.md

步骤4：分镜导演 - 画面设计优化

职责：为每个分镜生成详细的画面描述，指导图片生成

执行要点：

•基于分镜脚本，为每个镜头创作详细的画面描述词（prompt）
•
描述词包含：
- •主体（商品、人物、环境）
- •风格（写实、插画、3D渲染等）
- •光影（自然光、室内光、戏剧性光影）
- •构图（特写、中景、全景、视角）
- •色调（温暖、冷色、高对比等）
•确保画面风格统一，符合视频整体风格

输出：每个镜头的画面描述词列表

步骤5：分镜画师 - 场景图片生成

职责：为每个分镜生成符合描述的图片

执行要点：

•使用图像生成能力，基于分镜导演的描述词生成图片
•确保图片质量：分辨率至少1920x1080
•保持风格一致性：所有图片使用相同的风格参数
•商品展示突出：确保商品在画面中清晰可见、位置合理
•必要时生成多版本选择

输出：图片序列，命名为 scene_001.jpg, scene_002.jpg, ...

步骤6：字幕师 - 字幕创作与设计

职责：为每个镜头创作字幕文本，并规划显示位置和时间

执行要点：

•基于分镜脚本的字幕内容，创作最终字幕文本
•确保字幕简短易读（每行不超过20字）
•设计字幕位置（通常画面下方1/3处）
•规划字幕显示时间（在镜头前1/3出现，后1/3消失）
•考虑字幕颜色和边框以确保可读性

输出：字幕文本与时间配置，格式参考 references/subtitle_format.md

步骤7：音效师 - 音频方案推荐

职责：推荐背景音乐和音效方案，提升视频感染力

执行要点：

•推荐背景音乐类型（轻快、温馨、动感、高级感等）
•说明音乐的情绪基调和使用方式（全程使用、分段切换等）
•推荐关键音效（如转场音效、点击声、商品出场音等）
•提供音乐来源建议（免费素材库、版权音乐平台等）
•说明音量平衡（背景音乐音量应低于人声/音效）

输出：音频方案说明文档

步骤8：视频工程师 - 视频合成

职责：调用脚本将图片、字幕、音频合成为最终视频

执行要点：

•
确保所有素材准备就绪：
- •图片序列：scene_*.jpg
- •字幕配置：subtitles.json
- •音频文件：bgm.mp3（或其他格式）
•调用合成脚本处理技术细节
•验证视频质量：分辨率、帧率、音画同步、字幕清晰

调用脚本：

bash

python scripts/video_composer.py \
  --images ./scene_*.jpg \
  --subtitles ./subtitles.json \
  --audio ./bgm.mp3 \
  --output ./final_video.mp4 \
  --fps 24 \
  --duration 30

输出：最终视频文件 final_video.mp4

资源索引

•必要脚本：见 scripts/video_composer.py（用途：视频素材合成与导出）
•分镜脚本格式：见 references/storyboard_format.md（何时读取：步骤3编写分镜脚本时）
•字幕格式规范：见 references/subtitle_format.md（何时读取：步骤6配置字幕时）
•视频参数规范：见 references/video_specs.md（何时读取：步骤8合成视频前参考）

注意事项

•保持智能体间协作：每个步骤的输出应成为下一步的输入，确保连贯性
•优先使用智能体能力：创意内容、文案、图像生成等环节充分利用智能体已有能力
•脚本专注技术处理：仅视频合成使用脚本，其他环节由智能体完成
•质量控制：每个步骤完成后，智能体应自我评估输出质量，必要时调整
•灵活调整：根据视频时长和复杂度，可增减镜头数量，但保持逻辑完整

使用示例

示例1：30秒新品推广视频

•功能说明：为新款智能手表创作30秒宣传视频
•商品信息：智能手表，支持健康监测、超长续航、时尚外观
•目标受众：20-35岁都市白领
•视频风格：现代简约，科技感
•
执行流程：
1. •文案创作师生成核心文案："智能生活，腕间掌控"
2. •故事策划师设计"一天的生活"场景
3. •脚本创作师编写8个分镜（每个3-4秒）
4. •分镜导演设计现代科技风格的画面描述
5. •分镜画师生成8张场景图片
6. •字幕师创作配合画面的字幕
7. •音效师推荐轻快科技感背景音乐
8. •视频工程师调用脚本合成视频

示例2：60秒护肤品宣传视频

•功能说明：为抗衰老护肤品创作60秒品牌视频
•商品信息：高端抗衰老精华，主打紧致、提亮
•目标受众：30-50岁女性
•视频风格：温暖优雅，高级感
•
执行流程：
1. •文案创作师："时光荏苒，美丽不老"
2. •故事策划师设计"使用前后对比"故事
3. •脚本创作师编写12个分镜
4. •分镜导演设计温暖光线、优雅风格的画面
5. •分镜画师生成12张高质量图片
6. •字幕师创作情感化字幕
7. •音效师推荐舒缓优雅背景音乐
8. •视频工程师合成60秒视频

示例3：15秒社交媒体短视频

•功能说明：为新品零食创作15秒抖音风格短视频
•商品信息：网红零食，口味丰富、包装精美
•目标受众：18-30岁年轻人
•视频风格：活泼有趣，快节奏
•
执行流程：
1. •文案创作师：简洁有力的口号
2. •故事策划师：单一场景的快速展示
3. •脚本创作师：4-5个快节奏分镜
4. •分镜导演：鲜艳色彩、动感构图
5. •分镜画师：生成4-5张生动图片
6. •字幕师：简短字幕配合节奏
7. •音效师：动感音乐配合转场音效
8. •视频工程师：合成15秒视频