AgentSkillsCN

product-video-creator

多智能体协同的商品视频创作流水线,支持从商品信息到成视频的全流程创作:文案生成、故事策划、脚本创作、分镜设计、图片生成、字幕创作、音效推荐及视频合成;适用于电商商品宣传、品牌推广、社交媒体营销等场景

中文原作
SKILL.md
--- frontmatter
name: product-video-creator
description: 多智能体协同的商品视频创作流水线,支持从商品信息到成视频的全流程创作:文案生成、故事策划、脚本创作、分镜设计、图片生成、字幕创作、音效推荐及视频合成;适用于电商商品宣传、品牌推广、社交媒体营销等场景
dependency:
  python:
    - moviepy>=1.0.3
    - pillow>=10.0.0
    - opencv-python>=4.8.0
  system: []

商品视频创作多智能体协同系统

任务目标

  • 本 Skill 用于:将商品信息和需求转化为完整的商品宣传视频
  • 能力包含:
    • 文案创作:分析商品卖点,生成吸引人的核心文案
    • 故事策划:设计贴合商品的场景故事线
    • 脚本创作:将故事转化为可执行的分镜脚本
    • 分镜设计:规划每个镜头的画面描述、时长、转场
    • 图片生成:为分镜生成符合描述的场景图片
    • 字幕创作:为每个镜头创作精炼的字幕文本
    • 音效推荐:推荐背景音乐和音效方案
    • 视频合成:将所有素材合成为最终MP4视频
  • 触发条件:用户提供商品信息(名称、卖点、图片等)和视频需求(时长、风格、目标受众)

前置准备

  • 依赖说明:视频合成脚本所需依赖
    code
    moviepy>=1.0.3
    pillow>=10.0.0
    opencv-python>=4.8.0
    
  • 文件准备:确保工作目录下有以下资源(如需自定义)
    • bgm/:背景音乐文件夹(可选,脚本会推荐也可使用默认)
    • product_images/:商品原始图片(可选,智能体可基于描述生成)

操作步骤

步骤1:文案创作师 - 核心卖点提炼

职责:分析商品信息,生成吸引目标受众的核心文案

执行要点

  • 识别商品的核心卖点和差异化优势
  • 针对目标受众(如年轻女性、家庭用户、商务人士等)调整语言风格
  • 生成3-5条备选文案,包含:
    • 标题(简短有力,5-10字)
    • 核心宣传语(朗朗上口,15-20字)
    • 详细卖点(3-5个要点)

输出:核心文案文本

步骤2:故事策划师 - 场景故事设计

职责:基于文案设计连贯的场景故事线,让商品卖点自然融入

执行要点

  • 设计故事主题(如"问题-解决方案"、"使用场景展示"、"对比测试"等)
  • 规划故事起承转合,通常3-5个场景
  • 确保故事逻辑流畅,卖点自然出现而非硬植入
  • 设计情感曲线(吸引-兴趣-欲望-行动)

输出:场景故事大纲(含每个场景的情节和卖点关联)

步骤3:脚本创作师 - 分镜脚本编写

职责:将故事转化为具体的分镜脚本

执行要点

  • 根据视频时长要求分配每个镜头的时间(通常30秒视频8-12个镜头)
  • 为每个镜头定义:
    • 序号(如镜头1、镜头2)
    • 时长(秒)
    • 画面内容描述(详细到人物、动作、背景、商品位置)
    • 字幕内容(简短精炼,与画面配合)
    • 转场方式(切、淡入淡出、推拉等)
  • 确保分镜连贯性和节奏感

输出:分镜脚本表格,格式参考 references/storyboard_format.md

步骤4:分镜导演 - 画面设计优化

职责:为每个分镜生成详细的画面描述,指导图片生成

执行要点

  • 基于分镜脚本,为每个镜头创作详细的画面描述词(prompt)
  • 描述词包含:
    • 主体(商品、人物、环境)
    • 风格(写实、插画、3D渲染等)
    • 光影(自然光、室内光、戏剧性光影)
    • 构图(特写、中景、全景、视角)
    • 色调(温暖、冷色、高对比等)
  • 确保画面风格统一,符合视频整体风格

输出:每个镜头的画面描述词列表

步骤5:分镜画师 - 场景图片生成

职责:为每个分镜生成符合描述的图片

执行要点

  • 使用图像生成能力,基于分镜导演的描述词生成图片
  • 确保图片质量:分辨率至少1920x1080
  • 保持风格一致性:所有图片使用相同的风格参数
  • 商品展示突出:确保商品在画面中清晰可见、位置合理
  • 必要时生成多版本选择

输出:图片序列,命名为 scene_001.jpg, scene_002.jpg, ...

步骤6:字幕师 - 字幕创作与设计

职责:为每个镜头创作字幕文本,并规划显示位置和时间

执行要点

  • 基于分镜脚本的字幕内容,创作最终字幕文本
  • 确保字幕简短易读(每行不超过20字)
  • 设计字幕位置(通常画面下方1/3处)
  • 规划字幕显示时间(在镜头前1/3出现,后1/3消失)
  • 考虑字幕颜色和边框以确保可读性

输出:字幕文本与时间配置,格式参考 references/subtitle_format.md

步骤7:音效师 - 音频方案推荐

职责:推荐背景音乐和音效方案,提升视频感染力

执行要点

  • 推荐背景音乐类型(轻快、温馨、动感、高级感等)
  • 说明音乐的情绪基调和使用方式(全程使用、分段切换等)
  • 推荐关键音效(如转场音效、点击声、商品出场音等)
  • 提供音乐来源建议(免费素材库、版权音乐平台等)
  • 说明音量平衡(背景音乐音量应低于人声/音效)

输出:音频方案说明文档

步骤8:视频工程师 - 视频合成

职责:调用脚本将图片、字幕、音频合成为最终视频

执行要点

  • 确保所有素材准备就绪:
    • 图片序列:scene_*.jpg
    • 字幕配置:subtitles.json
    • 音频文件:bgm.mp3(或其他格式)
  • 调用合成脚本处理技术细节
  • 验证视频质量:分辨率、帧率、音画同步、字幕清晰

调用脚本

bash
python scripts/video_composer.py \
  --images ./scene_*.jpg \
  --subtitles ./subtitles.json \
  --audio ./bgm.mp3 \
  --output ./final_video.mp4 \
  --fps 24 \
  --duration 30

输出:最终视频文件 final_video.mp4

资源索引

注意事项

  • 保持智能体间协作:每个步骤的输出应成为下一步的输入,确保连贯性
  • 优先使用智能体能力:创意内容、文案、图像生成等环节充分利用智能体已有能力
  • 脚本专注技术处理:仅视频合成使用脚本,其他环节由智能体完成
  • 质量控制:每个步骤完成后,智能体应自我评估输出质量,必要时调整
  • 灵活调整:根据视频时长和复杂度,可增减镜头数量,但保持逻辑完整

使用示例

示例1:30秒新品推广视频

  • 功能说明:为新款智能手表创作30秒宣传视频
  • 商品信息:智能手表,支持健康监测、超长续航、时尚外观
  • 目标受众:20-35岁都市白领
  • 视频风格:现代简约,科技感
  • 执行流程:
    1. 文案创作师生成核心文案:"智能生活,腕间掌控"
    2. 故事策划师设计"一天的生活"场景
    3. 脚本创作师编写8个分镜(每个3-4秒)
    4. 分镜导演设计现代科技风格的画面描述
    5. 分镜画师生成8张场景图片
    6. 字幕师创作配合画面的字幕
    7. 音效师推荐轻快科技感背景音乐
    8. 视频工程师调用脚本合成视频

示例2:60秒护肤品宣传视频

  • 功能说明:为抗衰老护肤品创作60秒品牌视频
  • 商品信息:高端抗衰老精华,主打紧致、提亮
  • 目标受众:30-50岁女性
  • 视频风格:温暖优雅,高级感
  • 执行流程:
    1. 文案创作师:"时光荏苒,美丽不老"
    2. 故事策划师设计"使用前后对比"故事
    3. 脚本创作师编写12个分镜
    4. 分镜导演设计温暖光线、优雅风格的画面
    5. 分镜画师生成12张高质量图片
    6. 字幕师创作情感化字幕
    7. 音效师推荐舒缓优雅背景音乐
    8. 视频工程师合成60秒视频

示例3:15秒社交媒体短视频

  • 功能说明:为新品零食创作15秒抖音风格短视频
  • 商品信息:网红零食,口味丰富、包装精美
  • 目标受众:18-30岁年轻人
  • 视频风格:活泼有趣,快节奏
  • 执行流程:
    1. 文案创作师:简洁有力的口号
    2. 故事策划师:单一场景的快速展示
    3. 脚本创作师:4-5个快节奏分镜
    4. 分镜导演:鲜艳色彩、动感构图
    5. 分镜画师:生成4-5张生动图片
    6. 字幕师:简短字幕配合节奏
    7. 音效师:动感音乐配合转场音效
    8. 视频工程师:合成15秒视频