视频文案分析工具

一站式视频内容提取与文案分析，支持 B站、YouTube、抖音等平台。

首次使用设置

首次使用时，询问用户：

"请设置默认工作目录（用于保存下载的视频和分析报告）：

A. 使用默认目录：~/video-analysis/ B. 每次手动指定目录 C. 指定一个固定目录：[请输入路径]"

保存用户选择供后续使用。

依赖环境检测

运行前检测以下依赖，如缺失则提示安装：

bash

# 1. yt-dlp
yt-dlp --version

# 2. FFmpeg
ffmpeg -version

# 3. Python 依赖
python -c "import pysrt; from dotenv import load_dotenv; print('OK')"

# 4. RapidOCR (用于烧录字幕识别，ONNX 轻量版)
python -c "from rapidocr_onnxruntime import RapidOCR; print('OK')"

# 5. FunASR (中文语音转录，推荐)
python -c "from funasr import AutoModel; print('OK')"

# 6. requests (用于抖音下载)
python -c "import requests; print('OK')"

安装命令（如缺失）：

bash

# 基础依赖
pip install yt-dlp pysrt python-dotenv requests

# FunASR (中文语音转录，轻量且效果好)
pip install funasr modelscope

# RapidOCR (ONNX 轻量版，用于烧录字幕识别)
pip install rapidocr-onnxruntime

# Whisper (备选方案)
pip install openai-whisper

工作流程（4 阶段）

阶段 1: 下载视频

•获取用户视频 URL 和输出目录
•
判断视频平台：
- •抖音链接（douyin.com 或 v.douyin.com）：使用专用脚本下载
- •其他平台（B站、YouTube等）：使用 yt-dlp 下载

抖音视频下载

对于抖音链接，使用 scripts/download_douyin.py：

bash

python scripts/download_douyin.py "<抖音链接>" "<输出路径>"

支持的抖音链接格式：

•短链接：https://v.douyin.com/xxxxx
•长链接：https://www.douyin.com/video/xxxxx
•精选页：https://www.douyin.com/jingxuan?modal_id=xxxxx
•分享链接：https://m.douyin.com/share/video/xxxxx

下载流程：

code

抖音链接
    ↓
[Mobile UA 访问] ──→ 获取重定向后页面
    ↓
[提取 RENDER_DATA] ──→ 解析视频元数据
    ↓
[提取 play_addr] ──→ 获取无水印视频URL
    ↓
[下载视频] ──→ 保存到指定路径

其他平台下载（yt-dlp）

对于 B站、YouTube 等平台：

bash

yt-dlp -f "bestvideo[height<=1080]+bestaudio/best[height<=1080]" \
  --merge-output-format mp4 \
  -o "<output_dir>/%(id)s.%(ext)s" \
  "<video_url>"

•记录视频文件路径

阶段 2: 智能字幕提取

使用 scripts/extract_subtitle_funasr.py 进行智能字幕提取，自动选择最佳方案：

bash

python scripts/extract_subtitle_funasr.py <视频路径> <输出SRT路径>

智能提取流程（三层优先级）：

code

视频输入
    ↓
[1️⃣ 内嵌字幕检测] ──→ 检测到字幕流 ──→ 直接提取（准确度最高）
    ↓ 未检测到
[2️⃣ 烧录字幕检测] ──→ 采样帧 OCR 识别 ──→ 检测到文字 ──→ 全视频 OCR 提取
    ↓ 未检测到
[3️⃣ FunASR 语音转录] ──→ 中文优化转录（效果优于 Whisper）
    ↓
输出 SRT 字幕

三层提取策略详解：

层级	方法	适用场景	准确度	速度
L1	内嵌字幕提取	视频自带字幕流	⭐⭐⭐⭐⭐	⚡ 极快
L2	RapidOCR 烧录字幕识别	字幕烧录在画面中	⭐⭐⭐⭐	🚀 快
L3	FunASR Nano 语音转录	无字幕，纯语音	⭐⭐⭐	🐢 中等

技术栈说明：

•
RapidOCR (ONNX): 用于检测和提取烧录在视频画面中的字幕
- •🚀 轻量级：ONNX Runtime 推理，无需 GPU
- •🎯 跨平台：Windows/Linux/Mac 均支持
- •📦 易部署：单 pip 安装，无复杂依赖
- •✨ 高精度：基于 PaddleOCR 模型优化
•
FunASR Nano: 阿里开源中文语音识别模型
- •🚀 轻量级：~100MB vs Whisper Large ~1.5GB
- •🎯 中文优化：针对中文语音专门训练，效果优于 Whisper
- •⏱️ 时间戳：支持字级别时间戳
- •💨 速度快：CPU 上也能快速运行

备选方案：

如需使用 Whisper（英文内容推荐）：

bash

python scripts/extract_subtitle.py <视频路径> <输出SRT路径>

如需手动控制，可使用原 transcribe_audio.py：

bash

python scripts/transcribe_audio.py <视频路径> <输出SRT路径> [模型] [语言] [设备]

阶段 3: 文稿校正

•读取 SRT 字幕文件
•合并字幕为连续文本
•
基于上下文语义进行智能校正：
- •修正同音字错误
- •修正专业术语
- •补充标点符号
•输出校正后的文字稿（Markdown 格式）

校正输出格式：

markdown

# 视频语音转录文字稿

**视频来源**: [URL]
**转录时间**: [日期]

---

## 完整文字稿

[校正后的正文内容]

---

## 原始 SRT 字幕

[带时间戳的原始转录]

阶段 4: 三维度综合分析

应用三个分析框架进行深度分析：

4.1 TextContent Analysis 视角

•叙事结构分析
•叙事声音分析
•修辞手法识别
•词库提取

4.2 Viral-Abstract-Script 视角

•Viral-5D 框架诊断（Hook/Emotion/爆点/CTA/社交货币）
•风格定位
•爆款潜力评估
•优化建议

4.3 Brainstorming 视角

•核心价值拆解
•2-3 种创意方向探索
•增量验证点

分析输出格式：

markdown

# 视频文案综合分析报告（三维度）

## 一、TextContent Analysis 视角
[叙事结构、修辞手法、词库]

## 二、Viral-Abstract-Script 视角
[Viral-5D诊断、风格定位、优化建议]

## 三、Brainstorming 视角
[价值拆解、创意方向、验证点]

## 四、综合评估与建议
[评分、改进建议、改写示例]

完成后输出

完成所有阶段后，向用户播报：

code

✅ 视频文案分析完成！

📁 输出目录: <用户指定的目录>

📄 生成文件:
  - <视频ID>.mp4         (原始视频)
  - <视频ID>.srt         (原始字幕)
  - <视频ID>_文字稿.md    (校正后文字稿)
  - <视频ID>_分析报告.md  (三维度分析报告)

🔗 快速打开:
  [文字稿](<文字稿路径>)
  [分析报告](<分析报告路径>)

参考文件

•download_douyin.py: 抖音视频下载脚本
•extract_subtitle_funasr.py: 智能字幕提取脚本（FunASR + RapidOCR）
•extract_subtitle.py: 字幕提取脚本（Whisper）
•transcribe_audio.py: 音频转录脚本
•analysis-frameworks.md: 三个分析框架详解