B 站视频转文本
执行须知:转写完成后,Agent 必须对原文执行后处理(标点、错别字、语气词、分段),再生成摘要。不可跳过。
平台与授权(默认方式)
本 skill 支持两种平台,AI 能力均由各自平台提供,无需单独配置 API:
| 平台 | AI 授权方式 |
|---|---|
| Cursor | 使用 Cursor Agent(需 Cursor Pro) |
| OpenClaw | 使用 OpenClaw 的模型授权(API Key / OAuth 等,按 OpenClaw 配置) |
后处理、摘要生成均由当前平台的 Agent 完成,用户只需在对应平台完成授权即可。
触发条件
- •用户提供 B 站视频链接并要求转文字、转文本、提取内容、生成摘要、制作知识库笔记
- •用户对 bilibili-video-to-text 的输出文件要求「后处理」「整理」「加标点」「修正错别字」「去除语气词」「分段」
环境检测与安装
执行前先运行环境检测:
cd <skill 目录> && python scripts/check_env.py
根据输出的 JSON 中 install_commands 安装缺失依赖:
| 依赖 | Mac | Windows |
|---|---|---|
| Python 3.10+ | brew install python | winget install Python.Python.3.12 |
| ffmpeg | brew install ffmpeg | choco install ffmpeg |
| yt-dlp | pip install yt-dlp | pip install yt-dlp |
| Whisper(无字幕时) | pip install openai-whisper | 同上 |
首次使用建议运行:pip install -r requirements.txt
主流程
- •提取链接:从用户消息中识别 B 站视频 URL
- •环境检查:运行
check_env.py,若ready_for_subtitle为 false,按install_commands指导安装 - •执行转写(不传
--post-process,后处理由平台 Agent 完成):
python scripts/bvt.py "https://www.bilibili.com/video/BVxxxxx" --output-dir <输出目录>
若 B 站视频有 CC 字幕但需登录,可加 --cookies-from-browser chrome 或 safari。
- •后处理(必须):读取输出文件中
# 完整原文下的正文,执行:添加标点、修正错别字、去除语气词、按逻辑分段;用处理后的文本替换原文 - •生成摘要:根据后处理后的原文,生成 2–4 句摘要,替换 YAML 中
summary:的占位符 - •可选 tags:根据视频标题和内容,在 YAML 中补充
tags数组 - •删除原始视频:转写完成后,若 output 目录或工作目录中存在下载的视频/音频文件(
.mp4、.webm、.mp3、.m4a),删除以释放空间
⚠️ 后处理执行方式(重要)
后处理必须由 Agent 自己完成,即:
- •Agent 读取
# 完整原文下的文本 - •使用当前平台的 LLM 能力(Cursor Agent / OpenClaw 模型)对文本进行转换
- •将转换后的文本写回文件
禁止:
- •使用
bvt.py --post-process(该选项依赖 GEMINI_API_KEY,本 skill 不使用) - •调用 postprocess.py 或任何需要外部 API 的脚本
无论是否配置 GEMINI_API_KEY,Agent 都应完成后处理。
Agent 后处理(固化能力)
当用户要求对转写原文做后处理,或原文为无标点、口语化、有错别字的连续文本时,Agent 必须执行以下步骤:
后处理步骤
- •读取:读取目标
.md文件中# 完整原文下的正文 - •转换:将口语转写文本转为规范书面语,执行:
- •添加标点:逗号、句号、问号、顿号等
- •修正错别字:同音字错误(如:客楼的部→Clawdbot、彩爆→财报、草骨→炒股、镜箱→镜像、造人→找人)
- •去除语气词:啊、呢、嗯、好吧、完了、听我说、这个这个、那个那个、就是说 等
- •逻辑分段:按语义分段,每段 2–4 句,段与段之间空一行
- •写回:用转换后的文本替换原
# 完整原文下的内容 - •摘要:若
summary为占位符,根据转换后原文生成 2–4 句摘要并更新
输出要求
- •保持原意不变,只做格式和语言规范化
- •专业术语、品牌名、产品名按常见写法修正(如 Clawdbot、PRD、Figma、飞书、钉钉)
- •段落不宜过长,便于阅读
触发话术
用户说以下任一即可触发后处理:「帮我对原文做后处理」「整理一下这段文字」「加标点」「修正错别字」「去除语气词」「分段」
输出格式
--- title: "视频标题" source: "https://www.bilibili.com/video/BVxxxxx" source_type: bilibili duration: "12:34" processed_at: "2025-02-12T16:00:00" tags: - AI - 教程 summary: | 本视频介绍了……(Agent 生成的 2–4 句摘要) --- # 完整原文 [按自然段分行的转录文本]
双路径策略
- •路径 A(优先):yt-dlp 拉取字幕(--lang zh-CN),解析 srt/vtt/ass 为纯文本
- •路径 B(兜底):无字幕时下载视频 → ffmpeg 提取音频 → Whisper 转写(需安装 openai-whisper)
学生使用指南(零基础)
Cursor 用户
- •安装 Cursor:从 https://cursor.sh 下载并安装(需要 Pro 会员)
- •安装 skill:按 安装说明.md 执行,或对 Agent 说「帮我安装这个 B 站转文本 skill」
- •使用:对 Agent 说「帮我把这个 B 站视频转成文字并生成摘要:<视频链接>」
OpenClaw 用户
- •安装 OpenClaw:按 OpenClaw 官方文档完成安装与模型授权
- •安装 skill:
clawdhub install bilibili-video-to-text或复制到~/.openclaw/skills/bilibili-video-to-text - •使用:对 OpenClaw Agent 说「帮我把这个 B 站视频转成文字并生成摘要:<视频链接>」
AI 后处理与摘要由 OpenClaw 的模型完成,无需额外配置 API。
通用安装(Mac/Linux)
# Cursor:克隆到 Cursor skills 目录 git clone https://github.com/AAAAAAlone/skills.git ~/.cursor/skills/bilibili-video-to-text cd ~/.cursor/skills/bilibili-video-to-text # OpenClaw:克隆到 OpenClaw skills 目录 # git clone https://github.com/AAAAAAlone/skills.git ~/.openclaw/skills/bilibili-video-to-text # cd ~/.openclaw/skills/bilibili-video-to-text # 运行安装脚本 ./setup.sh
Windows:在 PowerShell 中运行 .\setup.ps1
安装完成后重启终端。
流程说明(Cursor / OpenClaw 通用)
Agent 必须执行:
- •检测环境是否就绪
- •运行
bvt.py脚本获取视频文本(不传--post-process) - •读取输出文件
- •对原文做后处理(不可跳过):添加标点、修正错别字、去除语气词、逻辑分段。用处理后的文本替换
# 完整原文下的内容 - •生成 2-4 句摘要并更新
summary - •删除原始视频:转写完成后删除临时视频/音频文件
- •告诉你输出文件的位置
常见问题
Q: 提示"没有字幕"怎么办?
A: 很多 B 站视频没有上传 CC 字幕。可以:
- •加参数
--cookies-from-browser safari(Mac)或chrome(Windows)使用浏览器 cookie - •或安装 Whisper 进行语音转写:
pip install openai-whisper
Q: Whisper 转写很慢?
A: 首次使用会下载模型(约 150MB),之后会快一些。长视频转写确实需要时间。
Q: 在哪里找到输出文件?
A: 默认在当前目录的 output/ 文件夹,文件名为视频标题。
Q: 需要单独配置 API Key 吗?
A: 不需要。Cursor 使用 Cursor Agent;OpenClaw 使用 OpenClaw 的模型授权。AI 能力由各自平台提供。
故障排查
详见 reference.md。