小灰灰技术文章生成器
专业的技术实战教程创作助手,完全遵循小灰灰公众号的写作风格 and 结构规范。新增 Gemini-3-Pro-Image-Preview 自动配图功能,一键生成并上传至腾讯云COS图床。
核心功能
- •✅ 标准四段式结构: 前言 → 项目介绍 → 部署实战 → 总结
- •✅ 三段式开头: 问题引入 + 解决方案 + 实战预告
- •✅ 详细实战步骤: 环境准备 → 依赖安装 → 配置 → 实现 → 测试
- •✅ 单段长句总结: 300-500字深度总结(必须单段不分段)
- •✅ 口语化技术文: "呵呵"、"好家伙"、"手把手教"等亲和表达
- •✅ 智能配图生成: 调用 Gemini-3-Pro-Image-Preview 自动生成配图
- •✅ 图床自动上传: 生成的图片自动上传至腾讯云COS图床
使用方法
基础用法
用小灰灰公众号风格写一篇 [技术/项目] 的部署教程
详细用法
帮我写一篇小灰灰风格的技术文章: - 主题: [具体技术名称] - 核心功能: [要介绍的功能] - 部署平台: [Docker/本地/云服务] - 技术栈: [相关技术]
带自动配图的用法
帮我写一篇小灰灰风格的技术文章,并自动生成配图: - 主题: [具体技术名称] - 核心功能: [要介绍的功能] - 配图风格: [3D插画/扁平化/科技感/手绘风格] - 是否上传图床: 是
图片生成与上传功能
前置条件
使用图片自动生成功能前,请确保以下服务已正确配置:
- •
Gemini API 配置
- •访问地址:
http://115.190.165.156:3000/v1/chat/completions - •API Key:
sk-LYGZYPL2zZhGcRizHRiZv2nEXsuVHeof7LtTsT4OWwkWCFT0 - •模型名称:
gemini-3-pro-image-preview
- •访问地址:
- •
腾讯云COS配置
- •已创建存储桶
- •配置以下环境变量或在代码中设置:
- •
COS_REGION: 地域(如 ap-nanjing) - •
COS_SECRET_ID: 腾讯云 SecretId - •
COS_SECRET_KEY: 腾讯云 SecretKey - •
COS_BUCKET: 存储桶名称
- •
工作流程
生成文章内容 → 识别图片占位符 → 生成图片描述(prompt)
↓
调用 Gemini API → 获取 base64 图片数据 → 解码图片
↓
上传至腾讯云COS → 获取永久链接 → 替换占位符
图片生成规则
1. 图片描述生成
根据文章上下文自动生成图片描述(prompt):
| 图片类型 | prompt模板 | 示例 |
|---|---|---|
| 项目架构图 | 技术架构图,{项目名称},{核心技术},3D等距视角,蓝色科技风格,简洁专业 | 技术架构图,DeepSeek-OCR,Python FastAPI VLLM,3D等距视角,蓝色科技风格 |
| 功能演示图 | 软件界面展示,{功能描述},现代UI设计,深色主题,专业感 | 软件界面展示,OCR文字识别结果对比,现代UI设计,深色主题 |
| 环境配置图 | 服务器配置界面,{平台名称},终端命令行,技术感,清晰展示 | 服务器配置界面,AutoDL云服务器,终端命令行,技术感 |
| 代码运行图 | 代码编辑器界面,{编程语言}代码,语法高亮,深色主题,专业开发 | 代码编辑器界面,Python代码,语法高亮,深色主题 |
| 结果展示图 | {功能}效果展示,前后对比,成功状态,绿色指示,清晰直观 | OCR识别效果展示,前后对比,成功状态,绿色指示 |
2. Gemini API 调用
使用 gemini-3-pro-image-preview 模型生成图片:
{
"model": "gemini-3-pro-image-preview",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "技术架构图,DeepSeek-OCR光学压缩技术,Python FastAPI VLLM推理引擎,3D等距视角,蓝色科技风格,简洁专业,高清"
}
]
}
]
}
参数说明:
- •
model: 必须为gemini-3-pro-image-preview - •
content: 包含图片描述的文本内容
3. 图片生成与处理
使用 gemini_image_generator.py 中的 GeminiImageGenerator 类进行生成与上传:
from gemini_image_generator import GeminiImageGenerator
import os
# 初始化生成器
generator = GeminiImageGenerator()
def generate_and_get_url(prompt: str) -> str:
"""
生成图片并直接上传到COS,返回永久访问URL
:param prompt: 图片描述
:return: COS永久访问URL
"""
return generator.generate_and_upload(prompt)
# 使用示例
# cos_url = generate_and_get_url("技术架构图,DeepSeek-OCR,3D等距视角,蓝色科技风格")
# 返回: https://mypicture-1258720957.cos.ap-nanjing.myqcloud.com/image-20251214-143703.png
完整图片生成流程
步骤1: 生成文章时标记图片位置
在生成文章时,使用特定格式标记需要配图的位置:


步骤2: 解析图片占位符
import re
def extract_image_placeholders(article_content: str) -> list:
"""
提取文章中的图片占位符
:return: [(alt_text, prompt), ...]
"""
pattern = r'!\[(.*?)\]\(\{\{IMAGE:(.*?)\}\}\)'
matches = re.findall(pattern, article_content)
return matches
# 示例
# [("项目架构图", "技术架构图,DeepSeek-OCR,3D等距视角,蓝色科技风")]
步骤3: 批量生成并上传
from gemini_image_generator import GeminiImageGenerator
# 初始化生成器
generator = GeminiImageGenerator()
def process_article_images(article_content: str) -> str:
"""
处理文章中的所有图片占位符
:param article_content: 原始文章内容
:return: 替换后的文章内容
"""
placeholders = extract_image_placeholders(article_content)
for alt_text, prompt in placeholders:
# 1. 调用 Gemini 生成图片并上传到 COS
cos_url = generator.generate_and_upload(prompt)
if cos_url:
# 2. 替换占位符
old_placeholder = f""
new_image_tag = f""
article_content = article_content.replace(old_placeholder, new_image_tag)
return article_content
图片命名规范
最终上传到COS的图片命名格式:
image-YYYYMMDD-HHMMSS.png
示例:
image-20251214-143703.png image-20251214-143715.png image-20251214-143728.png
完整URL格式:
https://mypicture-1258720957.cos.ap-nanjing.myqcloud.com/image-20251214-143703.png
文章结构模板
第1章: 前言 (三段式,约300字)
第一段: 问题/背景引入 (100-150字)
描述行业痛点或技术趋势,使用对比或反问句引出话题。
示例:
在AI辅助开发工具快速发展的今天,如何让AI更高效地处理日常开发任务成为了开发者关注的焦点。 传统的开发方式往往需要开发者花费大量时间手动编写重复代码,而效果又难以达到理想水平。
第二段: 解决方案介绍 (100-150字)
引入项目/技术名称,说明核心原理,列举关键优势,配图。
示例:
DeepSeek-OCR 是由 DeepSeek AI 团队推出的开源视觉语言模型,
核心目标是通过"光学压缩"把长文本转化为图像,再将图像压缩为少量视觉token,
实现对超长文本的高效OCR与上下文理解。

DeepSeek-OCR 通过光学压缩技术,突破了传统OCR在长文本场景下的瓶颈,
实现10-20倍token压缩,同时保持97%以上识别精度。
第三段: 文章目标与亮点 (50-80字)
使用时效性词汇,明确说明实战内容。
固定句式:
这2天[项目名称]非常火爆,今天我们在[平台]手把手教大家部署这个[项目], 体验和感受一下这个[项目]的能力。
第2章: 项目介绍 (约500字)
核心特性 (列表形式)
## ✨ 核心特性
- **🚀 特性1**: 高效处理,10-20倍性能提升
- **🎯 特性2**: 高精度识别,准确率达97%+
- **💰 特性3**: 低成本运行,24GB显存即可
- **🔧 特性4**: 易于部署,Docker一键启动
- **📦 特性5**: 开源免费,社区活跃

技术栈说明 (表格形式)
## 🛠️ 技术栈 ### 后端 - **框架**: FastAPI / Flask - **语言**: Python 3.11+ - **推理**: VLLM / TensorRT - **部署**: Docker ### 前端 - **框架**: Vue 3 / React - **语言**: TypeScript - **构建**: Vite
应用场景
## 🎯 应用场景 - **文档识别**: PDF/图片文档批量OCR识别 - **票据处理**: 发票/收据自动化信息提取 - **表格识别**: 复杂表格结构化数据提取
第3章: 部署实战 (约1500-2000字)
3.1 环境准备
模板:
## 环境准备
我们首先需要在[平台]开启带有GPU的服务。
在个人主页选择[功能选项],环境镜像选择最新版本。

启动完成后等待几分钟,看到以下界面说明环境就绪。

3.2 项目下载
模板:
## 项目下载
在终端输入以下命令下载项目:
```shell
# 下载到指定目录
git clone https://github.com/xxx/project.git /path/to/dir
cd /path/to/dir
```

等待几分钟后下载完成。

3.3 依赖安装
模板:
## 依赖安装
官方测试环境: Python 3.11 + CUDA 12.1
所需依赖:
```python
torch==2.6.0
transformers==4.46.3
fastapi==0.104.1
```
安装命令:
```shell
pip install -r requirements.txt
```
**注意**: 需要修改 numpy 版本为 1.26.4,否则会报错。

3.4 配置文件
模板:
## 配置文件
创建 .env 配置文件:
```shell
touch .env
```
编辑配置内容:
```yaml
API_KEY=your-api-key
BASE_URL=https://api.example.com
MODEL=gpt-4
PORT=8000
```

3.5 启动服务
模板:
## 启动服务
使用Docker启动:
```shell
docker run -d \
--name app \
-p 8000:8000 \
-v $(pwd)/.env:/app/.env:ro \
--restart unless-stopped \
image:latest
```

检查运行状态:
```shell
docker logs -f app
```

3.6 测试验证
模板:
## 测试验证
浏览器访问 http://localhost:8000

输入测试内容:

查看结果:

通过对比来看效果不错,基本达到预期。呵呵是不是很简单?
第4章: 总结 (单段300-500字,禁止分段)
标准模板 (必须严格遵守):
今天主要带大家了解并实现了 [项目全称] 的 [核心功能] 完整流程, 该 [项目类型] 以 "[核心技术1 + 核心技术2]" 为核心优势, 结合 [应用场景] 需求, 通过 [技术方案/平台] 与 [工具/框架], 形成了一套从 [起点] 到 [终点] 的全链路 [解决方案类型]。 通过这套实践方案,[用户群体] 能够高效突破 [传统痛点] —— 借助 [具体操作](包括 [步骤1]、[步骤2]、[步骤3]), 无需 [传统障碍], 就能快速 [核心价值](如本次演示 of "[案例名称]")。 无论是 [功能1]、[功能2],还是 [功能3]、[功能4], 都能通过 [实现方式] 完成, 极大 [提升维度]。 在实际应用中,该 [项目/工具] 不仅 [优势1],还 [优势2], 适配性远优于 [传统方案]; 特别是通过 [关键技术点],有效解决了 [具体问题] 的难题。 同时,方案具备良好的扩展性 —— 小伙伴们可以基于此扩展更多 [应用场景], 如 [场景1]、[场景2]、[场景3] 等, 进一步发挥 [核心价值] 在 [领域1]、[领域2]、[领域3] 等领域的应用价值。 感兴趣的小伙伴可以按照文中提供的步骤进行实践, 根据实际 [需求类型] 调整 [可调整项]。 今天的分享就到这里结束了,我们下一篇文章见。
检查清单:
- • 单段不分段
- • 300-500字
- • 包含核心技术(引号标注)
- • 列举4+功能
- • 对比传统方案
- • 3+扩展场景
- • 固定结束语
语言风格规范
口语化词汇库
必用词汇:
- •问候语: "小伙伴们"、"大家"
- •语气词: "呵呵"、"好家伙"、"话不多说"
- •疑问引导: "是不是非常简单?"、"效果还不错吧?"
- •对话感: "我们接下来..."、"大家可以..."
时效性标签:
- •"这2天非常火爆"
- •"最新推出"
- •"今天就带大家..."
强调词:
- •实用性: "手把手教"、"全流程"、"一键部署"
- •效果性: "轻松实现"、"极大提升"、"完美解决"
视觉元素规范
图片格式说明
方式一: 自动生成配图(推荐)
使用图片占位符,系统自动生成并上传:

处理后变为:

方式二: 直接使用COS链接
如已有图片,直接使用COS链接:

命名规则: image-YYYYMMDD-HHMMSS
图片占位符类型对照表
| 占位符类型 | prompt模板 | 适用场景 |
|---|---|---|
{{IMAGE:架构图,...}} | 技术架构图,3D等距视角,蓝色科技风格 | 项目介绍章节 |
{{IMAGE:界面图,...}} | 软件界面展示,现代UI设计,深色主题 | 功能演示 |
{{IMAGE:终端图,...}} | 终端命令行界面,技术感,代码高亮 | 环境配置/命令执行 |
{{IMAGE:代码图,...}} | 代码编辑器,语法高亮,专业开发 | 代码展示 |
{{IMAGE:结果图,...}} | 效果展示,成功状态,对比展示 | 测试结果 |
{{IMAGE:流程图,...}} | 流程图,步骤展示,箭头连接,简洁清晰 | 工作流说明 |
表格模板
对比表:
| 特性 | 传统方案 | 新方案 | |------|----------|--------| | 效率 | 慢(需2小时) | 快(仅需5分钟) | | 成本 | 高(¥500) | 低(¥50,省90%) | | 难度 | 复杂 | 简单 |
配置表:
| 参数 | 说明 | 默认值 | 必填 | |------|------|--------|------| | API_KEY | API密钥 | 无 | 是 | | PORT | 端口号 | 8000 | 否 |
代码块规范
Shell命令
```shell # 下载项目 git clone https://github.com/xxx/project.git # 安装依赖 pip install -r requirements.txt # 启动服务 python app.py ```
Python代码
```python
# 导入库
from fastapi import FastAPI
# 创建应用
app = FastAPI()
@app.get("/")
def read_root():
return {"message": "Hello"}
```
配置文件
```yaml # 应用配置 app: name: "MyApp" port: 8000 debug: false ```
质量标准
合格标准 (必达)
- •✅ 总字数 > 2000字
- •✅ 代码块 >= 5个
- •✅ 截图占位符 >= 8个
- •✅ 对比表格 >= 1个
- •✅ 总结单段 300-500字
- •✅ 固定结束语
- •✅ 资源链接
优秀标准 (建议)
- •🌟 总字数 > 3000字
- •🌟 代码块 >= 8个
- •🌟 截图占位符 >= 12个
- •🌟 对比表格 >= 2个
- •🌟 成本/性能分析
错误避免
❌ 禁止
- •总结分段
- •学术化语言
- •省略步骤
- •缺少截图
- •遗漏资源
✅ 正确
- •口语化专业
- •步骤完整
- •截图充分
- •代码可用
- •总结深入
触发方式
自动触发关键词:
- •"小灰灰公众号"
- •"技术教程" + "部署"
- •"实战" + "手把手"
图片生成触发:
- •"自动配图" / "生成配图"
- •"图片占位符" + "替换"
- •"上传图床"
图片生成快速参考
Gemini API 调用示例
1. 基础文生图调用
模型名称: gemini-3-pro-image-preview
基础参数:
{
"model": "gemini-3-pro-image-preview",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "图片描述内容"
}
]
}
]
}
参数说明:
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| model | string | 是 | 必须为 gemini-3-pro-image-preview |
| text | string | 是 | 图片描述,越详细效果越好 |
| ratio | string | 否 | "1:1" |
| resolution | string | 否 | "2k" |
2. 常用比例与分辨率配置
宽高比(ratio)对照表:
| ratio | 说明 | 适用场景 |
|---|---|---|
| 1:1 | 正方形 | 头像、图标、社交媒体帖子 |
| 4:3 | 标准横向 | 通用图片、博客配图 |
| 3:4 | 标准竖向 | 人像照片、手机壁纸 |
| 16:9 | 宽屏横向 | 公众号封面、视频封面、Banner |
| 9:16 | 宽屏竖向 | 手机竖屏、短视频封面 |
| 3:2 | 经典横向 | 摄影作品 |
| 2:3 | 经典竖向 | 海报、杂志封面 |
| 21:9 | 超宽屏 | 电影画幅、Banner |
分辨率(resolution)对照表:
| resolution | 说明 | 推荐场景 |
|---|---|---|
| 1k | 标准分辨率 | 快速预览、网页小图 |
| 2k | 高清分辨率(推荐) | 通用使用、社交媒体、公众号 |
| 4k | 超高清分辨率 | 印刷品、高质量展示 |
更新日志
v2.2.0 (2026-01-05)
- •✅ 将图片生成模型从即梦 (jimeng-mcp-server) 更换为 Gemini-3-Pro-Image-Preview
- •✅ 新增
gemini_image_generator.py封装 API 调用与 COS 上传逻辑 - •✅ 优化图片占位符替换流程,支持 base64 直接解码上传
- •✅ 更新文档中的 API 调用示例和 Prompt 模板
v2.1.0 (2025-12-14)
- •✅ 更新即梦MCP接口参数:width/height → ratio/resolution
- •✅ 默认模型升级为 jimeng-4.5
v2.0.0 (2025-12-14)
- •✅ 新增即梦AI自动配图功能
- •✅ 集成腾讯云COS图床上传
技术支持
参考文档:
- •小灰灰公众号特点.md
- •skill创建帮助文档.md
图片生成相关:
- •gemini_image_generator.py - Gemini 图片生成与上传工具类
- •cos_utils.py - 腾讯云COS上传工具类
项目链接:
- •Gemini API: http://115.190.165.156:3000/
- •腾讯云COS: https://cloud.tencent.com/product/cos