AgentSkillsCN

web-research

全面的网络调研工具——包括网页抓取、信息检索、竞争对手分析以及数据采集

SKILL.md
--- frontmatter
name: web-research
description: Комплексный инструмент для веб-исследований - парсинг, поиск, анализ конкурентов, сбор данных

Web Research Skill

When to use this skill

Автоматическая активация при:

  • Запросы на парсинг: "спарси", "scrape", "extract from URL"
  • Исследования конкурентов: "анализ конкурентов", "что делают [компания]"
  • Поиск информации: "найди информацию про", "research", "исследуй"
  • Сбор данных: "собери примеры", "найди кейсы"

Паттерны активации:

  • "Спарси эту страницу: [URL]"
  • "Найди информацию про [тема]"
  • "Проанализируй конкурентов [компания]"
  • "Собери кейсы по [тема]"
  • "Что говорят про [тема] в интернете"
  • "Исследуй [URL] и извлеки [данные]"

Workflow

1. Определение типа запроса

  • Single page scraping - парсинг одной страницы
  • Multi-page research - исследование нескольких источников
  • Competitor analysis - анализ конкурентов
  • Trend monitoring - мониторинг трендов
  • Data aggregation - агрегация данных

2. Выбор инструмента

  • Firecrawl search - если нужен поиск
  • Firecrawl scrape - если есть конкретный URL
  • Firecrawl agent - если задача сложная и нет точных URL
  • Firecrawl extract - если нужны структурированные данные
  • Playwright - если динамический контент или нужны скриншоты

3. Выполнение исследования

  • Запустить соответствующий инструмент
  • Обработать результаты
  • Извлечь ключевую информацию

4. Структурирование результата

  • Создать markdown заметку с результатами
  • Добавить метаданные и источники
  • Связать с проектами если релевантно

5. Сохранение в vault

  • По умолчанию: 03_Resources/Web Research/
  • Или в проект: 01_Projects/[Проект]/Research/

Instructions

Core Principles

  • Точность источников: Всегда указывать URL и дату извлечения
  • Структурированность: Организовывать данные в читаемом формате
  • Контекст: Связывать с проектами из CLAUDE.md
  • Эффективность: Выбирать оптимальный инструмент для задачи
  • Проверяемость: Сохранять ссылки на все источники

Tool Selection Matrix

Когда использовать firecrawl_search:

✅ Нужно найти информацию по теме ✅ Не знаешь точные URL ✅ Нужно несколько источников ✅ Поиск новостей, статей, кейсов

Пример:

typescript
mcp__firecrawl__firecrawl_search({
  query: "AI agents production best practices 2026",
  limit: 5,
  sources: [{type: "web"}],
  scrapeOptions: {
    formats: ["markdown"],
    onlyMainContent: true
  }
})

Когда использовать firecrawl_scrape:

✅ Есть конкретный URL ✅ Нужен контент одной страницы ✅ Парсинг статьи, блога, документации ✅ Быстрое извлечение контента

Пример:

typescript
mcp__firecrawl__firecrawl_scrape({
  url: "https://example.com/article",
  formats: ["markdown"],
  onlyMainContent: true,
  maxAge: 172800000  // кеш на 48 часов
})

Когда использовать firecrawl_agent:

✅ Сложная задача исследования ✅ Не знаешь точно где искать ✅ Нужна агрегация из нескольких источников ✅ Автономное исследование темы

Пример:

typescript
mcp__firecrawl__firecrawl_agent({
  prompt: "Find top 5 AI startups founded in 2024 with their funding amounts",
  schema: {
    type: "object",
    properties: {
      startups: {
        type: "array",
        items: {
          type: "object",
          properties: {
            name: {type: "string"},
            funding: {type: "string"},
            founded: {type: "string"}
          }
        }
      }
    }
  }
})

Когда использовать firecrawl_extract:

✅ Нужны структурированные данные ✅ Есть schema для извлечения ✅ Парсинг конкретных полей со страниц ✅ Множественные URL с одинаковой структурой

Пример:

typescript
mcp__firecrawl__firecrawl_extract({
  urls: ["https://example.com/product1", "https://example.com/product2"],
  prompt: "Extract product name, price, and description",
  schema: {
    type: "object",
    properties: {
      name: {type: "string"},
      price: {type: "number"},
      description: {type: "string"}
    }
  }
})

Когда использовать Playwright:

✅ Динамический контент (React, Vue, Angular SPA) ✅ Нужны скриншоты страниц ✅ Требуется взаимодействие (клики, формы) ✅ JavaScript-heavy сайты, которые Firecrawl не может спарсить

Fallback стратегия:

  1. Первая попытка - всегда Firecrawl (быстро, надёжно)
  2. Если не сработало - Playwright navigate + evaluate
  3. Для визуального контента - screenshot

Step-by-Step Execution

Step 1: Распознать намерение

Определить тип запроса:

  • Search & Research: "найди информацию", "исследуй тему"
  • Single Page: конкретный URL с просьбой извлечь контент
  • Competitor Analysis: "анализ конкурентов", "что делает [компания]"
  • Data Collection: "собери примеры", "найди кейсы"
  • Trend Monitoring: "что говорят про", "мониторинг упоминаний"

Step 2: Выбрать инструмент

Использовать Tool Selection Matrix выше.

Fallback стратегия:

  1. Начать с firecrawl_search если нет точного URL
  2. Если search не дал результата - использовать firecrawl_agent
  3. Если есть URL - всегда использовать firecrawl_scrape
  4. Для структурированных данных - firecrawl_extract
  5. Если Firecrawl не справился - Playwright

Step 3: Выполнить запрос

Параметры для оптимизации:

  • maxAge: 172800000 (48 часов) - для ускорения повторных запросов
  • onlyMainContent: true - убрать навигацию и footer
  • formats: ["markdown"] - для большинства случаев
  • limit: 5-10 - для search, больше если нужен глубокий анализ

Step 4: Обработать результаты

Извлечь из результата:

  • Основной контент
  • Метаданные (title, date, author)
  • Ссылки на источники
  • Ключевые инсайты

Step 5: Структурировать и сохранить

Создать markdown файл по шаблону из resources/extraction-templates.md

Формат имени файла:

  • Формат: YYYY-MM-DD - [Тема исследования].md
  • Пример: 2026-02-10 - AI Agents Production Best Practices.md

Путь сохранения:

  • По умолчанию: 03_Resources/Web Research/
  • Если связано с проектом: 01_Projects/[Проект]/Research/

Определение проекта:

  • AGIents.pro - если про AI agents, no-code platforms, агенты
  • Clario - если про ИИ-аналитику продаж, B2B analytics
  • AGIency - если про кейсы автоматизации, клиентские проекты
  • Express Security Audit - если про код-ревью, безопасность, аудит
  • AISobolev блог - если материал для поста

Step 6: Подтверждение пользователю

markdown
✅ Исследование завершено!

**"[Тема исследования]"**
📁 Файл: [путь к файлу](путь к файлу)
🔗 Источников: [количество]
📊 Ключевых находок: [количество]

## Краткое резюме

[1-3 предложения о том что нашлось]

Хочешь углубиться в какой-то из источников?

Response Formatting

При поиске информации

markdown
🔍 Исследую тему "[тема]"...
⏳ Сканирую веб-источники...

[... после завершения ...]

✅ Найдено [X] релевантных источников!

## Топ-3 находки:

1. **[Источник 1]** - [краткое описание]
2. **[Источник 2]** - [краткое описание]
3. **[Источник 3]** - [краткое описание]

Сохранить полный отчёт?

При парсинге страницы

markdown
📄 Парсю страницу: [URL]
⏳ Извлекаю контент...

[... после завершения ...]

✅ Контент извлечён!

**"[Заголовок страницы]"**
📝 Объём: [X] слов
🗓️ Дата: [дата публикации если есть]

## Ключевые моменты:

- [Пункт 1]
- [Пункт 2]
- [Пункт 3]

Сохранить в vault?

При анализе конкурентов

markdown
🔬 Анализирую конкурентов для [компания/продукт]...
⏳ Собираю данные...

[... после завершения ...]

✅ Анализ готов!

## Найденные конкуренты ([X]):

### [Конкурент 1]

- **Сайт:** [URL]
- **Ключевое отличие:** [описание]
- **Ценообразование:** [если найдено]

### [Конкурент 2]

...

📊 Полный отчёт сохранён в: [путь]

Хочешь глубже изучить кого-то из конкурентов?

Edge Cases

Страница недоступна

markdown
❌ Не удалось получить доступ к странице

**URL:** [URL]
**Причина:** [описание ошибки]

Возможные проблемы:
• Страница требует авторизацию
• Сайт блокирует скрейпинг
• 404 - страница не найдена
• Timeout - сайт слишком медленный

Что делать:

1. Проверь URL в браузере
2. Попробуй другой источник
3. Используй firecrawl_agent для автоматического поиска альтернатив

Слишком много результатов

markdown
⚠️ Найдено очень много результатов ([X])

Это может занять много времени и места.

Рекомендую:

1. Уточнить запрос (добавить фильтры)
2. Ограничить количество источников
3. Использовать firecrawl_agent для автоматической фильтрации

Продолжить с текущими параметрами или уточнить?

Нет результатов

markdown
🤷 Не найдено релевантных результатов

**Запрос:** [запрос]

Попробуй:

1. Изменить формулировку запроса
2. Использовать более общие термины
3. Проверить правописание
4. Попробовать поиск на английском

Хочешь попробовать другой запрос?

Firecrawl не справился - используем Playwright

markdown
⚠️ Firecrawl не смог полностью загрузить страницу (динамический контент)

Переключаюсь на Playwright для полного рендеринга...
⏳ Это может занять дольше времени

[... используем Playwright ...]

Tone & Style

  • Автоматизм: Минимум вопросов, максимум действий
  • Прозрачность: Показывать что делаешь в процессе
  • Проактивность: Предлагать следующие шаги
  • Эффективность: Выбирать оптимальный инструмент

Избегать:

  • ❌ "Какой инструмент использовать?" (выбери сам)
  • ❌ Показывать технические детали API
  • ❌ Спрашивать про формат сохранения если он очевиден

Предпочитать:

  • ✅ "🔍 Исследую..." (сразу к делу)
  • ✅ "✅ Найдено 5 источников" (конкретно)
  • ✅ "Углубиться в первый источник?" (проактивно)

Resources

Integration with other skills

  • post-writing: Использовать исследования для написания постов
  • brainstorming: Найденные данные для стратегических решений
  • daily-review: Включить проведённые исследования в обзор
  • youtube-summary: Дополнить видео-выжимки веб-исследованиями

Examples

Example 1: Поиск информации

User:

text
Найди информацию про Claude MCP protocol

Claude Response:

markdown
🔍 Исследую "Claude MCP protocol"...
⏳ Сканирую веб-источники...

✅ Найдено 8 релевантных источников!

## Топ-3 находки:

1. **Anthropic Official Docs** - Официальная документация по MCP
   <https://docs.anthropic.com/claude/mcp>

2. **Model Context Protocol GitHub** - Спецификация протокола
   <https://github.com/anthropics/mcp>

3. **Building AI Agents with MCP (blog)** - Практический гайд
   <https://example.com/blog/mcp-guide>

📊 Полный отчёт создан: [03_Resources/Web Research/2026-02-10 - Claude MCP Protocol Research.md](03_Resources/Web Research/2026-02-10 - Claude MCP Protocol Research.md)

Хочешь глубже изучить какой-то из источников?

Example 2: Парсинг страницы

User:

text
Спарси эту страницу: https://example.com/ai-agents-guide

Claude Response:

markdown
📄 Парсю страницу: <https://example.com/ai-agents-guide>
⏳ Извлекаю контент...

✅ Контент извлечён!

**"The Complete Guide to Building AI Agents"**
📝 Объём: 3,500 слов
🗓️ Дата: December 15, 2025
👤 Автор: John Smith

## Ключевые моменты:

- Архитектура multi-agent систем
- Best practices для production
- MCP protocol интеграция
- Примеры кода (Python, TypeScript)

Сохранить в vault? (предлагаю [03_Resources/Web Research/](03_Resources/Web Research/))

Example 3: Анализ конкурентов

User:

text
Проанализируй конкурентов для AGIents.pro - платформа для создания AI агентов

Claude Response:

markdown
🔬 Анализирую конкурентов для AGIents.pro (AI agents no-code platform)...
⏳ Собираю данные...

✅ Анализ готов! Найдено 5 прямых конкурентов:

### 1. Relevance AI

- **Сайт:** <https://relevanceai.com>
- **Ключевое отличие:** Фокус на enterprise + встроенная векторная БД
- **Ценообразование:** От $500/мес (Team plan)

### 2. Voiceflow

- **Сайт:** <https://voiceflow.com>
- **Ключевое отличие:** Специализация на voice/chat агентах
- **Ценообразование:** От $40/мес (Pro plan)

### 3. Flowise AI

- **Сайт:** <https://flowiseai.com>
- **Ключевое отличие:** Open-source, visual builder
- **Ценообразование:** Free (self-hosted) / От $25/мес (cloud)

[... остальные 2 конкурента ...]

📊 Полный отчёт: [01_Projects/AGIents.pro/Research/2026-02-10 - Competitor Analysis.md](01_Projects/AGIents.pro/Research/2026-02-10 - Competitor Analysis.md)

**Главный инсайт:**
Большинство конкурентов либо дорогие (enterprise), либо требуют технических знаний.
Ниша "доступный no-code для SMB" недостаточно покрыта.

Хочешь глубже изучить кого-то из конкурентов?

Example 4: Сбор кейсов

User:

text
Собери кейсы использования AI агентов в ecommerce

Claude Response:

markdown
🔍 Исследую "AI agents ecommerce case studies"...
⏳ Собираю кейсы...

✅ Найдено 6 релевантных кейсов!

## Кейс #1: Shopify AI Support Agent

**Компания:** Shopify
**Применение:** Автоматизация customer support
**Результат:** -40% нагрузка на support, +25% CSAT
**Источник:** <https://shopify.com/blog/ai-support-case-study>

## Кейс #2: Amazon Personalization Agent

**Компания:** Amazon
**Применение:** Персонализированные рекомендации товаров
**Результат:** +35% конверсия, +60% engagement
**Источник:** <https://aws.amazon.com/blogs/ai/>

[... остальные 4 кейса ...]

📊 Полный отчёт: [03_Resources/Web Research/2026-02-10 - AI Agents Ecommerce Cases.md](03_Resources/Web Research/2026-02-10 - AI Agents Ecommerce Cases.md)

**Главный паттерн:**
Все успешные кейсы фокусируются на конкретной боли (support, персонализация, инвентарь),
а не пытаются автоматизировать всё сразу.

Хочешь создать пост на основе этих кейсов?

Notes

  • Навык НЕ активируется автоматически при любом URL - только если есть явная просьба
  • Приоритет Firecrawl search для неизвестных запросов
  • Всегда сохранять источники и даты извлечения
  • Интегрироваться с проектами из CLAUDE.md
  • Для динамических страниц использовать Playwright как fallback
  • Playwright MCP доступен через mcp__playwright__* инструменты