# Portability: UNIVERSAL
# Last validated: 2026-05-17
# Next review: 2027-05-17

ИМЯ ОБРАБОТЧИКА
===
web_parse

ОПИСАНИЕ
===
Загружает веб-страницы и преобразует HTML в Markdown. Поддерживается
необязательная очистка (удаление навигации, шапки, подвала, в сторону).
Реализует кэширование имен файлов на основе хэша MD5.

OPERATIONS
===
url <url>
  Загрузите URL-адрес, выведите полный HTML-код в контент Markdown.
  Кэш автоматически проверяется и обновляется.

clean <url>
  Загрузить URL-адрес и проанализировать только основной контент (навигация, верхний и нижний колонтитулы, сбоку).
  удален). Ссылки не анализируются в чистом режиме.

список кэша
  Показать все кэшированные файлы. Указывает имя файла, размер (КБ), URL-адрес и
  Временная метка отключена.

кэш очищен.
  Пустой каталог кэша (запрос: все файлы .md в data/cache/web
  будут удалены).

ПРИМЕРЫ
===
bach web-parse url https://example.com
  Вывести полный контент с сайта example.com в формате Markdown.

bach web-parse clean https://example.com/article
  Только основное содержание статьи без навигации/заголовка/нижнего колонтитула в виде Markdown.

bach web-parse cache list
  Показать кэшированные страницы с указанием размеров.

bach web-parse cache clear
  Очистить весь кеш.

ФАЙЛЫ
===
data/cache/web/
  Каталог кэша. MD5-хеш URL-адреса (12 символов) + суффикс «_clean»
  если чистый режим + расширение .md.
  Пример: abc1234def56_clean.md

hub/web_parse.py
  Реализация обработчика Подкласс BaseHandler, HTTP-запрос с
  запросы, преобразование HTML в Markdown с помощью html2text или резервного регулярного выражения.

СМОТРИТЕ ТАКЖЕ
===
Зависимости: запросы (запросы на установку pip), html2text (необязательно).
Резервное преобразование с помощью регулярного выражения, если html2text не установлен.
Пользовательский агент установлен (BACH WebParse/1.0).
Таймаут: 20 секунд на запрос.
HTML-объекты декодируются (&amp;, &lt;, &gt;, &quot;, &nbsp;).
Файлы кэша содержат метакомментарии с URL-адресом, меткой времени и режимом.
