ИНСТРУМЕНТЫ OCR — распознавание текста с помощью Tesseract
---------------------------------------

По состоянию на: 23 января 2026 г.
Путь: docs/help/tools/ocr.txt

ОПИСАНИЕ
------------
Система OCR для распознавания текста в изображениях и PDF-файлах.
Использует Tesseract и адаптирован из DokuZentrum Pro.

Путь: Tools/ocr_engine.py

ТРЕБОВАНИЯ
---------------
  - Тессеракт установлен (tesseract-ocr)
  — Пакеты Python: pytesseract, Pillow.
  - Необязательно: PyMuPDF (fitz) для поддержки PDF

  Установка:
    pip install pytesseract Pillow PyMuPDF

USE
----------

CLI (простой):
  python ocr_engine.py <pdf_path>
  python ocr_engine.py B0006 # Краткая форма документа

Python (класс):
  из tools.ocr_engine import OCREngine, OCRResult

  двигатель = OCREngine()

  # Проверить наличие
  если engine.is_available:
      print("Тессеракт доступен!")

  # Распознать изображение
  result = engine.recounce_image("scan.png")
  печать(результат.текст)

  # Распознать PDF
  страницы = engine.recknowe_pdf("документ.pdf")
  для страницы в страницах:
      print(f"Страница {page.page_num}: {page.text}")

  # Доступные языки
  langs = engine.get_available_languages()

ОСНОВНЫЕ КЛАССЫ
------------

OCREngine:
  is_available Тессеракт доступен?
  get_available_languages() Список доступных языков
  распознавать_изображение(путь) Извлечь текст из изображения
  распознавать_pdf(путь) Текст из PDF (также PDF-файлы с изображениями)

OCRResult:
  успех успех (bool)
  текст Распознанный текст
  значение достоверности (0–100)
  язык Используемый язык
  error Текст ошибки в случае сбоя

OCRPageResult:
  page_num Номер страницы
  текст текста страницы
  уверенность
  word_count Количество слов

ЯЗЫКИ
--------
Стандарт: "deu+eng" (немецкий + английский)

Другие языки:
  engine.recouncee_image("image.png", язык="fra")
  engine.recouncee_pdf("doc.pdf", Language="deu")

Несколько языков:
  Language="deu+eng+fra"

КОРОТКАЯ ФОРМА ПРОФЕССИОНАЛА
--------------
Сканирование ваучера можно вызвать с помощью краткой формы:

  python ocr_engine.py B0006

Автоматический поиск в:
  - пользователь/налог/белеге/B0006.pdf
  - user/steuer/belege/B0006.png

ИНТЕГРАЦИЯ С НАЛОГОВЫМ АГЕНТОМ
----------------------------
Налоговый агент использует механизм OCR для:
  - Извлечь суммы счетов
  - Распознать данные квитанции
  - Создание PDF-файлов с возможностью текстового поиска

  bach steuer beleg scan B0006

ИСПРАВЛЕНИЕ ОШИБКИ
--------------

"Тессеракт не найден":
  - Установить Тессеракт
  - Включить путь в PATH
  - Или: OCREngine(tesseract_path="C:/Program Files/...")

"pytesseract не установлен":
  pip install pytesseract

"PyMuPDF недоступен":
  pip установить PyMuPDF
  (Необходимо только для поддержки PDF)

Плохое обнаружение:
  - Улучшить качество изображения (увеличить DPI)
  - Выберите правильный язык
  - Предварительная обработка изображения (контраст, коррекция масштаба)

СМОТРИТЕ ТАКЖЕ
----------
  docs/help/steuer.txt Налоговый агент с OCR
  инструменты/налоги/налоговые инструменты

  docs/MAIL_PROFILE_SYSTEM.md Сбор документов по электронной почте

ВЕРСИЯ: v1.0.0 (23 января 2026 г.)
Строки: ~323 (ocr_engine.py)
