# Portability: UNIVERSAL
# Last validated: 2026-05-17
# Next review: 2027-05-17

运算符分类
--------------------
数据处理运算符的完整分类
用于观察者、工具链、注入器和自动化。

参考：学习系统分析 (user/_archive/ANALYSE_Lernsysteme_BACH_vs_recludOS.md)


1.检测操作符（“感知”）
-----------------------------------
系统如何感知环境的变化。

1.1 轮询（定期查询）
------------------------------------
定期检查状态。
  - 比较 t0 和 t1 时的目录内容
  - 每 5 分钟轮询一次 API
  - 用于系统指标的 Cron 作业
BACH：TimeInjector、守护进程检查、会话启动扫描

1.2 事件驱动（基于推送）
-------------------------------
对外部事件的反应。
  - 文件系统事件（inotify）
  - Webhooks（GitHub、Stripe）
  - 消息队列（Kafka、RabbitMQ）
巴赫：尚未实施。第一步是工具链事件。

1.3 快照比较
--------------------
比较两个状态并提取偏差。
  - 比较文件哈希值
  - 数据库快照与实时数据
  - 检测配置漂移
BACH：RAG tools/rag/ingest.py（MD5 更改检测）、DirScan


2。分析运算符
---------------------
系统如何理解和分类数据。

2.1 比较
---------------
比较两个或多个值。
  - 哈希比较
  - 字段 A == 字段 B
  - 时间戳 t0 < t1

2.2 测量
----------
确定定量特性。
  - 文件大小
  - 延迟
  - CPU使用率
  - 新数据集的数量

2.3 过滤
-----------
使用规则减少数据。
  - 仅文件 > 10 MB
  - 仅限主题为“发票”的电子邮件
  - 仅 API 响应状态为 200

2.4 分类
------------------
将数据分类。
  - 垃圾邮件与非垃圾邮件
  - 识别文档类型（发票、合同、提醒）
  - 日志级别（信息、警告、错误）
BACH：OCR 分类（Office Lens），技能类型

2.5 分组
--------------
按特征汇总数据。
  - 按服务对日志进行分组
  - 按月对发票进行分组
  - 按文件类型对文件进行分组

2.6 聚合
---------------
组合或压缩组。
  - 所有发票金额的总计
  - 平均CPU负载
  - 每个文件夹的文件数

2.7 关联
---------------
检测数据点之间的关系。
  - 将日志事件与请求 ID 链接
  - 传感器值+时间戳+位置
  - 错误+之前的系统负载
BACH：关联内存（memory_associations）

2.8 验证
--------------
检查数据是否满足规则。
  - JSON 模式验证
  - IBAN检查
  - 必填字段可用吗？

2.9 规范化
-----------------
将数据转换为统一格式。
  - 统一日期格式
  - 匹配大/小写
  - 货币兑换


3。转换运算符
-----------------------------
系统如何转换数据。

3.1 提取
---------------
从原始数据中提取信息。
  - PDF 中的 OCR
  - 文本的正则表达式
  - API 响应中的 JSON 字段
BACH：OCR 管道、RAG 分块

3.2 转换
------------------
将数据转换为不同的形式。
  - CSV -> JSON
  - 文本 -> 标记
  - 图像 -> 缩略图

3.3 丰富
----------------------------
用附加信息补充数据。
  - 地理查找（IP -> 国家/地区）
  - 从 CRM 添加客户数据
  - 添加基于AI的分类
BACH：RAG 搜索（语义丰富）

3.4 合并/联接
---------------------------------
组合多个数据源。
  - 使用键连接表
  - 合并来自多个服务的日志
  - 匹配电子邮件 + CRM 条目


4。时间相关运算符
--------------------------

4.1 排序
----------------
创建或分析序列。
  - 按时间戳排序
  - 依次执行工作流程步骤
  - 重建事件顺序
BACH：工具链引擎（hub/chain.py），会话顺序

4.2 窗口
---------------------------
将数据划分为时间窗口。
  - 5分钟平均
  - 传感器值的滚动窗口
  - 日志分析滑动窗口


5.控制运算符
----------------------

5.1 去抖
--------------
将多个快速事件合并为一个。
  - 捆绑文件更改
  - 减少UI事件
  - 限制 API 请求

5.2 速率限制
-----------------
限制某事发生的频率。
  - 最大限度。每分钟 10 次 API 调用
  - 限制电子邮件通知
BACH：代币预算区域（来自 recludOS 的概念）

5.3 重试策略
--------------------
出现错误时的重试逻辑。
  - 指数退避
  - 固定重试间隔
  - 重试直到超时


6。内存和状态运算符
-------------------------------------

6.1 状态处理
------------------------
之前的值被保存。
  - 记住最后一个哈希值
  - 保存最新的API状态
  - 带状态的滑动窗口
BACH：内存系统（所有 5 层）、会话状态

6.2 无状态处理
-------------------------
每个处理都是独立的。
  - 计算文件的哈希值
  - 验证 JSON
  - 正则表达式匹配


7。元操作员（更高抽象）
-----------------------------------------

7.1 编排
-----------------
将多个操作员连接到工作流程中。
  - n8n管道
  - 气流 DAG
  - Kubernetes CronJobs + Workers
BACH：工具链引擎（hub/chain.py）、工作流程（skills/workflows/）、开发周期

7.2优化
--------------
让数据处理更加高效。
  - 缓存
  - 并行化
  - 索引

7.3 可观察性
-------------------------------
记录和解释系统状态。
  - 日志记录
  - 指标
  -追踪
BACH：会话日志记录、任务统计、守护进程状态


8。运算符模式（组合）
-------------------------------------
用于重复任务的典型运算符组合。

8.1 评分和排名模式 (#9)
-----------------------------------
目的：评估和排序元素。
运算符：测量、评估、聚合、排序。
  - 按相关性对电子邮件进行排序
  - 根据“概率计算”对文档进行排名

8.2 分类管道模式（#10）
------------------------------------------
目的：将数据划分为类别。
运算符：提取、标准化、分类、验证。
  - 文件类型（发票/合同/提醒）
  - 票证优先级（低/中/高）

8.3 基于规则的过滤模式（#11）
---------------------------------------
目的：根据固定规则排除。
运算符：过滤、验证、排除。
  - 列入黑名单的发件人
  - 丢弃没有附件的文件

8.4 阈值警报模式 (#12)
----------------------------------
目的：超出限制值时发出警报。
操作员：测量、比较、评估、事件触发。
  - CPU > 80%
  - 5 分钟内超过 10 个错误

8.5 异常检测光模式 (#13)
------------------------------------------
目的：检测异常值（简单）。
运算符：测量、聚合、比较、加窗。
  - 值 > 平均值 + 因子
  - 文件计数突然跳跃

8.6 重复数据删除模式 (#14)
--------------------------------
目的：检测并删除重复项。
运算符：比较、分组、聚合、过滤。
  - 重复发票
  - 重复的电子邮件/ ID

8.7 规范化模式 (#15)
-----------------------------------
目的：将数据转换为规范形式。
运算符：规范化、转换、验证。
  - 标准化名称、地址、日期格式

8.8 黄金记录模式 (#16)
--------------------------------
目的：确定数据记录的“最佳”版本。
运算符：合并、评估、聚合、验证。
  - 来自多个系统的客户数据
  - 主数据维护

8.9 多阶段验证模式(#17)
-----------------------------------------
目的：分阶段验证。
运算符：验证、分类、过滤。
  - 语法 -> 语义 -> 业务规则
  - “软”与“硬”不正确的数据集

8.10 后备解决模式 (#18)
---------------------------------------
目的：发生错误时的替代路径。
操作员：测试、重试、回退、评估。
  - 主要 API 关闭 -> 辅助 API
  - AI 分类不确定 -> 规则

8.11 A/B 测试模式 (#19)
-------------------------------
目的：相互测试两种策略。
运算符：测试、比较、评估、聚合。
  - 两种分类模型
  - 两组邮件路由规则

8.12 多标准决策模式 (#20)
-------------------------------------------
目的：基于多个标准的决策。
运算符：测量、评估、聚合、排名。
  - 成本中心的“最佳”分配
  - 工单优先级

8.13 按类别路由模式 (#21)
---------------------------------------
目的：按类别路由。
运算符：分类、过滤、路由。
  - 发票 -> 会计
  - 应用程序 -> HR

8.14 基于置信度的处理模式 (#22)
---------------------------------------------
目的：取决于安全性/分数的行为。
操作员：评估、分类、过滤。
  - 分数 > 0.9 -> 预订汽车
  - 分数 0.6-0.9 -> 手动测试

8.15 渐进细化模式 (#23)
------------------------------------------
目的：逐步细化。
运算符：分类、丰富、转换。
  - 粗类别 -> 细子类别
  - 首先是文档类型，然后是内容提取

8.16 完整性检查模式 (#24)
--------------------------------
目的：简单的合理性检查。
运算符：测试、验证、排除。
  - 金额 > 0
  - 日期不是将来的日期

8.17 跨源一致性模式 (#25)
--------------------------------------------
目的：针对另一个源测试数据。
运算符：比较、合并、验证。
  - 发票金额与 ERP
  - 客户数量与 CRM

8.18 错误分类模式 (#26)
----------------------------------------
目的：对错误类型进行分类。
运算符：分类、分组、聚合。
  - 网络错误与数据错误
  - 用户错误与系统错误

8.19 恢复策略模式 (#27)
-------------------------------------
目的：定义对错误的响应。
操作员：测试、重试、回退、日志记录。
  - 队列 -> 死信队列
  - 手动后处理列表

8.20 人机交互模式 (#28)
-------------------------------------
目的：在存在不确定性时让人类参与。
运算符：评估、分类、路由。
  - 分数太低 -> 查看收件箱
  - 冲突案例 -> 发布过程


与学习过程的关系
---------------------
操作员构成了所有 3 种模式的工具集：

  (1)节能：轮询+过滤+检索规则
  (2)思考：关联+分类+场景
  (3) 巩固：聚合+归一化+分组

识别算子=感官（感知）
分析算子=处理（思考）
转型行动。   = 行动（行动）
元操作符 = 控制（中央执行）
运算符模式 = 组合解决方案模式


相关帮助文件
----------------------
  --帮助策略 分类、评估、排除、测试
  --帮助思考策略 认知策略（组块、模式识别等）
  --help rhetoric 修辞运算符和模式
