经 AI Skill Hub 精选评估,开源AI工作流 获评「推荐使用」。这款Agent工作流在功能完整性、社区活跃度和易用性方面表现出色,AI 评分 7.5 分,适合有一定技术背景的用户使用。
A comprehensive evaluation framework for AI agents and LLM applications。提供了一个全面的评估框架,用于评估AI代理和LLM应用。
开源AI工作流 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
A comprehensive evaluation framework for AI agents and LLM applications。提供了一个全面的评估框架,用于评估AI代理和LLM应用。
开源AI工作流 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
# 方式一:pip 安装(推荐)
pip install evals
# 方式二:虚拟环境安装(推荐生产环境)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install evals
# 方式三:从源码安装(获取最新功能)
git clone https://github.com/strands-agents/evals
cd evals
pip install -e .
# 验证安装
python -c "import evals; print('安装成功')"
# 命令行使用
evals --help
# 基本用法
evals input_file -o output_file
# Python 代码中调用
import evals
# 示例
result = evals.process("input")
print(result)
# evals 配置文件示例(config.yml) app: name: "evals" debug: false log_level: "INFO" # 运行时指定配置文件 evals --config config.yml # 或通过环境变量配置 export EVALS_API_KEY="your-key" export EVALS_OUTPUT_DIR="./output"
Documentation ◆ Samples ◆ Python SDK ◆ Typescript SDK ◆ Tools ◆ Evaluations
Strands Evaluation is a powerful framework for evaluating AI agents and LLM applications. From simple output validation to complex multi-agent interaction analysis, trajectory evaluation, and automated experiment generation, Strands Evaluation provides comprehensive tools to measure and improve your AI systems.
pip install -e ".[test]"
pip install -e ".[test,dev]" ```
pip install strands-agents-evals
python from strands import Agent from strands_evals import Case, Experiment from strands_evals.evaluators import OutputEvaluator
Ensure you have Python 3.10+ installed, then:
```bash
pip install -e .
telemetry = StrandsEvalsTelemetry().setup_in_memory_exporter()
def user_task_function(case: Case) -> dict: telemetry.memory_exporter.clear() agent = Agent( trace_attributes={"session.id": case.session_id}, callback_handler=None ) response = agent(case.input) # Map spans to session for evaluation spans = telemetry.memory_exporter.get_finished_spans() mapper = StrandsInMemorySessionMapper() session = mapper.map_to_session(spans, session_id=case.session_id) return {"output": str(response), "trajectory": session}
telemetry = StrandsEvalsTelemetry().setup_in_memory_exporter() memory_exporter = telemetry.in_memory_exporter
def task_function(case: Case) -> dict: # Create simulator to drive conversation simulator = ActorSimulator.from_case_for_user_simulator( case=case, max_turns=10 )
# Create agent to evaluate agent = Agent( trace_attributes={ "gen_ai.conversation.id": case.session_id, "session.id": case.session_id }, callback_handler=None )
# Run multi-turn conversation all_spans = [] user_message = case.input
while simulator.has_next(): memory_exporter.clear() agent_response = agent(user_message) turn_spans = list(memory_exporter.get_finished_spans()) all_spans.extend(turn_spans)
user_result = simulator.act(str(agent_response)) user_message = str(user_result.structured_output.message)
# Map to session for evaluation mapper = StrandsInMemorySessionMapper() session = mapper.map_to_session(all_spans, session_id=case.session_id)
return {"output": str(agent_response), "trajectory": session}
```bash
Evaluate specific aspects of tool usage with specialized evaluators:
```python from strands_evals.evaluators import ToolSelectionAccuracyEvaluator, ToolParameterAccuracyEvaluator
python -m venv .venv source .venv/bin/activate # On Windows use: .venv\Scripts\activate
evaluators = [ MultimodalCorrectnessEvaluator(), # Factual accuracy and completeness MultimodalFaithfulnessEvaluator(), # Grounded in media without hallucinations MultimodalInstructionFollowingEvaluator(), # Addresses query requirements MultimodalOverallQualityEvaluator(), # Visual accuracy, adherence, completeness, coherence ]
result = diagnose_session(session, confidence_threshold=ConfidenceLevel.MEDIUM)
for rc in result.root_causes: print(f"{rc.fix_type}: {rc.fix_recommendation}")
Strands Evals SDK 是一款综合评估框架,用于评估 AI 代理和 LLM 应用程序的性能。
Strands Evals SDK 支持多种评估类型,包括输出评估、轨迹分析、工具使用评估和交互评估。它还支持多模态评估、动态模拟器和 LLM 功能模拟等功能。
Strands Evals SDK 需要 Python 3.10+ 环境,安装时可以选择测试依赖或开发依赖。
Strands Evals SDK 可以通过 pip 安装,使用命令 `pip install strands-agents-evals` 即可完成安装。
Strands Evals SDK 的使用教程包括评估工具使用和参数评估,用户可以使用特殊评估器来评估工具的使用情况。
Strands Evals SDK 的配置说明包括创建和激活虚拟环境、配置评估器和设置关键参数等。
Strands Evals SDK 的 API 文档包括使用内置评估器、评估器配置和 API 接口说明等。
Strands Evals SDK 的工作流包括检测失败、根因分析等步骤,用户可以使用 diagnose_session 函数来完成这些步骤。
该项目提供了一个全面的评估框架,用于评估AI代理和LLM应用,值得关注。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
✅ Apache 2.0 — 宽松开源协议,可商用,需保留版权声明和 NOTICE 文件,含专利授权条款。
AI Skill Hub 点评:开源AI工作流 的核心功能完整,质量良好。对于自动化工程师和运维人员来说,这是一个值得纳入个人工具库的选择。建议先在非生产环境试用,再逐步推广。
| 原始名称 | evals |
| 原始描述 | 开源AI工作流:A comprehensive evaluation framework for AI agents and LLM applications.。⭐133 · Python |
| Topics | workflowagenticagentic-aiaievaluationmachine-learning |
| GitHub | https://github.com/strands-agents/evals |
| License | Apache-2.0 |
| 语言 | Python |
收录时间:2026-06-06 · 更新时间:2026-06-06 · License:Apache-2.0 · AI Skill Hub 不对第三方内容的准确性作法律背书。
选择 Agent 类型,复制安装指令后粘贴到对应客户端