LLM基准测试 是 AI Skill Hub 本期精选AI工具之一。综合评分 8.2 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。
LLM基准测试 是一款基于 TypeScript 开发的开源工具,专注于 LLM、SQL、Benchmark 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
LLM基准测试 是一款基于 TypeScript 开发的开源工具,专注于 LLM、SQL、Benchmark 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
# 方式一:npm 全局安装 npm install -g llm-benchmark # 方式二:npx 直接运行(无需安装) npx llm-benchmark --help # 方式三:项目依赖安装 npm install llm-benchmark # 方式四:从源码运行 git clone https://github.com/tinybirdco/llm-benchmark cd llm-benchmark npm install npm start
# 命令行使用
llm-benchmark --help
# 基本用法
llm-benchmark [options] <input>
# Node.js 代码中使用
const llm_benchmark = require('llm-benchmark');
const result = await llm_benchmark.run(options);
console.log(result);
# llm-benchmark 配置说明 # 查看配置选项 llm-benchmark --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export LLM_BENCHMARK_CONFIG="/path/to/config.yml"
A tool for benchmarking various Large Language Models (LLMs) on their ability to generate correct analytical SQL queries for Tinybird.
See results: https://llm-benchmark.tinybird.live/

This benchmark evaluates how well different LLMs can generate analytical SQL queries based on natural language questions about data in Tinybird. It measures:
The benchmark includes an automated retry mechanism that feeds execution errors back to the model for correction.
cd llm-benchmark/src
npm install
curl https://tinybird.co | sh
cd llm-benchmark/src/tinybird
tb login
tb --cloud deploy
tb --cloud datasource append github_events https://storage.googleapis.com/dev-alrocar-public/github/01.parquet
.env file with required credentials:OPENROUTER_API_KEY=your_openrouter_api_key
TINYBIRD_WORKSPACE_TOKEN=your_tinybird_token
TINYBIRD_API_HOST=your_tinybird_api_host
Run the benchmark:
npm run benchmark
This will: 1. Load the configured models from benchmark-config.json 2. Run each model against a set of predefined questions 3. Execute generated SQL queries against your Tinybird workspace 4. Store results in benchmark/results.json
高质量LLM基准测试工具
该工具未明确声明开源协议,商业使用前请联系原作者确认授权范围,避免侵权风险。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
经综合评估,LLM基准测试 在AI工具赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。
| 原始名称 | llm-benchmark |
| 原始描述 | 开源AI工具:We assessed the ability of popular LLMs to generate accurate and efficient SQL f。⭐82 · TypeScript |
| Topics | LLMSQLBenchmark |
| GitHub | https://github.com/tinybirdco/llm-benchmark |
| 语言 | TypeScript |
收录时间:2026-06-16 · 更新时间:2026-06-16 · License:未公布 · AI Skill Hub 不对第三方内容的准确性作法律背书。