高性能LLM推理 是 AI Skill Hub 本期精选AI工具之一。综合评分 8.0 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。
高性能LLM推理 是一款基于 C++ 开发的开源工具,专注于 AI、LLM、C++ 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
高性能LLM推理 是一款基于 C++ 开发的开源工具,专注于 AI、LLM、C++ 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
# 克隆仓库 git clone https://github.com/Tencent/hpc-ops cd hpc-ops # 查看安装说明 cat README.md # 按 README 完成环境依赖安装后即可使用
# 查看帮助 hpc-ops --help # 基本运行 hpc-ops [options] <input> # 详细使用说明请查阅文档 # https://github.com/Tencent/hpc-ops
# hpc-ops 配置说明 # 查看配置选项 hpc-ops --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export HPC_OPS_CONFIG="/path/to/config.yml"
HPC-Ops is a production-grade, high-performance, and easy-to-use operator library for LLM inference, developed by the Tencent Hunyuan AI Infra team.
You can set up the environment by installing the modules listed in requirements-dev.txt.
```bash git clone https://github.com/Tencent/hpc-ops.git cd hpc-ops
make wheel python3 -m pip install dist/*.whl ```
Example: GroupGEMM fp8 kernel usage
import torch
import hpc
num_tokens = 1024
num_group, n, k = 8, 4096, 4096
x = torch.randn((num_tokens, k), dtype=torch.float, device="cuda").to(torch.float8_e4m3fn)
w = torch.randn((num_group, n, k), dtype=torch.float, device="cuda").to(torch.float8_e4m3fn)
scale = torch.full((num_group,), 1.0, dtype=torch.float, device="cuda")
num_tokens_per_group = torch.full((num_group,), 8, dtype=torch.int32, device="cuda")
cu_num_tokens_per_group = torch.cumsum(torch.cat([torch.tensor([0], dtype=torch.int32, device="cuda"), num_tokens_per_group]), dim=0).to(torch.int32)
output = hpc.group_gemm_pertensor_fp8(
x, w, num_tokens_per_group, cu_num_tokens_per_group, scale,
)
For the usage of other operators, please refer to the corresponding test files in the tests/ directory.
高性能LLM推理库,支持快速部署
该工具使用 NOASSERTION 协议,商用场景请仔细阅读协议条款,必要时咨询法律意见。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
📄 NOASSERTION — 请查阅原始协议条款了解具体使用限制。
经综合评估,高性能LLM推理 在AI工具赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。
| 原始名称 | hpc-ops |
| Topics | AILLMC++ |
| GitHub | https://github.com/Tencent/hpc-ops |
| License | NOASSERTION |
| 语言 | C++ |
收录时间:2026-06-09 · 更新时间:2026-06-09 · License:NOASSERTION · AI Skill Hub 不对第三方内容的准确性作法律背书。