AI Skill Hub 推荐使用:高性能LLM推理框架 是一款优质的AI工具。AI 综合评分 7.5 分,在同类工具中表现稳健。如果你正在寻找可靠的AI工具解决方案,这是一个值得深入了解的选择。
hxinfer是基于C++的高性能LLM推理框架,提供高效的推理能力和灵活的定制选项,适合于各种AI应用场景。
高性能LLM推理框架 是一款基于 C++ 开发的开源工具,专注于 C++、LLM、推理框架 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
hxinfer是基于C++的高性能LLM推理框架,提供高效的推理能力和灵活的定制选项,适合于各种AI应用场景。
高性能LLM推理框架 是一款基于 C++ 开发的开源工具,专注于 C++、LLM、推理框架 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
# 克隆仓库 git clone https://github.com/wuhangxian/hxinfer cd hxinfer # 查看安装说明 cat README.md # 按 README 完成环境依赖安装后即可使用
# 查看帮助 hxinfer --help # 基本运行 hxinfer [options] <input> # 详细使用说明请查阅文档 # https://github.com/wuhangxian/hxinfer
# hxinfer 配置说明 # 查看配置选项 hxinfer --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export HXINFER_CONFIG="/path/to/config.yml"
一个完全从零手写的 LLM 推理引擎,支持 LLaMA 架构模型在 CPU 和 NVIDIA GPU 上的高效推理。纯 C++/CUDA 实现,零第三方深度学习框架依赖。
| 算子 | CPU | CUDA | 说明 |
|---|---|---|---|
| MatMul | ✓ | ✓ | 矩阵乘法(CUDA 使用 cuBLAS) |
| Attention | ✓ | ✓ | 多头注意力(含 KV Cache) |
| RoPE | ✓ | ✓ | 旋转位置编码 |
| RMSNorm | ✓ | ✓ | Root Mean Square 归一化 |
| SiLU | ✓ | ✓ | Sigmoid Linear Unit 激活 |
| SwiGLU | ✓ | ✓ | SiLU 门控线性单元 |
| Softmax | ✓ | ✓ | 带 safe-softmax(减最大值防溢出) |
| Embedding | ✓ | ✓ | Token 嵌入查表 |
| Add | ✓ | ✓ | 逐元素相加 |
| Mul | ✓ | ✓ | 逐元素相乘 |
| ArgMax | ✓ | ✓ | 概率最高 token 索引查找 |
```bash
demos/ 下包含 24 个渐进式演示示例,记录了从"Hello World"到完整 LLaMA 推理的实现过程:
| # | 文件 | 内容 |
|---|---|---|
| 01 | cuda_hello_world.cu | CUDA 入门 |
| 02 | allocator.cpp / allocator_test.cu | 内存分配器(CPU/CUDA) |
| 03 | buffer.cpp | Buffer 缓冲区抽象 |
| 04 | tensor.cpp | Tensor 张量系统 |
| 05 | naive_layer.cpp / relulayer_retry1.cpp | 层抽象 & ReLU 层 |
| 06 | linear.cpp / linearlayer-retry1/2.cpp | 线性层 |
| 07 | embedding.cpp / embedding_retry1.cpp | Embedding 层 |
| 08 | softmax_task.cpp | Softmax 算子 |
| 09 | rmsnorm_task.cpp / rmsnorm_retry1.cpp | RMSNorm 算子 |
| 10 | silu_task.cpp | SiLU 激活算子 |
| 11 | mul_task.cpp | 逐元素乘法 |
| 12 | rope_task.cpp | RoPE 位置编码 |
| 13 | matmul_task.cpp | 矩阵乘法 |
| 14 | add_task.cpp | 逐元素加法 |
| 15 | argmax_task.cpp | ArgMax 算子 |
| 16 | swiglu_block.cpp | SwiGLU FFN 模块 |
| 17 | naive_attention_block.cpp / retry1.cpp | 注意力模块 |
| 18 | llama_inference_front.cpp | 推理前端入口 |
| 19 | llama_infer.cpp / spilt1.cpp / bin_abstract_3.cpp | LLaMA 推理主循环 |
| 20 | model_llama_infer.cpp | 完整模型推理 |
| 21 | silu_cuda_test.cu | SiLU CUDA 精度测试 |
| 22 | matmul_cuda_test.cpp | MatMul CUDA 测试 |
| 23 | addmul_cuda_test.cpp | AddMul CUDA 测试 |
| 24 | silu_benchmark.cu | SiLU 性能基准测试 |
| — | llama_infer_cpu_v1/v2.cpp | CPU 推理优化版本 |
| — | demo_gpu_llama.cpp | GPU 端到端推理 |
| — | demo_prefix_cache.cpp | Prefix Cache 演示 |
./build/hxinfer_engine ```
程序会加载 models/stories15M.bin(一个 15M 参数的微型 LLaMA 模型,用于概念验证),进行自回归文本生成,输出 200 个 token 的童话故事。
```bash
hxinfer是一个高性能的LLM推理框架,提供了灵活的定制选项和高效的推理能力,适合于各种AI应用场景。但是,框架的文档和社区支持需要进一步改善。
该工具未明确声明开源协议,商业使用前请联系原作者确认授权范围,避免侵权风险。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
总体来看,高性能LLM推理框架 是一款质量良好的AI工具,在同类工具中具备一定竞争力。AI Skill Hub 将持续追踪其更新动态,建议收藏备用,结合自身场景选择合适时机引入使用。
| 原始名称 | hxinfer |
| Topics | C++LLM推理框架 |
| GitHub | https://github.com/wuhangxian/hxinfer |
| 语言 | C++ |
收录时间:2026-05-23 · 更新时间:2026-05-23 · License:未公布 · AI Skill Hub 不对第三方内容的准确性作法律背书。