1. maziyarpanahi/openmed:
   star: 2386  语言/技术: Python, Swift, PyTorch, Apple MLX, CoreML, Hugging Face Transformers, FastAPI, Docker, Faker, Tiktoken
   项目简介: OpenMed 是一个本地优先的医疗 AI 工具包，专为在设备端运行而设计，无需将患者数据上传至云端。它提供超过 1,000 个专业的生物医学命名实体识别（NER）模型，支持疾病、药物、基因、解剖结构等实体提取，并具备强大的 PII 去标识化能力，覆盖 12 种语言和 247 个隐私检查点。通过 Python API、REST 服务或原生 iOS/macOS 应用（基于 Apple MLX 加速），开发者可轻松集成到医疗系统中，确保 HIPAA 合规并避免厂商锁定。
   亮点: 1000+ 专业医疗 NER 模型，涵盖疾病、药物、基因、解剖等实体类型; 完全本地运行，患者数据永不离开设备，满足 HIPAA 合规要求; 支持 Apple Silicon MLX 加速，在 iPhone/iPad/Mac 上实现高性能推理; 多语言 PII 去标识化（12 种语言，247 个检查点），支持智能实体合并与格式保留伪造; 提供 Python API、REST 服务和原生 Swift 框架（OpenMedKit）三种集成方式
   详细报告: OpenMed 是一个开源、本地优先的医疗 AI 平台，旨在解决医疗数据处理中的隐私与合规难题。其核心能力包括：1）**临床文本结构化**：通过一行 Python 代码调用 `analyze_text()` 函数，即可使用如 `disease_detection_superclinical` 或 `pharma_detection_superclinical` 等模型，从非结构化临床笔记中提取疾病、药物、治疗等关键信息；2）**PII 去标识化**：内置 `extract_pii()` 和 `deidentify()` 函数，支持掩码、替换（基于 Faker 的本地化假数据生成）、哈希、日期偏移等多种去标识化方法，覆盖姓名、地址、SSN、电话、邮箱等 18 类 HIPAA Safe Harbor 标识符；3）**跨平台部署**：不仅支持 Linux/macOS/Windows 上的 CPU/CUDA 运行，还深度集成 Apple MLX 框架，在 Apple Silicon 上实现 24–33 倍于 CPU 的加速，并通过 OpenMedKit 提供原生 Swift 支持，可直接嵌入 iOS/macOS 应用；4）**多语言支持**：PII 检测支持英语、中文、法语、德语、西班牙语、葡萄牙语、荷兰语、印地语、阿拉伯语、日语、土耳其语、泰卢固语共 12 种语言，每种语言均有针对性的 PII 检查点；5）**灵活部署模式**：除 Python SDK 外，还提供基于 FastAPI 的 REST 服务（支持 Docker 部署）和批处理管道，适用于大规模文档处理场景。项目采用 Apache-2.0 许可证，无厂商锁定，所有模型均可离线加载，适合医院、研究机构等对数据隐私要求极高的环境。
   活跃度: 未知  社区健康: 文档未提及
   商业潜力: 高。医疗 AI 市场快速增长，但数据隐私法规（如 HIPAA、GDPR）严格限制云端处理。OpenMed 的本地优先架构直击痛点，可面向医院、CRO、药企、健康科技公司提供合规即服务（Compliance-as-a-Service）解决方案，商业模式清晰。
   GitHub 指标: 近30天提交 0, Open Issues 0, Forks 0
   衍生灵感: 灵感1：开发一个 **电子病历自动脱敏系统**，集成 OpenMed 的 PII 检测与去标识化功能，用于医院内部科研数据共享前的自动化隐私保护处理，确保符合 GDPR/HIPAA 要求。; 灵感2：构建一个 **移动端临床辅助决策 App**，利用 OpenMedKit 在 iPhone 上实时解析医生输入的病历文本，自动高亮疾病、药物等实体，并关联药品说明书或临床指南，提升诊疗效率。; 灵感3：创建一个 **多语言医疗舆情监控平台**，结合 OpenMed 的多语言 PII 检测能力，对全球社交媒体上的患者评论进行匿名化聚合分析，帮助药企追踪药物不良反应信号而不侵犯用户隐私。
   项目链接: https://github.com/maziyarpanahi/openmed

2. NVIDIA/SkillSpector:
   star: 2846  语言/技术: Python, AST分析, 正则表达式, LangGraph, OSV.dev API, YARA签名, LLM语义分析, OpenAI兼容API, Anthropic API, NVIDIA NIM
   项目简介: SkillSpector 是由 NVIDIA 开源的一款专门针对 AI Agent Skills（技能包）的安全扫描工具。随着 Claude Code、Codex CLI、Gemini CLI 等 AI 编程助手的流行，Skills 市场迅速扩张，但研究表明 26.1% 的 Skills 存在漏洞，5.2% 具有恶意意图。SkillSpector 通过两阶段检测流水线（快速静态分析 + 可选 LLM 语义评估），覆盖 16 大类共 64 种漏洞模式，包括提示注入、数据外泄、权限提升、供应链攻击、MCP 权限滥用等，为开发者提供安装前的安全审查，堪称 AI 插件生态的'安检门'。
   亮点: 64种漏洞模式覆盖16大安全类别，包括提示注入、数据外泄、权限提升、供应链攻击、MCP工具投毒等; 两阶段检测架构：快速静态分析（高召回率）+ LLM语义评估（精确率提升至约87%）; 实时CVE查询：通过 OSV.dev API 检查依赖项已知漏洞，支持离线回退; 多格式输入支持：Git仓库、URL、zip文件、目录、单文件均可扫描; 灵活的LLM后端：支持 OpenAI、Anthropic、NVIDIA build.nvidia.com、本地 Ollama/vLLM 等; 多种输出格式：终端、JSON、Markdown、SARIF，便于CI/CD集成
   详细报告: SkillSpector 解决的核心痛点是 AI Agent Skills 生态中的信任危机。当前 AI 编程助手（如 Claude Code、Gemini CLI）允许用户安装第三方 Skills，这些 Skills 以隐式信任方式执行，缺乏充分的代码审查。NVIDIA 的研究团队在对 42,447 个 Skills 的大规模实证研究中发现，超过四分之一存在安全漏洞，5.2% 具有明确恶意意图。

该工具的技术架构分为两个阶段：第一阶段是静态分析引擎，使用 11 个基于正则表达式的分析器快速扫描所有文件，结合 AST（抽象语法树）分析检测 exec()、eval()、subprocess 等危险调用，并通过 OSV.dev API 实时查询依赖项的已知 CVE 漏洞，还集成了 YARA 规则匹配已知恶意软件特征。这一阶段追求高召回率，但可能产生一定误报。第二阶段是可选的 LLM 语义分析，通过大语言模型理解代码上下文和意图，过滤误报并提供人类可读的解释，将精确率提升至约 87%。值得注意的是，LLM 提示词中内置了反越狱防护机制，防止恶意 Skill 反向操纵分析过程。

漏洞检测覆盖 16 个类别共 64 种模式：提示注入（5种）、数据外泄（4种）、权限提升（3种）、供应链攻击（6种）、过度代理（4种）、输出处理（3种）、系统提示泄露（3种）、记忆投毒（3种）、工具滥用（3种）、流氓代理（2种）、触发器滥用（3种）、行为AST分析（8种）、污点追踪（5种）、YARA签名匹配（4种）、MCP最小权限（4种）、MCP工具投毒（4种）。风险评分系统采用加权计分：CRITICAL +50、HIGH +25、MEDIUM +10、LOW +5，可执行脚本额外乘以 1.3 倍系数，最终输出 0-100 分值和对应的安全建议。

工具支持多种输入格式（Git仓库、URL、zip、目录、单文件）和输出格式（终端、JSON、Markdown、SARIF），既可作为独立 CLI 工具使用，也提供 Python API 供集成到其他系统中。LLM 后端支持 OpenAI、Anthropic、NVIDIA build.nvidia.com 以及任何 OpenAI 兼容的本地推理服务（Ollama、vLLM、llama.cpp），灵活性极高。
   活跃度: 文档未提及  社区健康: 文档未提及
   商业潜力: 文档未提及
   GitHub 指标: 近30天提交 0, Open Issues 0, Forks 0
   衍生灵感: 灵感1：基于 SkillSpector 的核心检测引擎，可以开发一个通用的 AI 插件/扩展安全审查平台，不仅限于 Skills，还可扩展到 VS Code 扩展、浏览器插件、ChatGPT GPTs 等生态，构建一个'插件安全体检中心'。; 灵感2：将 SkillSpector 集成到 CI/CD 流水线中，作为 AI 应用部署前的安全门禁，特别是在企业环境中使用 AI Agent 时，自动扫描所有引入的 Skills 并生成 SARIF 格式报告，与 GitHub Advanced Security 等工具链打通。; 灵感3：利用 SkillSpector 的漏洞模式数据库和检测规则，开发一个 IDE 插件（如 VS Code 扩展），在开发者编写或编辑 Skills 时提供实时的安全提示和修复建议，将安全左移到开发阶段。; 灵感4：基于 SkillSpector 的 LLM 语义分析能力，可以构建一个 AI 代码安全培训工具，通过扫描开源项目中的真实漏洞案例，为开发者提供交互式安全教育和代码审查练习。
   项目链接: https://github.com/NVIDIA/SkillSpector

3. soxoj/maigret:
   star: 32148  语言/技术: Python 3.10+, AsyncIO, Flask (Web UI), D3.js (Graph Visualization), OpenAI-compatible API, FlareSolverr, Tor/I2P, Docker, Selenium (implied via FlareSolverr)
   项目简介: Maigret 是一个强大的开源 OSINT（开源情报）工具，仅凭用户名就能在 3000+ 网站上搜索目标人物的所有公开账户信息，并自动提取个人资料、关联账号等数据。无需 API Key，支持递归搜索、AI 智能分析、Tor/I2P 代理、Cloudflare 绕过，还能生成 PDF/HTML/XMind 等多种格式的报告。堪称“数字时代的福尔摩斯”，适用于网络安全调查、背景核查、竞品分析等场景。
   亮点: 支持 3000+ 网站扫描，默认检查流量最高的 500 个站点，可按标签/国家过滤; 无需 API Key，开箱即用，支持命令行、Web UI、Python 库多种使用方式; 递归搜索：发现新用户名后自动继续追踪，构建完整社交图谱; AI 分析模式：集成 OpenAI 兼容 API，自动生成调查摘要（姓名、位置、职业等）; 支持 Tor/I2P 代理和 Cloudflare 绕过，具备一定反检测能力; 输出格式丰富：PDF、HTML、XMind、JSON、CSV、交互式 D3 图谱; 可嵌入 Python 项目，作为库调用，适合二次开发
   详细报告: Maigret 是一款专为 OSINT 调查设计的 Python 工具，核心功能是通过用户名在海量网站中检索目标人物的公开账户。它内置了一个庞大的站点数据库（3000+），涵盖社交媒体、论坛、博客、约会平台、照片分享等多个类别，且数据库每日自动更新。

工作流程简单高效：输入用户名 → 并发检查数百个站点 → 提取个人资料中的姓名、头像、简介、链接等信息 → 发现关联账号 → 递归搜索新发现的标识符 → 生成结构化报告。整个过程完全自动化，无需手动配置 API Key。

技术实现上，Maigret 采用异步并发架构（AsyncIO），大幅提升扫描速度。它内置了反检测机制，能识别并部分绕过网站的封锁、验证码和 Cloudflare 防护（通过 FlareSolverr）。对于需要 JavaScript 渲染的页面，可配置 FlareSolverr 实例进行浏览器级绕过。

项目提供了多种使用方式：
1. **命令行工具**：`pip install maigret` 后直接 `maigret username` 即可运行
2. **Web UI**：内置 Flask 前端，支持可视化图谱浏览和报告下载
3. **Python 库**：可导入 `maigret` 模块，集成到自定义脚本或工作流中
4. **Docker 镜像**：提供 CLI 和 Web 两种模式，支持快速部署
5. **Telegram Bot**：社区提供的免安装方案

特别值得一提的是其 AI 分析功能（`--ai`），可将原始搜索结果发送给 OpenAI 兼容 API（支持 Azure、OpenRouter、本地模型等），生成简洁的调查摘要，包括推测的真实姓名、地理位置、职业、兴趣、语言能力和后续调查线索。

Maigret 已被多个专业 OSINT 和商业产品采用，如 SocialLinks API、UserSearch.ai 等，证明其在实际场景中的实用价值。项目采用 MIT 许可证，允许商业使用，但作者也提供付费的私有数据库（5000+ 站点，每日更新）和 API 服务，适合企业级需求。

需要注意的是，该工具仅用于合法合规的调查目的，用户需自行遵守 GDPR、CCPA 等数据保护法规。
   活跃度: 文档未提及  社区健康: 文档未提及
   商业潜力: 文档明确提及商业用途：MIT 许可证允许免费商业使用，但作者提供付费的私有站点数据库（5000+ 站点，每日更新）和用户名检查 API 服务，适合企业级 OSINT 需求。
   GitHub 指标: 近30天提交 0, Open Issues 0, Forks 0
   衍生灵感: 灵感1：开发一个 '企业员工背景调查助手'，集成 Maigret 作为核心引擎，自动扫描候选人在公开平台的足迹，生成可视化背景报告，用于 HR 招聘流程中的初步筛查。; 灵感2：构建一个 '品牌舆情监控平台'，利用 Maigret 的递归搜索能力，追踪特定用户名或关键词在社交网络中的传播路径，识别水军账号和虚假信息扩散网络。; 灵感3：将其集成到 '威胁情报系统' 中，作为外部攻击面评估（EASM）模块，自动发现组织员工在公开平台泄露的敏感信息（如技术栈、内部项目名称），辅助安全团队进行风险预警。
   项目链接: https://github.com/soxoj/maigret

4. hexo-ai/sia:
   star: 1410  语言/技术: Python, Claude Agent SDK, OpenHands, Pydantic-AI, Triton (GPU kernel), Kaggle API, MLE-Bench, Anthropic API, OpenAI API, Gemini API
   项目简介: SIA 是一个开源的“自我进化 AI 框架”，它通过协调 Meta-Agent、Target Agent 和 Feedback Agent 三个角色，让 AI 系统在特定任务上实现自主迭代优化。简单来说，就是让 AI 自己改自己的代码和策略，越跑越强——在 LawBench 法律判罚预测上准确率从 45% 提升到 70.1%，在 GPU 内核优化上提速 14 倍，堪称程序员的‘AI 自驱力引擎’。
   亮点: 三代理协同架构（Meta-Agent 初始化、Target Agent 执行、Feedback Agent 改进）实现闭环自进化; 支持自定义任务接入，只需提供 task.md 和 evaluate.py 即可启动自优化循环; 内置 Web 可视化仪表盘，实时监控每代 Agent 的代码、日志、评分和改进路径; 在多个硬核基准测试中显著超越 SOTA：LawBench +56.6%、GPU 内核提速 14x、scRNA 去噪提升 502%
   详细报告: SIA（Self-Improving AI）是 hexo-ai 团队于 2026 年发布的开源框架，核心思想是让 AI 系统能像人类工程师一样‘自我迭代’。它不是静态调用大模型，而是构建了一个由三个智能体组成的闭环系统：

1. **Meta-Agent**：读取任务描述（如‘预测中国刑事案件罪名’），生成一个初始的 Target Agent（通常是 Python 脚本）；
2. **Target Agent**：实际执行任务（比如训练模型、写 Triton 内核、处理生物数据），并记录执行轨迹；
3. **Feedback Agent**：分析 Target Agent 的日志和评估结果，提出改进方案，并直接修改 Target Agent 的代码或配置。

这个过程循环进行多代（`--max_gen` 控制），每一代都比上一代更强。SIA 的评估机制非常严谨：每代输出会被自动评分（通过用户提供的 `evaluate.py`），分数反馈给下一代的 Feedback Agent，形成强化学习式的优化信号。

技术实现上，SIA 支持多种 LLM 后端（Claude、OpenAI、Gemini 等），通过 JSON Profile 灵活配置不同 Agent 使用的模型和 API Key。它还集成了 MLE-Bench，可直接将 Kaggle 竞赛转化为自优化任务。开发者只需按规范组织任务目录（含 public/private 数据、参考 Agent 模板），即可一键启动自进化流程。

文档提供了完整的 CLI 工具（`sia run` 和 `sia web`）、自定义 Profile 编写指南、评估脚本契约说明，甚至还有故障排查手册。虽然 GitHub 指标显示早期阶段（0 fork, 0 issue），但其论文成果和架构设计极具前瞻性，特别适合需要持续优化 AI 系统的研究团队或高级开发者。
   活跃度: 未知（GitHub 指标显示近期无提交或发布）  社区健康: 早期阶段，社区活跃度低（0 fork, 0 issue），但文档完整、架构清晰，具备良好扩展基础。
   商业潜力: 高潜力。可面向企业级 AI 工程团队提供‘自优化 AI 服务’，按任务复杂度收费；或作为 MLOps 工具链中的‘智能调优层’，与现有平台（如 MLflow、Kubeflow）集成。
   GitHub 指标: 近30天提交 0, Open Issues 0, Forks 0
   衍生灵感: 灵感1：开发一个‘AutoML 自进化平台’，用户上传数据集和评估指标，SIA 自动迭代出最优模型架构和超参组合，适用于金融风控、医疗诊断等场景。; 灵感2：将其集成到 CI/CD 流水线中，作为‘AI 代码优化器’——每次提交后自动运行 SIA 循环，让测试脚本、性能关键模块或数据预处理逻辑持续自我改进。; 灵感3：构建‘科研助手 Agent’，针对特定领域（如生物信息学中的 scRNA-seq 分析），用 SIA 框架自动探索最佳去噪算法组合，加速论文实验迭代。
   项目链接: https://github.com/hexo-ai/sia
