跳转至

图像转录

让视觉模型描述图像,使纯文本模型能够理解图像内容。

功能说明

当你向纯文本模型发送图像时,Agora 可以先用一个独立的视觉模型生成图像的文本描述。该描述随后被包含在发送给主模型的提示中。

这样你就可以在任何模型中使用图像,即使该模型本身不支持视觉。

设置

  1. 前往 设置 → 图像转录
  2. 选择一个转录模型 — 这应该是一个支持视觉的模型(如 GPT-4o、Gemini Flash、Qwen-VL)
  3. 已启用模型中添加模型 — 这些是将接收图像描述的纯文本模型
  4. 如果一次发送多张图片,调整批次大小(每次 API 调用描述多少张图片)

本地视觉模型

你可以使用本地视觉模型(需配置 mmproj)作为转录模型。这样可以保持图像处理在设备上完成。

工作原理

  1. 你为消息附加一张图片
  2. Agora 检测到当前模型不支持视觉
  3. 图片首先发送给转录模型
  4. 转录模型生成文本描述
  5. 该描述被添加到你的消息文本前
  6. 合并后的文本发送给主模型

批次大小

控制每次 API 调用转录模型时描述多少张图片。

  • 1 — 一次描述一张图片(更多 API 调用,更准确)
  • 5–10 — 每次描述多张图片(更少 API 调用,可能丢失细节)

默认值取决于设备。较低的值效果更好但消耗更多。


模型选择

转录模型

这是生成图像描述的视觉模型。选择你可用的最强视觉模型。

已启用模型

这些是将使用图像转录的纯文本模型。只有在此列表中的模型才会接收转录后的图像描述。其他模型将直接接收图像(如果支持)或完全不接收。