图像转录¶
让视觉模型描述图像,使纯文本模型能够理解图像内容。
功能说明¶
当你向纯文本模型发送图像时,Agora 可以先用一个独立的视觉模型生成图像的文本描述。该描述随后被包含在发送给主模型的提示中。
这样你就可以在任何模型中使用图像,即使该模型本身不支持视觉。
设置¶
- 前往 设置 → 图像转录
- 选择一个转录模型 — 这应该是一个支持视觉的模型(如 GPT-4o、Gemini Flash、Qwen-VL)
- 在已启用模型中添加模型 — 这些是将接收图像描述的纯文本模型
- 如果一次发送多张图片,调整批次大小(每次 API 调用描述多少张图片)
本地视觉模型
你可以使用本地视觉模型(需配置 mmproj)作为转录模型。这样可以保持图像处理在设备上完成。
工作原理¶
- 你为消息附加一张图片
- Agora 检测到当前模型不支持视觉
- 图片首先发送给转录模型
- 转录模型生成文本描述
- 该描述被添加到你的消息文本前
- 合并后的文本发送给主模型
批次大小¶
控制每次 API 调用转录模型时描述多少张图片。
- 1 — 一次描述一张图片(更多 API 调用,更准确)
- 5–10 — 每次描述多张图片(更少 API 调用,可能丢失细节)
默认值取决于设备。较低的值效果更好但消耗更多。
模型选择¶
转录模型¶
这是生成图像描述的视觉模型。选择你可用的最强视觉模型。
已启用模型¶
这些是将使用图像转录的纯文本模型。只有在此列表中的模型才会接收转录后的图像描述。其他模型将直接接收图像(如果支持)或完全不接收。