生成参数¶
控制模型生成回复的方式——从上下文长度到创意设置。
上下文窗口¶
最大上下文消息数设置将多少条最近消息作为上下文发送给模型。默认:20。
- 5–20 — 较短上下文,回复更快,token 消耗更少
- 20–50 — 较长上下文,适用于复杂的多轮对话
- 50–100 — 超长上下文,适用于非常长的讨论(可能达到 token 限制)
此设置对所有模型生效。实际的 token 上下文窗口取决于你的模型和消息长度。
Temperature(温度)¶
控制模型输出的随机性。范围:0.0 – 2.0。
- 0.0 – 0.3 — 更确定性、一致、事实性
- 0.5 – 0.8 — 平衡创意性(推荐默认值)
- 1.0 – 2.0 — 更随机、创意、不可预测
较高的温度意味着模型更可能选择不太可能的词。较低的温度产生更聚焦、重复性更强的输出。
何时调整
- 代码 / 事实:使用低温(0.0 – 0.3)
- 创意写作:使用高温度(0.8 – 1.2)
- 一般聊天:使用中等温度(0.5 – 0.7)
Top P(核采样)¶
控制 token 选择的多样性。范围:0.0 – 1.0。
模型仅考虑累积概率超过 top_p 的最小 token 集合。
- 0.1 — 非常聚焦,仅最可能的 token
- 0.5 — 中等多样性
- 0.9 – 1.0 — 完全多样性(推荐默认值)
通常你只需调整 temperature 或 top P 其中之一——不需要同时调整两者。
默认最大 Token 数¶
设置模型回复的最大 token 限制。设置后,模型单次回复不会超过此数量。未设置(默认)时,模型使用自身的默认最大值。
可用预设:
256 512 1024 2048
4096 8192 16384 32768
保持未设置以获得灵活性
大多数情况下保持未设置。仅当需要一致的回复长度(如简短摘要)或控制成本时设置限制。
频率惩罚(Frequency Penalty)¶
减少模型重复相同词语的倾向。范围:-2.0 – 2.0。
- 正值(0.1 – 1.0)— 抑制重复
- 零(0.0)— 无惩罚(默认)
- 负值(-1.0 – -0.1)— 鼓励重复
存在惩罚(Presence Penalty)¶
鼓励模型谈论新话题。范围:-2.0 – 2.0。
- 正值(0.1 – 1.0)— 鼓励话题多样性
- 零(0.0)— 无惩罚(默认)
- 负值 — 保持当前话题
思考 / 推理¶
为支持的模型(如 DeepSeek R1、Qwen3、Claude)启用思维链推理。
启用后,模型在生成最终回复前会先生成内部推理过程。这提高了复杂任务的准确性,但需要更长时间并消耗更多 token。
推理深度¶
- 低 — 最少推理,更快
- 中 — 平衡(默认)
- 高 — 最大推理,适用于复杂问题
并非所有模型都支持推理
推理模式需要模型支持推理 token。如果你的模型不支持,此设置无效。
可视化上下文推出¶
启用后,Agora 会直观地标示哪些消息包含在当前上下文窗口中、哪些已被推出(因上下文窗口限制而排除)。这帮助你理解:
- 模型能"看到"多少对话
- 旧消息何时退出上下文
- 是否需要增加上下文窗口
可视化显示为对话视图中的微妙标记。
参数工作原理¶
所有生成参数均为可空值——当未显式设置时,不会发送给模型,模型使用自己的默认值。每个参数都有重置选项可将值清空回"未设置"状态。
单对话覆盖¶
你可以在聊天界面通过高级设置对话框(长按发送按钮或使用 ⋮ 菜单)覆盖单个对话的生成参数。