目前生成速度最快的 ChatGPT 模型,响应速度快,但可能会牺牲一些生成文本的质量。
ChatGPT 4.0 在语言理解和生成能力方面相对于 3.5 有显著提升。可以更好地理解上下文和语境,并生成更准确、自然的回答。
基于 GPT-4 模型,但上下文窗口大幅扩展。
LLM 看似很神奇,但本质还是一个概率问题,神经网络根据输入的文本,从预训练的模型里面生成一堆候选词,选择概率高的作为输出,相关的参数,大多都是跟采样有关(也就是要如何从候选词里选择输出)。
用于控制模型输出的结果的随机性,这个值越大随机性越大。一般我们多次输入相同的 prompt 之后,模型的每次输出都不一样。
使用建议: prompt 越长,描述得越清楚,模型生成的输出质量就越好,置信度越高,这时可以适当调高 temperature 的值;反过来,如果 prompt 很短,很含糊,这时再设置一个比较高的 temperature 值,模型的输出就很不稳定了。
核采样 top_p 也是采样参数,跟 temperature 不一样的采样方式。模型在输出之前,会生成一堆 token,这些 token 根据质量高低排名,核采样模式中候选词列表是动态的,从 tokens 里按百分比选择候选词。
top_p 为选择 token 引入了随机性,让其他高分的 token 有被选择的机会,不会总是选最高分的。
注意: top_p 与随机性类似,一般来说不建议和随机性 temperature 一起更改。
Presence Penalty 参数可以看作是对生成文本中重复内容的一种惩罚。当该参数设置较高时,生成模型会尽量避免产生重复的词语、短语或句子。
通过调整 Presence Penalty 参数的值,可以实现对生成文本的原创性和多样性的控制。
主要作用:
对比说明: Presence Penalty 参数主要关注文本的独创性和重复性,而 Temperature 和 top-p 参数则更多地影响着生成文本的随机性和确定性。
一种机制,通过对文本中频繁出现的新词汇施加惩罚,以减少模型重复同一词语的可能性,值越大,越有可能降低重复字词。
参数值 | 示例输出 | 最高频词占比 |
---|---|---|
-2.0 | 当早间新闻开始播出,我发现我家电视现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在现在 | 44.79% ("现在") |
-1.0 | 他总是在清晨看新闻,在电视前看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看看 | 57.69% ("看") |
0.0 | 当清晨的阳光洒进小餐馆时,一名疲倦的邮递员出现在门口,他的手中提着一袋信件。店主热情地为他准备了一份早餐,他在享用早餐的同时开始整理邮件。 | 8.45% ("的") |
1.0 | 一个深度睡眠的女孩被一阵温暖的阳光唤醒,她看到了早晨的第一缕阳光,周围是鸟语花香,一切都充满了生机。 | 5.45% ("的") |
2.0 | 每天早上,他都会在阳台上坐着吃早餐。在柔和的夕阳照耀下,一切看起来都非常宁静。然而有一天,当他准备端起早餐的时候,一只乐观的小鸟飞过,给他带来了一天的好心情。 | 4.94% ("的") |
用于控制推理过程的强度。此参数的设置会影响模型在生成回答时的推理深度。
参数值 | 说明 | 适用场景 |
---|---|---|
low (低) | 推理强度较低,生成速度较快,适用于需要快速响应的场景,但可能牺牲一定的推理精度 | 简单对话、快速问答 |
medium (中,默认值) | 平衡推理精度与响应速度,适用于大多数场景 | 一般对话、内容生成 |
high (高) | 推理强度较高,生成更为详细和复杂的回答,但响应时间较长,且消耗更多的 Token | 复杂分析、深度推理 |
注意: 该参数仅适用于推理模型,如 OpenAI 的 o1、o1-mini、o3-mini 等。
需求 | 建议参数调整 |
---|---|
需要创意性输出 | 提高 temperature (0.7-1.0) |
需要确定性输出 | 降低 temperature (0-0.3) |
避免重复内容 | 提高 presence_penalty (1.0-2.0) |
需要快速响应 | 使用 gpt-3.5-turbo,设置 reasoning_effort=low |
需要深度分析 | 使用 gpt-4,设置 reasoning_effort=high |
处理长文档 | 使用 gpt-4-32k |