运动员的“身体自信”给AI置信度设计的三点启示_it博客站

问题出发：模型什么时候该“休战”？

Caitlin Clark 的案例很简单：背部酸痛未愈，自己感觉“身体自信度”不到 100%，于是选择不上场。WNBA 的规则要求伤病报告透明，她最后被警告。

这个场景对做 AI 产品的人来说特别眼熟——每天都在面对「模型该不该回答这个问题」的决策。

你的 AI 产品，是不是默认“所有问题都回答”？如果不是，触发拒绝的阈值怎么设？拒绝的方式是冷冰冰的“我无法回答”，还是有温度地说明原因并提供备选？

Clark 在采访里说了一句话值得细品：“如果我对自己身体没有 100% 的信心，那在赛季第 5 场比赛就冒险是不值得的。” 产品里模型的不确定回答，就和运动员带伤上场一样——短期可能有用，但长期破坏信任。

方案 A：永远上场

大多数对话式 AI 产品的默认行为：模型总是尝试回答。遇到知识边界或推理不确定性时，会编造“幻觉内容”。结果是用户得到看似合理但错误的信息，后续需要大量纠正成本。

典型例子：2023 年律师引用 ChatGPT 虚构的案例被法庭处罚。不是模型“不想答”，而是它没有拒绝机制。

方案 B：永远“休战”

一些产品为了安全，设定了非常保守的拒绝策略：只要模型置信度低于某个高阈值，就回复“我无法回答这个问题”。

结果：大量本该能正确回答的问题被拒绝，用户觉得产品“无用”——这和 Clark 的教练会说“你明明能打却选择休战”一样。

Clark 的做法给了我们一个产品启示：不是全有或全无，而是“基于当天身体状况做动态决策”。对应到 AI，就是“基于查询难度和置信度做动态回答策略”——简单问题直接答，中等风险问题带 disclaimer 或降级回答，高风险问题拒绝并推荐人工。

设模型正确回答为用户带来价值 U_correct，回答错误带来损失 L_wrong（可能是用户误信、产品信誉损失、法律风险等）。模型对当前输入给出置信度 p（0-1）。那么：

期望收益 E = p * U_correct - (1-p) * L_wrong

只有当 E > 0 时，模型才应该“上场”回答。否则就应该拒绝或降级。

这个框架需要产品经理为不同情境估计 U_correct 和 L_wrong。例如：

阈值不是固定 0.9 或 0.6，而是根据当前对话上下文和风险等级动态调整。Clark 说的是“赛季第 5 场比赛不值得冒险”——如果这是季后赛抢七呢？她可能会带伤上阵。同样，如果用户的问题是“今天天气如何”，阈值可以很低；如果是“帮我写一份法律合同”，阈值必须很高。

这是我个人的核心观点：置信度阈值应该是每个请求动态计算的，而不是全产品硬编码的。产品架构上需要给风险分级标签。

Clark 被警告的原因是报告不透明。你的 AI 产品也需要“透明地发出伤病报告”：

如果你正在开发一个基于 LLM 的产品，现在可以做的事情：

获取置信度分数 ：使用 OpenAI API 时，设置 logprobs=True 并从返回中提取平均 token 对数概率，作为粗略置信度（开源模型如 Llama 的 generate 函数会返回模型最后一层的 logits）。但 logits 校准性差，建议在评估集上做置信度校准（温度缩放或保序回归）。
实现两阶段决策：第一步让模型判断“适合回答吗”（可微调一个小二分类器，或直接用 prompt 让 LLM 自我评估），第二步根据结果决定回答方案。注意自我评估有偏差，但比没有好。
降级回答策略：如果置信度中等，用“可能……但建议您自行核实”的措辞，并在回答后附上来源链接。如果置信度低，直接拒绝并给出备选渠道。
监控用户反馈：收集用户对答案的“有用/无用”标记，结合置信度分数做仪表盘，迭代调整阈值和校准模型。

AI confidence decision tree for product managers

回到 Clark 案例给我的最大启发：产品的长期信任比单次回答率更重要。敢于说“不”的 AI 产品，用户反而更信任它。现在就可以做一个小实验：在你产品的某个场景里，把默认回答改为基于置信度的动态策略，看用户满意度变化。你会发现，少回答一些，反而赢了更多。