DPO

从“模仿”到“思辨”：大模型两阶段对齐的最佳实践

March 14, 2026 3 分钟阅读

在微调大模型时，我们常手里攥着一堆数据：同一个问题，一个回答逻辑严密（Chosen），另一个回答虽然能看但略显平庸甚至有误（Rejected）。