从“模仿”到“思辨”:大模型两阶段对齐的最佳实践 March 14, 2026 3 分钟阅读 在微调大模型时,我们常手里攥着一堆数据:同一个问题,一个回答逻辑严密(Chosen),另一个回答虽然能看但略显平庸甚至有误(Rejected)。