status
type
date
slug
summary
tags
category
icon
password
稍微总结一下dpo的数学推理过程
 
首先是将RLHF划成了三个阶段 SFT → reward learning → RL optimize
 
先通过sft获得最基本问答/总结的能力 然后把生成的问题人工标注好坏(一好一坏就够)
假设我们有这个完美的reward model(ground truth r)
我们可以通过把这个reward代入simgoid算出 好的答案所应该的占比
当然这里我们是说理想情况 这样我们可以有这个preference distribution
 
notion image
 
但是我们需要去train 这个reward function 通过 maximize 这个 sigmoid
这里推荐看一下
20:33 左右 基本上我们可以牢记 这个P(A > B) 就是 sigmoid(A - B)
 
 
SFT + DPO 塔罗解读关于Docker network的一些补充
Loading...
ran2323
ran2323
把我吹到那末日夹缝
Latest posts
mcp 记录(1)
2025-4-20
SFT + DPO 塔罗解读
2025-4-14
Backtracking
2025-4-14
Leetcode 0001-1000 分组
2025-4-14
DPO 相关
2025-3-29
今日paper(3/25) - MAGPIE
2025-3-27
Announcement
 
 
 
 
暂时没有新的内容