Search

Yuexiang Xie

Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization
$\beta$-DPO: Direct Preference Optimization with Dynamic $\beta$

Published with Wowchemy — the free, open source website builder that empowers creators.