Reward Models - a adorkin Collection

adorkin 's Collections

Multilingual Text Encoders

Multilingual Text Embedding Models

Code RL Datasets

Code SFT Datasets

Llama 3(.1) 8B Finetunes

My Shared Task Papers

Reward Models

updated 21 days ago

nvidia/Llama-3.3-Nemotron-70B-Reward-Multilingual

Text Generation • 71B • Updated Jun 26, 2025 • 17 • 10
nvidia/Llama-3.3-Nemotron-70B-Reward-Principle

Text Generation • 71B • Updated Oct 30, 2025 • 256 • 6
nvidia/Qwen-3-Nemotron-32B-Reward

Text Classification • 32B • Updated Jun 26, 2025 • 864 • 19
Skywork/Skywork-Reward-V2-Llama-3.1-8B

Text Classification • 8B • Updated Jul 6, 2025 • 26k • 39
Nexusflow/Athene-RM-8B

Text Classification • 8B • Updated Nov 15, 2024 • 85 • 9
allenai/Llama-3.1-70B-Instruct-RM-RB2

Text Classification • Updated Jun 4, 2025 • 15 • 1
allenai/Llama-3.1-8B-Instruct-RM-RB2

Text Classification • Updated Jun 4, 2025 • 222 • 1
RLHFlow/ArmoRM-Llama3-8B-v0.1

Text Classification • Updated Sep 23, 2024 • 17.7k • 183
nvidia/Llama-3.3-Nemotron-70B-Select

Text Generation • 71B • Updated Mar 18, 2025 • 23 • 11
nvidia/Llama-3.3-Nemotron-70B-Edit

Text Generation • 71B • Updated Mar 18, 2025 • 14 • 3
nvidia/Llama-3.3-Nemotron-70B-Feedback

Text Generation • 71B • Updated Mar 18, 2025 • 14 • 8
allenai/Llama-3.1-Tulu-3-8B-RM

Text Classification • 8B • Updated Jan 30, 2025 • 79 • 19
Qwen/Qwen2.5-Math-RM-72B

Text Classification • Updated Oct 31, 2024 • 41.2k • 82
NCSOFT/Llama-3-OffsetBias-RM-8B

Text Classification • 8B • Updated Sep 6, 2024 • 164 • 24
NCSOFT/Llama-3-OffsetBias-8B

Text Generation • 8B • Updated Jul 23, 2024 • 31 • 14
nvidia/Qwen2.5-CascadeRL-RM-72B

Text Generation • 71B • Updated Jan 1 • 417 • 11
general-preference/GPM-Llama-3.1-8B

8B • Updated Oct 15, 2024 • 243 • 1