lyn22333
/

Policy-Qwen3-8B-R-Align-8B

Model card Files Files and versions

Downstream policy trained using GenRM-R-Align-14B via PPO.

Downloads last month: 1

Safetensors

Model size

8B params

Tensor type

BF16

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for lyn22333/Policy-Qwen3-8B-R-Align-8B

Base model

Qwen/Qwen3-8B-Base

Finetuned

Finetuned

(1614)

this model

Quantizations

Collection including lyn22333/Policy-Qwen3-8B-R-Align-8B

R-Align

R-Align model & data. • 6 items • Updated Feb 4