Spaces:

Sneha7
/

phi2-helpfulness-grpo-demo

Runtime error

Update app.py

55bd1b0 verified 2 days ago

1.59 kB

	import gradio as gr
	import matplotlib.pyplot as plt

	from policy import load_policy_model, save_checkpoint
	from reward_fn import reward_fn
	from grpo_train import grpo_step

	policy_model, gen_model, tokenizer = load_policy_model()

	reward_history = []
	global_step = 0


	def plot_rewards(history):
	fig = plt.figure()
	plt.plot(history, marker="o")
	plt.title("Reward History")
	plt.xlabel("Step")
	plt.ylabel("Reward")
	return fig


	def run_step(prompt):
	global global_step
	global_step += 1

	result = grpo_step(
	policy_model=policy_model,
	gen_model=gen_model,
	tokenizer=tokenizer,
	prompt=prompt,
	reward_fn=reward_fn,
	)

	reward_history.append(float(result["reward"]))
	reward_plot = plot_rewards(reward_history)

	if global_step % 10 == 0:
	save_checkpoint(policy_model, global_step)

	return result["text"], result["reward"], result["kl"], result["loss"], reward_plot


	with gr.Blocks() as demo:
	gr.Markdown("# 🤝 GRPO with Phi-2 — Helpfulness Reward Demo")

	prompt = gr.Textbox(
	label="Prompt",
	placeholder="Ask something the model should answer helpfully...",
	)
	run_btn = gr.Button("Run GRPO Step")

	output = gr.Textbox(label="Model Output")
	reward_box = gr.Number(label="Reward")
	kl_box = gr.Number(label="KL")
	loss_box = gr.Number(label="Loss")

	plot = gr.Plot(label="Reward Over Time")

	run_btn.click(
	fn=run_step,
	inputs=[prompt],
	outputs=[output, reward_box, kl_box, loss_box, plot],
	)

	demo.launch()