Spaces:

Sneha7
/

phi2-helpfulness-grpo-demo

Runtime error

Sneha7 commited on 7 days ago

Commit

e4c07fc

verified ·

1 Parent(s): 2f7e6f8

Create policy.py

Files changed (1) hide show

policy.py ADDED Viewed

+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+def load_policy_model():
+    model_name = "microsoft/phi-2"
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        device_map="auto",
+        torch_dtype=torch.float32
+    )
+    # Attach simple optimizer
+    optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)
+    model.optimizer = optimizer
+    return model, tokenizer