Update main.py

EmilyWebber · web-flow · commit c3a13fc1ac02 · 2023-06-21T17:39:16.000-07:00
diff --git a/9_rlhf/wip/container/main.py b/9_rlhf/wip/container/main.py
@@ -21,7 +21,225 @@
 from torch.utils.data import DataLoader, Dataset
 from torch.optim.lr_scheduler import CosineAnnealingLR
 
-from utils import PromptPipeline, PPORLElement, PPORLBatch, PPORolloutStorage, Actor, Agent
+
+#####################
+## PyTorch Objects ## 
+#####################
+
+class PromptPipeline():
+    def __init__(self, prompts: List[str], max_prompt_length: int, tokenizer):
+        super().__init__()
+
+        prompts = tokenizer(prompts).input_ids
+
+        self.tokenizer = tokenizer
+        self.prompts = [prompt[-max_prompt_length:] for prompt in prompts]
+        self.prompts = [{"input_ids": prompt, "attention_mask": [1] * len(prompt)} for prompt in self.prompts]
+
+    def __getitem__(self, ix: int):
+        return self.prompts[ix]
+
+    def __len__(self) -> int:
+        return len(self.prompts)
+
+    def create_loader(self, batch_size: int, shuffle=False) -> DataLoader:
+        collate_fn = DataCollatorWithPadding(self.tokenizer)
+        return DataLoader(self, batch_size=batch_size, collate_fn=collate_fn, shuffle=shuffle)
+
+@dataclass
+class PPORLElement:
+    query_tensor: TensorType["query_size"]
+    response_tensor: TensorType["response_size"]
+    logprobs: TensorType["response_size", "vocab_size"]
+    values: TensorType["response_size"]
+    rewards: TensorType["response_size"]
+
+
+@dataclass
+class PPORLBatch:
+    query_tensors: TensorType["batch_size", "query_size"]
+    response_tensors: TensorType["batch_size", "response_size"]
+    logprobs: TensorType["batch_size", "response_size", "vocab_size"]
+    values: TensorType["batch_size", "response_size"]
+    rewards: TensorType["batch_size", "response_size"]
+
+
+class PPORolloutStorage():
+    def __init__(self, pad_token_id):
+        super().__init__()
+        self.pad_token_id = pad_token_id
+        self.history: Iterable[PPORLElement] = [None]
+
+    def push(self, exps: Iterable[PPORLElement]):
+        self.history += exps
+
+    def clear_history(self):
+        self.history = []
+
+    def __getitem__(self, index: int) -> PPORLElement:
+        return self.history[index]
+
+    def __len__(self) -> int:
+        return len(self.history)
+
+    def create_loader(self, batch_size: int, shuffle: bool) -> DataLoader:
+        def collate_fn(elems: Iterable[PPORLElement]):
+            return PPORLBatch(
+                pad_sequence(
+                    [elem.query_tensor.flip(0) for elem in elems],
+                    padding_value=self.pad_token_id,
+                    batch_first=True,
+                ).flip(1),
+                pad_sequence(
+                    [elem.response_tensor for elem in elems],
+                    padding_value=self.pad_token_id,
+                    batch_first=True,
+                ),
+                pad_sequence(
+                    [elem.logprobs for elem in elems],
+                    padding_value=0.0,
+                    batch_first=True,
+                ),
+                pad_sequence(
+                    [elem.values for elem in elems],
+                    padding_value=0.0,
+                    batch_first=True
+                ),
+                pad_sequence(
+                    [elem.rewards for elem in elems],
+                    padding_value=0.0,
+                    batch_first=True,
+                ),
+            )
+
+        return DataLoader(self, batch_size, shuffle=shuffle, collate_fn=collate_fn)
+
+class Actor():
+
+    def __init__(
+            self,
+            prompt_pipeline,
+            tokenizer,
+            chunk_size = 128):
+        
+        self.prompt_pipeline = prompt_pipeline
+        self.chunk_size = chunk_size
+
+        self.prompt_pipeline_loader = self.prompt_pipeline.create_loader(self.chunk_size, shuffle=True)
+        self.prompt_pipeline_iterator = iter(self.prompt_pipeline_loader)
+
+        self.ref_model = Agent(config.model.model_path)
+        self.ref_model_device = config.train.ref_model_device
+        self.ref_model = self.ref_model.to(self.ref_model_device)
+        
+        self.tokenizer = tokenizer        
+    
+
+    def make_experience(self, model, num_rollouts = 128):
+        model_device = next(model.parameters()).device
+        
+        ppo_rl_elements = []
+        while len(ppo_rl_elements) < num_rollouts:
+            try:
+                batch = next(self.prompt_pipeline_iterator)
+            except StopIteration:
+                self.pipeline_iterator = iter(self.prompt_pipeline_loader)
+                batch = next(self.prompt_pipeline_iterator)
+            
+            trajectories = generate(model, self.tokenizer, **batch.to(model_device))
+
+            query_tensors = batch.input_ids
+            response_tensors = trajectories[:, query_tensors.shape[1] :]
+
+            all_tokens, attention_mask, position_ids = get_model_inputs(
+                query_tensors.to(response_tensors.device), response_tensors, self.tokenizer.pad_token_id)
+            with torch.no_grad():
+                logits, values = model(
+                    all_tokens, 
+                    attention_mask=attention_mask, 
+                    position_ids=position_ids)
+                ref_logits, _ = self.ref_model(
+                    all_tokens.to(self.ref_model_device),
+                    attention_mask=attention_mask.to(self.ref_model_device),
+                    position_ids=position_ids.to(self.ref_model_device))
+            
+            all_tokens = all_tokens.cpu()
+            logits = logits.cpu()
+            ref_logits = ref_logits.cpu()
+
+            logprobs = logprobs_from_logits(logits[:, :-1, :], all_tokens[:, 1:])
+            ref_logprobs = logprobs_from_logits(ref_logits[:, :-1, :], all_tokens[:, 1:])
+            
+            n = trajectories.shape[0]
+            values = values.cpu()[:, :-1]
+            query_tensors = query_tensors.cpu()
+            response_tensors = response_tensors.cpu()
+            
+            start = query_tensors.shape[1] - 1
+            ends = start + attention_mask[:, start:].sum(1)
+            all_values = [values[i, start : ends[i]] for i in range(n)]
+            all_logprobs = [logprobs[i, start : ends[i]] for i in range(n)]
+            
+            texts = self.tokenizer.batch_decode(trajectories, skip_special_tokens=True)
+            scores = torch.tensor(reward_fn(texts), device='cpu', dtype=torch.float)
+
+            rewards = -config.method.kl_coef * (logprobs - ref_logprobs)
+            all_rewards = [None] * n
+            for i in range(n):
+                rs = rewards[i][start : ends[i]]
+                rs[-1] = scores[i]
+                all_rewards[i] = rs
+            
+            new_ppo_rl_elements = [
+                PPORLElement(
+                    query_tensor=query_tensors[i],
+                    response_tensor=response_tensors[i],
+                    logprobs=all_logprobs[i],
+                    values=all_values[i],
+                    rewards=all_rewards[i],
+                )
+                for i in range(n)
+            ]
+
+            ppo_rl_elements += new_ppo_rl_elements
+
+        return ppo_rl_elements, scores.mean().item()
+
+class Agent(nn.Module):
+    def __init__(self, model_path, num_layers_unfrozen=0):
+        super().__init__()
+
+        self.base_model = transformers.AutoModelForCausalLM.from_pretrained(model_path, cache_dir="./models")
+
+        self.logit_head = self.base_model.get_output_embeddings()
+        
+        n_embd = self.base_model.lm_head.in_features
+        self.value_head = nn.Sequential(
+            nn.Linear(n_embd, n_embd*2),
+            nn.ReLU(),
+            nn.Linear(n_embd*2, 1))
+        
+        freeze_bottom_causal_layers(self.base_model, num_layers_unfrozen)
+        
+    
+    def generate(self, input_ids, **x):
+        return self.base_model.generate(input_ids, **x)
+
+    def forward(self, input_ids, attention_mask, position_ids):
+
+        transformer_outputs = self.base_model.transformer(input_ids=input_ids,
+                                                          attention_mask=attention_mask,
+                                                          position_ids=position_ids)
+    
+        last_hidden_state = transformer_outputs.last_hidden_state
+        lm_logits = self.logit_head(last_hidden_state)
+        value = self.value_head(last_hidden_state).squeeze(-1)
+        
+        return lm_logits, value
+
+#####################
+## Util Functions  ## 
+#####################
 
 def generate(model, tokenizer, input_ids, attention_mask=None, **kwargs):
     
@@ -63,20 +281,79 @@ def freeze_bottom_causal_layers(model: nn.Module, num_layers_unfrozen: int = 0):
     for layer in hidden_layers_to_freeze:
         layer.requires_grad_(False)
 
-sentiment_fn = pipeline(
-    model = "lvwerra/distilbert-imdb",
-    top_k=2,
-    batch_size=config.method.num_rollouts,
-    device=config.train.reward_model_device,
-)
-
 def get_positive_score(scores):
     return dict(map(lambda x: tuple(x.values()), scores))["POSITIVE"]
 
 def reward_fn(samples: List[str]) -> List[float]:
     sentiments = list(map(get_positive_score, sentiment_fn(samples)))
     return sentiments
 
+############################
+## Model and Data Configs ## 
+############################
+
+config = {
+    'train': {
+        'seed': 2023,
+        'seq_length': 1024,
+        'epochs': 50,
+        'total_steps': 5000,
+        'batch_size': 64,
+        'eval_interval': 100,
+        'model_device':'cuda:0',
+        'ref_model_device':'cpu',
+        'reward_model_device':'cpu'},
+    'model': {
+        'model_path': 'lvwerra/gpt2-imdb', #'edbeeching/gpt-neo-1.3B-imdb',
+        'tokenizer_path': 'lvwerra/gpt2-imdb', #'edbeeching/gpt-neo-1.3B-imdb',
+        'num_layers_unfrozen': 1},
+    'optimizer': {
+        'name': 'adamw',
+        'kwargs': {'lr': 0.0001,
+        'betas': [0.9, 0.95],
+        'eps': 1e-08,
+        'weight_decay': 1e-06}},
+    'scheduler': {
+        'name': 'cosine_annealing',
+        'kwargs': {
+            'T_max': 10000, 'eta_min': 0.0001}},
+    'method': {
+        'use_whitening': True,
+        'prompt_size': 10,
+        'num_rollouts': 128,
+        'chunk_size': 128,
+        'ppo_epochs': 4,
+        'kl_coef': 0.05,
+        'horizon': 10000,
+        'gamma': 1,
+        'lam': 0.95,
+        'cliprange': 0.2,
+        'cliprange_value': 0.2,
+        'vf_coef': 1,
+        'scale_reward': False,
+        'ref_mean': None,
+        'ref_std': None,
+        'cliprange_reward': 10,
+        'gen_kwargs': {
+            'max_new_tokens': 60,
+            'top_k': 0,
+            'top_p': 1.0,
+            'do_sample': True}}}
+
+config = DictConfig(config)
+
+random.seed(config.train.seed)
+np.random.seed(config.train.seed)
+torch.manual_seed(config.train.seed)
+torch.cuda.manual_seed(config.train.seed)
+
+sentiment_fn = pipeline(
+    model = "lvwerra/distilbert-imdb",
+    top_k=2,
+    batch_size=config.method.num_rollouts,
+    device=config.train.reward_model_device,
+)
+
 imdb = load_dataset("imdb", split="train+test")
 
 prompts = [" ".join(review.split()[:config.method.prompt_size]) for review in imdb["text"]]
@@ -108,6 +385,11 @@ def reward_fn(samples: List[str]) -> List[float]:
 
 reward_fn(generated_text)
 
+
+###############
+## Main loop ## 
+###############
+
 prompt_pipeline = PromptPipeline(prompts, config.train.seq_length, tokenizer)
 
 actor = Actor(prompt_pipeline, tokenizer, chunk_size=config.method.chunk_size)
@@ -141,6 +423,11 @@ def reward_fn(samples: List[str]) -> List[float]:
     
     tbar.set_description(f"| score: {score:.3f} |")
 
+
+################
+## Eval steps ## 
+################
+
 input_ids = tokenizer.batch_encode_plus(
     ["my feeling about the movie", "this is", "I can tell with certainty"],
     return_tensors='pt',
@@ -164,3 +451,4 @@ def reward_fn(samples: List[str]) -> List[float]:
 print(generated_text[1].replace('\n', ' ') + '\n', rewards[1])
 print(generated_text[2].replace('\n', ' ') + '\n', rewards[2])
 print('all rewards mean:',np.mean(rewards))
+