add comments

WendyH1108 · WendyH1108 · commit eddd12e3aa20 · 2024-04-18T23:51:06.000-05:00
diff --git a/models/modeling_llama.py b/models/modeling_llama.py
@@ -318,7 +318,7 @@ def __init__(self, config: LlamaConfig, layer_idx: Optional[int] = None):
         self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.attention_bias)
         self.o_proj = nn.Linear(self.num_heads * self.head_dim, self.hidden_size, bias=config.attention_bias)
         self._init_rope()
-        self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # [YL] add kv_cluster
+        self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # [SnapKV] add kv_cluster
 
     def _init_rope(self):
         if self.config.rope_scaling is None:
@@ -402,7 +402,7 @@ def forward(
                     "with a layer index."
                 )
             # kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
-            if hasattr(self, "kv_seq_len"): #[YL] add kv_seq_len
+            if hasattr(self, "kv_seq_len"): #[SnapKV] add kv_seq_len
                 # print('self.kv_seq_len', self.kv_seq_len)
                 if self.kv_seq_len != 0:
                     kv_seq_len += self.kv_seq_len
@@ -414,7 +414,7 @@ def forward(
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
 
-        # [YL] move to ahead
+        # [SnapKV] move to ahead
         key_states = repeat_kv(key_states, self.num_key_value_groups)
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
@@ -425,7 +425,7 @@ def forward(
         # key_states = repeat_kv(key_states, self.num_key_value_groups)
         # value_states = repeat_kv(value_states, self.num_key_value_groups)
 
-        kv_seq_len = key_states.shape[-2] # [YL] adjust kv_seq_len
+        kv_seq_len = key_states.shape[-2] # [SnapKV] adjust kv_seq_len
 
         attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
 
@@ -436,7 +436,7 @@ def forward(
             )
 
         if attention_mask is not None:
-            attention_mask = attention_mask[...,-kv_seq_len:] # [YL]
+            attention_mask = attention_mask[...,-kv_seq_len:] # [SnapKV]
             if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
                 raise ValueError(
                     f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
@@ -530,7 +530,7 @@ def forward(
                     "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
                     "with a layer index."
                 )
-            if hasattr(self, "kv_seq_len"): #[YL] add kv_seq_len
+            if hasattr(self, "kv_seq_len"): #[SnapKV] add kv_seq_len
                 # print('self.kv_seq_len', self.kv_seq_len)
                 if self.kv_seq_len != 0:
                     kv_seq_len += self.kv_seq_len
@@ -541,14 +541,14 @@ def forward(
 
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
-        # [YL] move to ahead
+        # [SnapKV] move to ahead
         key_states = repeat_kv(key_states, self.num_key_value_groups)
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
         if past_key_value is not None:
             cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
             # key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
-            if key_states.shape[-2] == kv_seq_len: # [YL] add kv_cluster
+            if key_states.shape[-2] == kv_seq_len: # [SnapKV] add kv_cluster
                 self.kv_seq_len = kv_seq_len
                 key_states_compress, value_states_compress = self.kv_cluster.update_kv(key_states, query_states, value_states, attention_mask, self.num_key_value_groups)
                 past_key_value.update(key_states_compress, value_states_compress, self.layer_idx, cache_kwargs)
@@ -1273,7 +1273,7 @@ def forward(
     def prepare_inputs_for_generation(
         self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
     ):
-        if past_key_values is None: # [YL]
+        if past_key_values is None: # [SnapKV]
             for layer in self.model.layers:
                 layer.self_attn.kv_seq_len = 0
         if past_key_values is not None:
diff --git a/models/modeling_mistral.py b/models/modeling_mistral.py
@@ -22,6 +22,7 @@
 PyTorch Mistral baseline model.
 https://github.com/huggingface/transformers/blob/v4.36-release/src/transformers/models/mistral/modeling_mistral.py
 Please write change log here:
+[SnapKV] save attention weights
 """
 
 import inspect
@@ -49,7 +50,7 @@
     replace_return_docstrings,
 )
 from transformers.models.mistral.configuration_mistral import MistralConfig
-from snapkv_utils import KVCluster
+from utils_yl_ratio_avgpool_v2 import KVCluster # [SnapKV]
 
 
 if is_flash_attn_2_available():
@@ -239,7 +240,7 @@ def __init__(self, config: MistralConfig, layer_idx: Optional[int] = None):
             max_position_embeddings=self.max_position_embeddings,
             base=self.rope_theta,
         )
-        self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # add kv_cluster
+        self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # [SnapKV] add kv_cluster
     def _shape(self, tensor: torch.Tensor, seq_len: int, bsz: int):
         return tensor.view(bsz, seq_len, self.num_heads, self.head_dim).transpose(1, 2).contiguous()
 
@@ -276,7 +277,7 @@ def forward(
                     "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
                     "with a layer index."
                 )
-            if hasattr(self, "kv_seq_len"): # add kv_seq_len
+            if hasattr(self, "kv_seq_len"): #[SnapKV] add kv_seq_len
                 # print('self.kv_seq_len', self.kv_seq_len)
                 if self.kv_seq_len != 0:
                     kv_seq_len += self.kv_seq_len
@@ -289,21 +290,21 @@ def forward(
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
 
         # repeat k/v heads if n_kv_heads < n_heads
-        # move to ahead
+        # [SnapKV] move to ahead
         key_states = repeat_kv(key_states, self.num_key_value_groups)
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
         if past_key_value is not None:
             cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
-            if key_states.shape[-2] == kv_seq_len: # add kv_cluster
+            if key_states.shape[-2] == kv_seq_len: # [SnapKV] add kv_cluster
                 self.kv_seq_len = kv_seq_len
                 key_states_compress, value_states_compress = self.kv_cluster.update_kv(key_states, query_states, value_states, attention_mask, self.num_key_value_groups)
                 past_key_value.update(key_states_compress, value_states_compress, self.layer_idx, cache_kwargs)
             else:
                 self.kv_seq_len += q_len
                 key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
 
-        kv_seq_len = key_states.shape[-2] # adjust kv_seq_len
+        kv_seq_len = key_states.shape[-2] # [SnapKV] adjust kv_seq_len
 
         attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
 
@@ -359,7 +360,7 @@ def __init__(self, *args, **kwargs):
         # flash_attn<2.1 generates top-left aligned causal mask, while what is needed here is bottom-right alignement, that was made default for flash_attn>=2.1. This attribute is used to handle this difference. Reference: https://github.com/Dao-AILab/flash-attention/releases/tag/v2.1.0.
         # Beware that with flash_attn<2.1, using q_seqlen != k_seqlen (except for the case q_seqlen == 1) produces a wrong mask (top-left).
         self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
-        # self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # add kv_cluster
+        # self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # [SnapKV] add kv_cluster
 
 
     def forward(
@@ -405,7 +406,7 @@ def forward(
                     "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
                     "with a layer index."
                 )
-            if hasattr(self, "kv_seq_len"): # add kv_seq_len
+            if hasattr(self, "kv_seq_len"): #[SnapKV] add kv_seq_len
                 # print('self.kv_seq_len', self.kv_seq_len)
                 if self.kv_seq_len != 0:
                     kv_seq_len += self.kv_seq_len
@@ -432,7 +433,7 @@ def forward(
                 " make sure to upgrade flash-attn library."
             )
         # repeat k/v heads if n_kv_heads < n_heads
-        # move to ahead
+        # [SnapKV] move to ahead
         key_states = repeat_kv(key_states, self.num_key_value_groups)
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
@@ -463,7 +464,7 @@ def forward(
                     attention_mask = torch.cat([attention_mask, torch.ones_like(attention_mask[:, -1:])], dim=-1)
 
             cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
-            if key_states.shape[-2] == kv_seq_len: # add kv_cluster
+            if key_states.shape[-2] == kv_seq_len: # [SnapKV] add kv_cluster
                 self.kv_seq_len = kv_seq_len
                 key_states_compress, value_states_compress = self.kv_cluster.update_kv(key_states, query_states, value_states, attention_mask, self.num_key_value_groups)
                 past_key_value.update(key_states_compress, value_states_compress, self.layer_idx, cache_kwargs)
@@ -502,7 +503,7 @@ def forward(
         key_states = key_states.transpose(1, 2)
         value_states = value_states.transpose(1, 2)
         # print('layer id', self.layer_idx, 'query_states', query_states.shape, 'key_states', key_states.shape, 'value_states', value_states.shape, 'kv_seq_len', kv_seq_len, 'dropout_rate', dropout_rate, 'use_sliding_windows', use_sliding_windows)
-        # change attention_mask to None
+        # [SnapKV] change attention_mask to None
         # print('layer id', self.layer_idx, 'query_states', query_states.shape, 'key_states', key_states.shape, 'value_states', value_states.shape, 'attention_mask', attention_mask.shape, 'kv_seq_len', kv_seq_len, 'dropout_rate', dropout_rate, 'use_sliding_windows', use_sliding_windows)
         attn_output = self._flash_attention_forward(
             query_states,
@@ -956,7 +957,7 @@ def forward(
                 )
 
         if self._use_flash_attention_2:
-        # if False: # attention_mask is used for compression
+        # if False: # [SnapKV] attention_mask is used for compression
             # 2d mask is passed through the layers
             attention_mask = attention_mask if (attention_mask is not None and 0 in attention_mask) else None
         else:
@@ -1161,7 +1162,7 @@ def prepare_inputs_for_generation(
                 max_cache_length = past_key_values.get_max_length()
             else:
                 # # cache_length = past_length = past_key_values[0][0].shape[2]
-                # if len(past_key_values) == 0: # for the first time, past_key_values is empty
+                # if len(past_key_values) == 0: # [SnapKV] for the first time, past_key_values is empty
                 #     print('fuck')
                 #     for layer in self.model.layers:
                 #         if hasattr(layer, "self_attn"):
diff --git a/models/modeling_mixtral.py b/models/modeling_mixtral.py
@@ -52,7 +52,7 @@
 )
 from transformers.utils.import_utils import is_torch_fx_available
 from transformers.models.mixtral.configuration_mixtral import MixtralConfig
-from snapkv_utils import KVCluster
+from utils_yl_ratio_avgpool_v2 import KVCluster # [SnapKV]
 
 if is_flash_attn_2_available():
     from flash_attn import flash_attn_func, flash_attn_varlen_func
@@ -276,7 +276,7 @@ def __init__(self, config: MixtralConfig, layer_idx: Optional[int] = None):
             max_position_embeddings=self.max_position_embeddings,
             base=self.rope_theta,
         )
-        self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # add kv_cluster
+        self.kv_cluster = KVCluster(window_size = 100, max_capacity_prompt = 500) # [SnapKV] add kv_cluster
 
     def _shape(self, tensor: torch.Tensor, seq_len: int, bsz: int):
         return tensor.view(bsz, seq_len, self.num_heads, self.head_dim).transpose(1, 2).contiguous()
@@ -314,7 +314,7 @@ def forward(
                     "with a layer index."
                 )
             # kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
-            if hasattr(self, "kv_seq_len"): # add kv_seq_len
+            if hasattr(self, "kv_seq_len"): # [SnapKV] add kv_seq_len
                 # print('self.kv_seq_len', self.kv_seq_len)
                 if self.kv_seq_len != 0:
                     kv_seq_len += self.kv_seq_len
@@ -326,12 +326,13 @@ def forward(
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
         
+        # [SnapKV] move to ahead
         key_states = repeat_kv(key_states, self.num_key_value_groups)
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
         if past_key_value is not None:
             cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
-            if key_states.shape[-2] == kv_seq_len: # add kv_cluster
+            if key_states.shape[-2] == kv_seq_len: # [SnapKV] add kv_cluster
                 self.kv_seq_len = kv_seq_len
                 key_states_compress, value_states_compress = self.kv_cluster.update_kv(key_states, query_states, value_states, attention_mask, self.num_key_value_groups)
                 past_key_value.update(key_states_compress, value_states_compress, self.layer_idx, cache_kwargs)
@@ -343,7 +344,7 @@ def forward(
         # key_states = repeat_kv(key_states, self.num_key_value_groups)
         # value_states = repeat_kv(value_states, self.num_key_value_groups)
         
-        kv_seq_len = key_states.shape[-2] # adjust kv_seq_len
+        kv_seq_len = key_states.shape[-2] # [SnapKV] adjust kv_seq_len
         
         attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
 
@@ -354,7 +355,7 @@ def forward(
             )
 
         if attention_mask is not None:
-            attention_mask = attention_mask[...,-kv_seq_len:]
+            attention_mask = attention_mask[...,-kv_seq_len:] # [SnapKV]
             if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
                 raise ValueError(
                     f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
@@ -437,7 +438,7 @@ def forward(
                     "with a layer index."
                 )
             # kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
-            if hasattr(self, "kv_seq_len"): # add kv_seq_len
+            if hasattr(self, "kv_seq_len"): #[SnapKV] add kv_seq_len
                 # print('self.kv_seq_len', self.kv_seq_len)
                 if self.kv_seq_len != 0:
                     kv_seq_len += self.kv_seq_len
@@ -465,6 +466,7 @@ def forward(
                 " make sure to upgrade flash-attn library."
             )
 
+        # [SnapKV] move to ahead
         key_states = repeat_kv(key_states, self.num_key_value_groups)
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
@@ -497,7 +499,7 @@ def forward(
 
             cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
             # key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
-            if key_states.shape[-2] == kv_seq_len: # add kv_cluster
+            if key_states.shape[-2] == kv_seq_len: # [SnapKV] add kv_cluster
                 self.kv_seq_len = kv_seq_len
                 key_states_compress, value_states_compress = self.kv_cluster.update_kv(key_states, query_states, value_states, attention_mask, self.num_key_value_groups)
                 past_key_value.update(key_states_compress, value_states_compress, self.layer_idx, cache_kwargs)
@@ -1413,7 +1415,7 @@ def forward(
     def prepare_inputs_for_generation(
         self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
     ):
-        if past_key_values is None:
+        if past_key_values is None: # [SnapKV]
             for layer in self.model.layers:
                 layer.self_attn.kv_seq_len = 0
         # Omit tokens covered by past_key_values
diff --git a/models/modeling_qwen2.py b/models/modeling_qwen2.py