FasterDecoding
diff --git a/‎.DS_Store‎
6 KB b/‎.DS_Store‎
6 KB
diff --git a/‎observations/categorize_prompts.py‎
Lines changed: 55 additions & 0 deletions b/‎observations/categorize_prompts.py‎
Lines changed: 55 additions & 0 deletions
diff --git a/‎observations/collect_all_prompts.py‎
Lines changed: 52 additions & 0 deletions b/‎observations/collect_all_prompts.py‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎observations/collect_draw.py‎
Lines changed: 67 additions & 0 deletions b/‎observations/collect_draw.py‎
Lines changed: 67 additions & 0 deletions
diff --git a/‎observations/collect_features.py‎
Lines changed: 114 additions & 0 deletions b/‎observations/collect_features.py‎
Lines changed: 114 additions & 0 deletions
@@ -0,0 +1,55 @@
+import transformers
+import torch
+import json
+from fastchat.model import load_model, get_conversation_template
+import argparse
+from tqdm import tqdm
+# load jsonl dataset
+def load_jsonl(file_path):
+    data = []
+    with open(file_path, 'r') as f:
+        for line in f:
+            try:
+                data.append(json.loads(line))
+            except:
+                pass
+    return data
+
+def classify_per_data(dataset, idx, tokenizer, model_name):
+    data = dataset[idx]['data']
+    max_turns = len(data) // 2
+    conv = get_conversation_template(model_name)
+    info = {}
+    info['max_turns'] = max_turns
+    info['idx'] = idx
+    info['id'] = dataset[idx]['id']
+    info['turns'] = []
+    for i in range(max_turns):
+        conv.append_message(conv.roles[0], data[i*2])
+        # get start stamp
+        start = tokenizer.encode(conv.get_prompt(), return_tensors='pt').shape[1]
+        conv.append_message(conv.roles[1], data[i*2+1])
+        # get end stamp
+        end = tokenizer.encode(conv.get_prompt(), return_tensors='pt').shape[1]
+        info['turns'].append((start, end))
+    return info
+
+def main(args):
+    model_name = args.model_name
+    tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)
+    dataset = load_jsonl(args.dataset_path)
+    for idx in tqdm(range(len(dataset))):
+        info = classify_per_data(dataset, idx, tokenizer, model_name)
+        # save info to jsonl by line
+        with open(args.output_path, 'a') as f:
+            f.write(json.dumps(info) + '\n')
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Categorize prompts in a dataset")
+    # add arguments
+    parser.add_argument('--dataset_path', type=str, help='path to the dataset')
+    parser.add_argument('--output_path', type=str, help='path to the output')
+    parser.add_argument('--model_name', type=str, help='model name')
+    # get args
+    args = parser.parse_args()
+    main(args)
@@ -0,0 +1,52 @@
+import json
+import argparse
+# load jsonl dataset
+def load_jsonl(file_path):
+    data = []
+    with open(file_path, 'r') as f:
+        for line in f:
+            try:
+                data.append(json.loads(line))
+            except:
+                pass
+    return data
+
+def collect_prompt(dataset_id, data_info, prev_range = [2000, 2500], min_length = 64 * 8):
+    prompt_list = []
+    for info in data_info:
+        for i, turn in enumerate(info['turns']):
+            start, end = turn
+            if start > prev_range[0] and start < prev_range[1] and end - start > min_length:
+                prompt_list.append({'idx': info['idx'], 'turn': i, 'start': start, 'end': end, 'dataset_id':dataset_id})
+    return prompt_list
+
+# main
+def main(args):
+    data_info_path = args.data_info_path
+    dataset_id_begin = args.dataset_id_begin
+    dataset_id_end = args.dataset_id_end
+    min_length = args.min_length
+    length_start = args.length_start
+    length_end = args.length_end
+    length_step = args.length_step
+    total_step = (length_end - length_start) // length_step + 1
+    for dataset_id in range(dataset_id_begin, dataset_id_end + 1):
+        data_info = load_jsonl(data_info_path.replace('DATASET_ID', str(dataset_id)))
+        for step in range(total_step):
+            cur_start = length_start + step * length_step
+            cur_end = cur_start + length_step if step < total_step - 1 else 100000
+            prompt_list = collect_prompt(dataset_id, data_info, [cur_start, cur_end], min_length)
+            with open(f'./data/filtered_info/prompt_{dataset_id}_len_{cur_start}_{cur_end}.json', 'w') as f:
+                json.dump(prompt_list, f, indent=2)
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--data_info_path', type=str, default='./data/ultrachat_DATASET_ID_categorized.jsonl')
+    parser.add_argument('--dataset_id_begin', type=int, default=0)
+    parser.add_argument('--dataset_id_end', type=int, default=9)
+    parser.add_argument('--min_length', type=int, default=64 * 8)
+    parser.add_argument('--length_start', type=int, default=1000)
+    parser.add_argument('--length_end', type=int, default=3000)
+    parser.add_argument('--length_step', type=int, default=500)
+    args = parser.parse_args()
+    main(args)
@@ -0,0 +1,67 @@
+import matplotlib.pyplot as plt
+import numpy as np
+import json
+import matplotlib.lines as mlines
+
+def draw_ablation(features, steps, avg_prompt_len, avg_turn, avg_context_len, total_num, save_path):
+    plt.figure(figsize=(10, 5))
+    for i in range(steps):
+        plt.plot(features[:, i], label=f'window {i}')
+
+    plt.ylim(0, 1.1)
+    plt.grid()
+
+    custom_entries = [
+        mlines.Line2D([], [], color='none', marker='None', linestyle='None', label=f'Avg Prompt Len: {avg_prompt_len}'),
+        mlines.Line2D([], [], color='none', marker='None', linestyle='None', label=f'Avg Turn: {avg_turn}'),
+        mlines.Line2D([], [], color='none', marker='None', linestyle='None', label=f'Avg Context Len: {avg_context_len}'),
+        mlines.Line2D([], [], color='none', marker='None', linestyle='None', label=f'Total Num: {total_num}')
+    ]
+
+    handles, labels = plt.gca().get_legend_handles_labels()
+
+    # Combine existing handles (if any) with custom ones
+    handles.extend(custom_entries)
+
+    # Create the legend with the combined handles
+    # plt.legend(handles=handles, loc='upper left', bbox_to_anchor=(1, 1), fontsize='small')
+    plt.legend(handles=handles)
+    plt.title('Hit rates for different windows')
+    plt.xlabel('Layer')
+    plt.ylabel('Hit rate (%)')
+    plt.tight_layout()  # Adjust layout to make room for the legend
+
+    plt.savefig(save_path)
+
+def main():
+    feature_paths = [
+        './data/features_finegrained/features_1000_1500_step_128.jsonl',
+        './data/features_finegrained/features_1500_2000_step_128.jsonl',
+        './data/features_finegrained/features_2000_2500_step_128.jsonl',
+        './data/features_finegrained/features_2500_3000_step_128.jsonl',
+        './data/features_finegrained/features_3000_100000_step_128.jsonl',
+    ]
+
+    data_paths = [
+        './data/random_prompts/random_prompt_1000_1500_summary.json',
+        './data/random_prompts/random_prompt_1500_2000_summary.json',
+        './data/random_prompts/random_prompt_2000_2500_summary.json',
+        './data/random_prompts/random_prompt_2500_3000_summary.json',
+        './data/random_prompts/random_prompt_3000_100000_summary.json',
+    ]
+
+    layers = 32
+    steps = 4
+
+    for i in range(len(feature_paths)):
+        with open(feature_paths[i], 'r') as f:
+            features = np.array([json.loads(line) for line in f])
+            features = np.array(features).reshape(-1, layers, steps).mean(axis=0)
+        print(features.shape)
+        with open(data_paths[i], 'r') as f:
+            data = json.load(f)
+
+        draw_ablation(features, steps, data['avg_prompt_len'], data['avg_turn'], data['avg_context_len'], data['total_num'], f'./data/figures/ablation_finegrained_{i}.png')
+
+if __name__ == '__main__':
+    main()
@@ -0,0 +1,114 @@
+import json
+from fastchat.model import load_model, get_conversation_template
+from models.modeling_mistral_benchmark import MistralForCausalLM as MyMistralForCausalLM
+import torch
+import transformers
+from tqdm import tqdm
+import numpy as np
+import argparse
+
+def load_jsonl(file_path):
+    data = []
+    with open(file_path, 'r') as f:
+        for line in f:
+            try:
+                data.append(json.loads(line))
+            except:
+                pass
+    return data
+
+def load_data(data, model_name, tokenizer):
+    conv = get_conversation_template(model_name)
+    max_turns = len(data) // 2
+    for i in range(max_turns - 1):
+        conv.append_message(conv.roles[0], data[i*2])
+        conv.append_message(conv.roles[1], data[i*2+1])
+    conv.append_message(conv.roles[0], data[(max_turns - 1)*2])
+    start = tokenizer.encode(conv.get_prompt(), return_tensors='pt').shape[1]
+    conv.append_message(conv.roles[1], data[(max_turns - 1)*2+1])
+    end = tokenizer.encode(conv.get_prompt(), return_tensors='pt').shape[1]
+    return conv.get_prompt(), start - 1, end
+
+def main(args):
+    dataset_path = args.dataset_path
+    dataset = load_jsonl(dataset_path)
+    model_name = args.model_name
+    model = MyMistralForCausalLM.from_pretrained(
+        model_name,
+        torch_dtype=torch.float16,
+        low_cpu_mem_usage=True,
+        device_map="auto",
+        # use_flash_attention_2=True
+    )
+    tokenizer = transformers.AutoTokenizer.from_pretrained(
+        model_name,
+        padding_side="right",
+        use_fast=False,
+    )
+
+    features = []
+    window_size = args.window_size
+    steps = args.steps
+    threshold = args.threshold
+    
+    layer_len = len(model.model.layers)
+
+    for data in tqdm(dataset):
+        features_per_data = []
+        with torch.inference_mode():
+            prompt, prev_len, end = load_data(data, model_name, tokenizer)
+            input_ids = tokenizer(prompt, return_tensors='pt').input_ids.to(model.device)
+            for layer_id in range(layer_len):
+                model.model.layers[layer_id].self_attn.prev_len = prev_len
+                model.model.layers[layer_id].self_attn.steps = steps
+                model.model.layers[layer_id].self_attn.threshold = threshold
+                model.model.layers[layer_id].self_attn.window_size = window_size
+            outputs = model(input_ids, output_attentions = False, use_cache = False)
+            for layer_id in range(layer_len):
+                features_per_data.append(model.model.layers[layer_id].self_attn.features_per_data)
+                # attn_weights = model.model.layers[layer_id].self_attn.attn_weights
+                # total_len = attn_weights.shape[-1]
+                # for step in range(steps):
+                #     start = prev_len - window_size
+                #     end = prev_len
+                #     shift = window_size * step
+                #     prev_attn_sum = attn_weights[0, :, start:end, :start].sum(1)
+                #     cur_attn_sum = attn_weights[0, :, start + shift + window_size:end + shift + window_size, :start].sum(1)
+                #     prev_attn_sum_threshold = prev_attn_sum > (threshold * window_size)
+                #     cur_attn_sum_threshold = cur_attn_sum > (threshold * window_size)
+                #     activation_overlap = (prev_attn_sum_threshold & cur_attn_sum_threshold).sum(-1)
+                #     activation_sum = cur_attn_sum_threshold.sum(-1)
+                #     hit_rate = activation_overlap / activation_sum
+                #     hit_rate = hit_rate.mean()
+                    
+                #     features_per_data.append(hit_rate.item())
+                # total_len = attn_weights.shape[-1]
+                # for step in range(steps):
+                #     activation_overlaps = []
+                #     for channel_id in range(attn_weights.shape[1]):
+                #         start = prev_len - window_size
+                #         end = prev_len
+                #         shift = window_size * step
+                #         prev_attn_sum = attn_weights[0, channel_id, start:end, :start].sum(0)
+                #         cur_attn_sum = attn_weights[0, channel_id, start + shift + window_size:end + shift + window_size, :start].sum(0)
+                #         activation_overlap = ((prev_attn_sum > threshold) & (cur_attn_sum > threshold)).sum()/(cur_attn_sum > threshold).sum()
+                #         # check if nan skip
+                #         if not torch.isnan(activation_overlap):
+                #             activation_overlaps.append(activation_overlap.item())
+
+                #     features_per_data.append(np.mean(activation_overlaps))
+        # jsonl line by line
+        with open(args.output_path, 'a') as f:
+            f.write(json.dumps(features_per_data) + '\n')
+    # np.save(args.output_path, np.array(features))
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--dataset_path", type=str, required=True)
+    parser.add_argument("--model_name", type=str, default = 'mistralai/Mistral-7B-Instruct-v0.2')
+    parser.add_argument("--window_size", type=int, default=128)
+    parser.add_argument("--steps", type=int, default=4)
+    parser.add_argument("--threshold", type=float, default=0.005)
+    parser.add_argument("--output_path", type=str, required=True)
+    args = parser.parse_args()
+    main(args)