修改函数参数顺序

qinyiqun · qinyiqun · commit 9dee06a9b3cd · 2026-01-26T14:42:37.000+08:00
diff --git a/csrc/config/global_config.hpp b/csrc/config/global_config.hpp
@@ -1,6 +1,5 @@
 #pragma once
 
-// #include "infinicore/nn/quantization.hpp"
 #include "infinicore/nn/rope.hpp"
 #include "infinicore/ops.hpp"
 #include "quant_config.hpp"
diff --git a/csrc/engine/rank_worker.cpp b/csrc/engine/rank_worker.cpp
@@ -175,7 +175,7 @@ void RankWorker::thread_loop() {
             infinicore::context::setDevice(rank_info_.device);
 
             // Create model using factory (may be expensive)
-            model_ = InfinilmModelFactory::createModel(rank_info_, pending_cache_config_ != nullptr ? pending_cache_config_.get() : nullptr, global_config_);
+            model_ = InfinilmModelFactory::createModel(global_config_, rank_info_, pending_cache_config_ != nullptr ? pending_cache_config_.get() : nullptr);
             if (!model_) {
                 throw std::runtime_error("Failed to create model");
             }
diff --git a/csrc/models/llama/llama.hpp b/csrc/models/llama/llama.hpp
@@ -18,7 +18,6 @@
 
 #include "../../config/global_config.hpp"
 #include "llama_attention.hpp"
-#include "llama_config.hpp"
 #include "llama_decoder_layer.hpp"
 #include "llama_for_causal_lm.hpp"
 #include "llama_mlp.hpp"
diff --git a/csrc/models/llama/llama_attention.cpp b/csrc/models/llama/llama_attention.cpp
@@ -17,11 +17,12 @@
 
 namespace infinilm::models::llama {
 
-LlamaAttention::LlamaAttention(const infinicore::Device &device,
+LlamaAttention::LlamaAttention(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                               const infinicore::Device &device,
                                size_t layer_idx,
-                               engine::distributed::RankInfo rank_info,
-                               std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config)
-    : layer_idx_(layer_idx),
+                               engine::distributed::RankInfo rank_info)
+    : global_config_(global_config),
+      layer_idx_(layer_idx),
       hidden_size_(global_config->get<size_t>("hidden_size")),
       num_attention_heads_(global_config->get<size_t>("num_attention_heads")),
       num_key_value_heads_(global_config->get<size_t>("num_key_value_heads")),
@@ -30,8 +31,7 @@ LlamaAttention::LlamaAttention(const infinicore::Device &device,
       use_bias_(global_config->get_or<bool>("attention_bias", true)),
       use_output_bias_(global_config->get_or<bool>("attention_output_bias", false)),
       max_position_embeddings_(global_config->get<size_t>("max_position_embeddings")),
-      rank_info_(rank_info),
-      global_config_(global_config) {
+      rank_info_(rank_info) {
     const auto &dtype{global_config_->get_dtype()};
 
     int tp_rank = rank_info.tp_rank;
@@ -54,8 +54,6 @@ LlamaAttention::LlamaAttention(const infinicore::Device &device,
         INFINILM_QKV_LINEAR_W8A8_INIT(qkv_proj, "q_proj", "k_proj", "v_proj", hidden_size_, head_dim_, global_config_->get<size_t>("num_attention_heads"), global_config_->get<size_t>("num_key_value_heads"), use_bias_,
                                       dtype, device, rank_info, quant_scheme);
 
-        // INFINICORE_NN_MODULE_INIT(o_proj, hidden_size_, hidden_size_, use_output_bias_,
-        //                           dtype, device, tp_rank, tp_size, rank_info.comm, quant_scheme);
         INFINICORE_NN_MODULE_INIT(o_proj, global_config_->get<size_t>("num_attention_heads") * head_dim_, hidden_size_, use_output_bias_,
                                   dtype, device, tp_rank, tp_size, rank_info.comm, quant_scheme);
         break;
diff --git a/csrc/models/llama/llama_attention.hpp b/csrc/models/llama/llama_attention.hpp
@@ -37,10 +37,10 @@ class LlamaAttention : public infinicore::nn::Module {
      * @param layer_idx Layer index for cache access
      * @param dtype Optional data type for model parameters (defaults to F32)
      */
-    LlamaAttention(const infinicore::Device &device,
+    LlamaAttention(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                   const infinicore::Device &device,
                    size_t layer_idx,
-                   engine::distributed::RankInfo rank_info = engine::distributed::RankInfo(),
-                   std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config = nullptr);
+                   engine::distributed::RankInfo rank_info = engine::distributed::RankInfo());
 
     /**
      * @brief Forward pass: compute attention
@@ -102,6 +102,7 @@ class LlamaAttention : public infinicore::nn::Module {
     std::shared_ptr<infinicore::nn::RoPE> rotary_emb_;
 
 private:
+    std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config_;
     size_t layer_idx_; // Layer index for cache access
     size_t hidden_size_;
     size_t num_attention_heads_;
@@ -113,7 +114,6 @@ class LlamaAttention : public infinicore::nn::Module {
     size_t max_position_embeddings_; // For cache initialization (deprecated, kept for compatibility)
 
     float scaling_;
-    std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config_;
 };
 
 } // namespace infinilm::models::llama
diff --git a/csrc/models/llama/llama_decoder_layer.cpp b/csrc/models/llama/llama_decoder_layer.cpp
@@ -6,10 +6,10 @@
 
 namespace infinilm::models::llama {
 
-LlamaDecoderLayer::LlamaDecoderLayer(const infinicore::Device &device,
+LlamaDecoderLayer::LlamaDecoderLayer(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                                     const infinicore::Device &device,
                                      size_t layer_idx,
-                                     engine::distributed::RankInfo rank_info,
-                                     std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config) : layer_idx_(layer_idx), rank_info_(rank_info), global_config_(global_config) {
+                                     engine::distributed::RankInfo rank_info) : global_config_(global_config), layer_idx_(layer_idx), rank_info_(rank_info) {
     const auto &dtype{global_config_->get_dtype()};
 
     // Initialize layer normalization layers
@@ -19,8 +19,8 @@ LlamaDecoderLayer::LlamaDecoderLayer(const infinicore::Device &device,
                               dtype, device);
 
     // Initialize attention and MLP modules
-    INFINICORE_NN_MODULE_INIT(self_attn, device, layer_idx, rank_info_, global_config);
-    INFINICORE_NN_MODULE_INIT(mlp, device, rank_info_, global_config);
+    INFINICORE_NN_MODULE_INIT(self_attn, global_config, device, layer_idx, rank_info_);
+    INFINICORE_NN_MODULE_INIT(mlp, global_config, device, rank_info_);
 }
 
 infinicore::Tensor LlamaDecoderLayer::forward(const infinicore::Tensor &hidden_states,
diff --git a/csrc/models/llama/llama_decoder_layer.hpp b/csrc/models/llama/llama_decoder_layer.hpp
@@ -33,10 +33,10 @@ class LlamaDecoderLayer : public infinicore::nn::Module {
      * @param layer_idx Layer index for cache management and debugging
      * @param dtype Optional data type for model parameters (defaults to F32)
      */
-    LlamaDecoderLayer(const infinicore::Device &device,
+    LlamaDecoderLayer(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                      const infinicore::Device &device,
                       size_t layer_idx,
-                      engine::distributed::RankInfo rank_info = engine::distributed::RankInfo(),
-                      std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config = nullptr);
+                      engine::distributed::RankInfo rank_info = engine::distributed::RankInfo());
 
     /**
      * @brief Forward pass: process one decoder layer
diff --git a/csrc/models/llama/llama_for_causal_lm.cpp b/csrc/models/llama/llama_for_causal_lm.cpp
@@ -6,17 +6,17 @@
 
 namespace infinilm::models::llama {
 
-LlamaForCausalLM::LlamaForCausalLM(const infinicore::Device &device,
-                                   engine::distributed::RankInfo rank_info,
-                                   std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config) {
+LlamaForCausalLM::LlamaForCausalLM(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                                   const infinicore::Device &device,
+                                   engine::distributed::RankInfo rank_info) {
 
     // Initialize module's device_ member
     device_ = device;
 
     const auto &dtype{global_config->get_dtype()};
 
     // Initialize base model
-    INFINICORE_NN_MODULE_INIT(model, device, rank_info, global_config);
+    INFINICORE_NN_MODULE_INIT(model, global_config, device, rank_info);
 
     // Initialize language modeling head
     // Note: If tie_word_embeddings is true, we would share weights with embed_tokens
diff --git a/csrc/models/llama/llama_for_causal_lm.hpp b/csrc/models/llama/llama_for_causal_lm.hpp
@@ -28,9 +28,9 @@ class LlamaForCausalLM : public InfinilmModel {
      * @param config Model configuration
      * @param device Device to create tensors on
      */
-    LlamaForCausalLM(const infinicore::Device &device,
-                     engine::distributed::RankInfo rank_info = engine::distributed::RankInfo(),
-                     std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config = nullptr);
+    LlamaForCausalLM(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                     const infinicore::Device &device,
+                     engine::distributed::RankInfo rank_info = engine::distributed::RankInfo());
 
     /**
      * @brief Forward pass: compute language modeling logits
@@ -43,7 +43,6 @@ class LlamaForCausalLM : public InfinilmModel {
     void reset_cache(const cache::CacheConfig *cache_config) override;
 
     // Module information
-    // const LlamaConfig &config() const { return model_->config(); }
     LlamaModel &model() { return *model_; }
     const LlamaModel &model() const { return *model_; }
 
diff --git a/csrc/models/llama/llama_mlp.cpp b/csrc/models/llama/llama_mlp.cpp
@@ -5,12 +5,12 @@
 
 namespace infinilm::models::llama {
 
-LlamaMLP::LlamaMLP(const infinicore::Device &device,
-                   engine::distributed::RankInfo rank_info,
-                   std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config)
-    : hidden_size_(global_config->get<size_t>("hidden_size")),
+LlamaMLP::LlamaMLP(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                   const infinicore::Device &device,
+                   engine::distributed::RankInfo rank_info)
+    : global_config_(global_config), hidden_size_(global_config->get<size_t>("hidden_size")),
       intermediate_size_(global_config->get<size_t>("intermediate_size")),
-      use_bias_(global_config->get_or<bool>("mlp_bias", false)), rank_info_(rank_info), global_config_(global_config) {
+      use_bias_(global_config->get_or<bool>("mlp_bias", false)), rank_info_(rank_info) {
     const auto &dtype{global_config_->get_dtype()};
 
     int tp_rank = rank_info.tp_rank;
diff --git a/csrc/models/llama/llama_mlp.hpp b/csrc/models/llama/llama_mlp.hpp
@@ -34,9 +34,9 @@ class LlamaMLP : public infinicore::nn::Module {
      * @param device Device to create tensors on
      * @param dtype Optional data type for model parameters (defaults to F32)
      */
-    LlamaMLP(const infinicore::Device &device,
-             engine::distributed::RankInfo rank_info = engine::distributed::RankInfo(),
-             std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config = nullptr);
+    LlamaMLP(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+             const infinicore::Device &device,
+             engine::distributed::RankInfo rank_info = engine::distributed::RankInfo());
 
     /**
      * @brief Forward pass: compute MLP output
diff --git a/csrc/models/llama/llama_model.cpp b/csrc/models/llama/llama_model.cpp
@@ -7,10 +7,10 @@
 
 namespace infinilm::models::llama {
 
-LlamaModel::LlamaModel(const infinicore::Device &device,
-                       engine::distributed::RankInfo rank_info,
-                       std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config)
-    : rank_info_(rank_info), global_config_(global_config) {
+LlamaModel::LlamaModel(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+                       const infinicore::Device &device,
+                       engine::distributed::RankInfo rank_info)
+    : global_config_(global_config), rank_info_(rank_info) {
     const auto &dtype{global_config_->get_dtype()};
     // Initialize token embeddings
     INFINICORE_NN_MODULE_INIT(embed_tokens, global_config_->get<size_t>("vocab_size"), global_config_->get<size_t>("hidden_size"),
@@ -22,7 +22,7 @@ LlamaModel::LlamaModel(const infinicore::Device &device,
     layers_.reserve(global_config_->get<size_t>("num_hidden_layers"));
     for (size_t i = 0; i < global_config_->get<size_t>("num_hidden_layers"); ++i) {
         layers_.push_back(this->register_module<LlamaDecoderLayer>(
-            "layers." + std::to_string(i), device, i, rank_info, global_config_));
+            "layers." + std::to_string(i), global_config_, device, i, rank_info));
     }
 
     // Initialize final layer normalization
diff --git a/csrc/models/llama/llama_model.hpp b/csrc/models/llama/llama_model.hpp
@@ -37,9 +37,9 @@ class LlamaModel : public infinicore::nn::Module {
      * @param device Device to create tensors on
      * @param dtype Optional data type for model parameters (defaults to F32)
      */
-    LlamaModel(const infinicore::Device &device,
-               engine::distributed::RankInfo rank_info = engine::distributed::RankInfo(),
-               std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config = nullptr);
+    LlamaModel(std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
+               const infinicore::Device &device,
+               engine::distributed::RankInfo rank_info = engine::distributed::RankInfo());
 
     /**
      * @brief Forward pass: process input through the model
diff --git a/csrc/models/model_factory.cpp b/csrc/models/model_factory.cpp
@@ -3,16 +3,16 @@
 
 namespace infinilm {
 std::shared_ptr<InfinilmModel> InfinilmModelFactory::createModel(
+    std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
     engine::distributed::RankInfo rank_info,
-    const cache::CacheConfig *cache,
-    std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config) {
+    const cache::CacheConfig *cache) {
 
     std::shared_ptr<InfinilmModel> model;
     //****************************NEED TO BE FIXED */
     if (true) {
         // const auto &llama_config = *llama_config_ptr;
         model = std::make_shared<models::llama::LlamaForCausalLM>(
-            rank_info.device, rank_info, global_config);
+            global_config, rank_info.device, rank_info);
     } else {
         throw std::invalid_argument("InfinilmModelFactory::createModel: Unsupported model config type");
     }
diff --git a/csrc/models/model_factory.hpp b/csrc/models/model_factory.hpp
@@ -9,9 +9,8 @@ namespace infinilm {
 class InfinilmModelFactory {
 public:
     static std::shared_ptr<InfinilmModel> createModel(
-        // const InfinilmModel::Config &config,
+        std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config,
         engine::distributed::RankInfo rank_info = engine::distributed::RankInfo(),
-        const cache::CacheConfig *cache = nullptr,
-        std::shared_ptr<infinilm::config::global_config::GlobalConfig> global_config = nullptr);
+        const cache::CacheConfig *cache = nullptr);
 };
 } // namespace infinilm
diff --git a/python/infinilm/models/llama/configuration_llama.py b/python/infinilm/models/llama/configuration_llama.py
@@ -21,6 +21,7 @@
 
 from ...configuration_utils import PretrainedConfig
 
+
 class LlamaConfig(PretrainedConfig, _infinilm.LlamaConfig):
     r"""
     This is the configuration class to store the configuration of a [`LlamaModel`]. It is used to instantiate an LLaMA

Original file line number	Diff line number	Diff line change
`@@ -175,7 +175,7 @@ void RankWorker::thread_loop() {`
`175`	`175`	`infinicore::context::setDevice(rank_info_.device);`
`176`	`176`
`177`	`177`	`// Create model using factory (may be expensive)`
`178`		`- model_ = InfinilmModelFactory::createModel(rank_info_, pending_cache_config_ != nullptr ? pending_cache_config_.get() : nullptr, global_config_);`
	`178`	`+ model_ = InfinilmModelFactory::createModel(global_config_, rank_info_, pending_cache_config_ != nullptr ? pending_cache_config_.get() : nullptr);`
`179`	`179`	`if (!model_) {`
`180`	`180`	`throw std::runtime_error("Failed to create model");`
`181`	`181`	`}`