refactor: clean up device runtime interfaces and initialization semantics

kilinchange · kilinchange · commit 7a43321ada8e · 2026-02-09T08:12:20.000Z
- Split internal implementation headers into a separate include group
- Drop redundant explicit default initialization for Device
- Add `impl` suffix to CUDA guard implementation files
- Unify Arange initialization via DeviceGuardImpl
diff --git a/infini_train/include/autograd/comm.h b/infini_train/include/autograd/comm.h
@@ -33,7 +33,7 @@ class Scatter : public autograd::Function {
 private:
     const infini_train::nn::parallel::ProcessGroup *pg_ = nullptr;
     std::vector<Device> target_gpus_;
-    Device input_device_ = Device();
+    Device input_device_;
     int64_t dim_ = 0;
 };
 
@@ -52,7 +52,7 @@ class Gather : public autograd::Function {
 
 private:
     const infini_train::nn::parallel::ProcessGroup *pg_ = nullptr;
-    Device target_device_ = Device();
+    Device target_device_;
     std::vector<Device> input_gpus_;
     int64_t dim_ = 0;
     bool unsqueezed_scalar_ = false;
@@ -76,7 +76,7 @@ class Broadcast : public autograd::Function {
     const infini_train::nn::parallel::ProcessGroup *pg_ = nullptr;
     std::vector<Device> target_gpus_;
     int64_t num_inputs_ = 0;
-    Device input_device_ = Device();
+    Device input_device_;
 };
 
 class ReduceAddCoalesced : public autograd::Function {
@@ -95,7 +95,7 @@ class ReduceAddCoalesced : public autograd::Function {
 
 private:
     const infini_train::nn::parallel::ProcessGroup *pg_ = nullptr;
-    Device destination_ = Device();
+    Device destination_;
     std::vector<Device> target_gpus_;
     int64_t num_inputs_ = 0;
 };
diff --git a/infini_train/include/core/device_guard.h b/infini_train/include/core/device_guard.h
@@ -11,6 +11,7 @@ namespace infini_train::core {
 class Stream;
 class BlasHandle;
 
+// Note(dcj): In the CPU backend, kD2D corresponds to a regular memcpy.
 enum class MemcpyKind : int8_t {
     kH2D = 0,
     kD2H = 1,
@@ -161,7 +162,7 @@ class DeviceGuardImplRegistry {
     DeviceGuardImpl *Get(Device::DeviceType type) const;
 
 private:
-    DeviceGuardImplRegistry();
+    DeviceGuardImplRegistry() = default;
     DeviceGuardImplRegistry(const DeviceGuardImplRegistry &) = delete;
     DeviceGuardImplRegistry &operator=(const DeviceGuardImplRegistry &) = delete;
 
diff --git a/infini_train/include/nn/parallel/data_parallel.h b/infini_train/include/nn/parallel/data_parallel.h
@@ -20,7 +20,7 @@ class DataParallel : public Module {
 private:
     int dim_ = 0;
     std::vector<Device> devices_;
-    Device output_device_ = Device();
-    Device src_device_ = Device();
+    Device output_device_;
+    Device src_device_;
 };
 } // namespace infini_train::nn::parallel
diff --git a/infini_train/include/nn/parallel/pp/pipeline_stage.h b/infini_train/include/nn/parallel/pp/pipeline_stage.h
@@ -42,7 +42,7 @@ class PipelineStage {
     int num_stages_ = -1;
     int prev_rank_ = -1;
     int next_rank_ = -1;
-    Device device_ = Device();
+    Device device_;
     std::vector<std::shared_ptr<Module>> chunks_;
     std::vector<std::vector<int64_t>> recv_shape_;
 };
diff --git a/infini_train/include/nn/parallel/work.h b/infini_train/include/nn/parallel/work.h
@@ -58,7 +58,7 @@ class WorkNccl final : public Work {
     void SetException(std::exception_ptr e);
 
 private:
-    Device device_ = Device();
+    Device device_;
     cudaEvent_t ready_event_;
     cudaEvent_t done_event_;
     ncclComm_t comm_;
diff --git a/infini_train/include/tensor.h b/infini_train/include/tensor.h
@@ -48,7 +48,7 @@ class TensorBuffer {
     size_t Size() const;
 
 private:
-    Device device_ = Device();
+    Device device_;
     size_t size_ = 0;
     void *data_ = nullptr;
 };
diff --git a/infini_train/src/core/cpu/cpu_guard_impl.cc b/infini_train/src/core/cpu/cpu_guard_impl.cc
@@ -1,8 +1,12 @@
-#include "infini_train/src/core/cpu/cpu_guard.h"
+#include "infini_train/src/core/cpu/cpu_guard_impl.h"
 
 #include <cstdlib>
 #include <cstring>
 
+#include "glog/logging.h"
+
+#include "infini_train/include/core/device_guard.h"
+
 namespace infini_train::core::cpu {
 
 CpuGuardImpl::CpuGuardImpl() {}
@@ -15,6 +19,13 @@ void CpuGuardImpl::Malloc(void **dev_ptr, size_t size) { *dev_ptr = std::malloc(
 
 void CpuGuardImpl::Free(void *dev_ptr) { std::free(dev_ptr); }
 
-void CpuGuardImpl::Memcpy(void *dst, const void *src, size_t count, MemcpyKind kind) { std::memcpy(dst, src, count); }
+void CpuGuardImpl::Memcpy(void *dst, const void *src, size_t count, MemcpyKind kind) {
+    CHECK(kind == MemcpyKind::kD2D) << "CpuGuardImpl::Memcpy only supports kD2D (host-to-host) memcpy, "
+                                    << "but got MemcpyKind=" << static_cast<int>(kind);
+
+    std::memcpy(dst, src, count);
+}
+
+INFINI_TRAIN_REGISTER_DEVICE_GUARD_IMPL(Device::DeviceType::kCPU, CpuGuardImpl)
 
 } // namespace infini_train::core::cpu
diff --git a/infini_train/src/core/cpu/cpu_guard_impl.h b/infini_train/src/core/cpu/cpu_guard_impl.h
diff --git a/infini_train/src/core/cuda/cuda_guard_impl.cc b/infini_train/src/core/cuda/cuda_guard_impl.cc
@@ -1,4 +1,4 @@
-#include "infini_train/src/core/cuda/cuda_guard.h"
+#include "infini_train/src/core/cuda/cuda_guard_impl.h"
 
 #include <array>
 #include <cstdint>
diff --git a/infini_train/src/core/cuda/cuda_guard_impl.h b/infini_train/src/core/cuda/cuda_guard_impl.h
@@ -2,11 +2,14 @@
 
 #include <cstdint>
 
-#include "infini_train/include/core/blas_handle.h"
 #include "infini_train/include/core/device_guard.h"
-#include "infini_train/include/core/stream.h"
 #include "infini_train/include/device.h"
 
+namespace infini_train::core {
+class Stream;
+class BlasHandle;
+} // namespace infini_train::core
+
 namespace infini_train::core::cuda {
 
 class CudaGuardImpl : public DeviceGuardImpl {
diff --git a/infini_train/src/core/device_guard.cc b/infini_train/src/core/device_guard.cc
@@ -8,7 +8,6 @@
 
 #include "infini_train/include/core/blas_handle.h"
 #include "infini_train/include/core/stream.h"
-#include "infini_train/src/core/cpu/cpu_guard.h"
 
 namespace infini_train::core {
 
@@ -71,6 +70,7 @@ std::pair<size_t, size_t> DeviceGuardImpl::GetMemPoolPeakMB(Device device) const
 DeviceGuard::DeviceGuard(Device device) : impl_(GetDeviceGuardImpl(device.type())) {
     original_device_ = impl_->GetDevice();
     impl_->SetDevice(device);
+    current_device_ = device;
 }
 
 void DeviceGuard::SetDevice(Device device) {
@@ -88,10 +88,6 @@ Device DeviceGuard::original_device() const { return original_device_; }
 DeviceGuard::~DeviceGuard() { impl_->SetDevice(original_device_); }
 
 // DeviceGuardImplRegistry
-DeviceGuardImplRegistry::DeviceGuardImplRegistry() {
-    Register(Device::DeviceType::kCPU, std::make_unique<infini_train::core::cpu::CpuGuardImpl>());
-}
-
 DeviceGuardImplRegistry &DeviceGuardImplRegistry::Instance() {
     static DeviceGuardImplRegistry instance;
     return instance;
diff --git a/infini_train/src/kernels/cuda/accumulate_grad.cu b/infini_train/src/kernels/cuda/accumulate_grad.cu
@@ -5,6 +5,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/cast.cu b/infini_train/src/kernels/cuda/cast.cu
@@ -7,6 +7,7 @@
 #include "infini_train/include/device.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/concat.cu b/infini_train/src/kernels/cuda/concat.cu
@@ -10,6 +10,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/cross_entropy.cu b/infini_train/src/kernels/cuda/cross_entropy.cu
@@ -11,6 +11,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/elementwise.cu b/infini_train/src/kernels/cuda/elementwise.cu
@@ -7,6 +7,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/embedding.cu b/infini_train/src/kernels/cuda/embedding.cu
@@ -4,6 +4,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/fill.cu b/infini_train/src/kernels/cuda/fill.cu
@@ -5,6 +5,7 @@
 #include "infini_train/include/device.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/gather.cu b/infini_train/src/kernels/cuda/gather.cu
@@ -4,6 +4,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/layernorm.cu b/infini_train/src/kernels/cuda/layernorm.cu
@@ -6,6 +6,7 @@
 #include "infini_train/include/device.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/linear.cu b/infini_train/src/kernels/cuda/linear.cu
@@ -11,6 +11,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_blas_handle.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
diff --git a/infini_train/src/kernels/cuda/outer.cu b/infini_train/src/kernels/cuda/outer.cu
@@ -10,6 +10,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_blas_handle.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/reduction.cu b/infini_train/src/kernels/cuda/reduction.cu
@@ -6,6 +6,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/slice.cu b/infini_train/src/kernels/cuda/slice.cu
@@ -7,6 +7,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/softmax.cu b/infini_train/src/kernels/cuda/softmax.cu
@@ -11,6 +11,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/split.cu b/infini_train/src/kernels/cuda/split.cu
@@ -6,6 +6,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/stack.cu b/infini_train/src/kernels/cuda/stack.cu
@@ -10,6 +10,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/transform.cu b/infini_train/src/kernels/cuda/transform.cu
@@ -9,6 +9,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/kernels/cuda/vocab_parallel_cross_entropy.cu b/infini_train/src/kernels/cuda/vocab_parallel_cross_entropy.cu
@@ -7,6 +7,7 @@
 #include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
+
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
diff --git a/infini_train/src/nn/init.cc b/infini_train/src/nn/init.cc
diff --git a/infini_train/src/nn/parallel/pp/send_recv.cc b/infini_train/src/nn/parallel/pp/send_recv.cc
diff --git a/infini_train/src/nn/parallel/process_group.cc b/infini_train/src/nn/parallel/process_group.cc
diff --git a/infini_train/src/nn/parallel/work.cc b/infini_train/src/nn/parallel/work.cc
diff --git a/infini_train/src/profiler.cc b/infini_train/src/profiler.cc
diff --git a/scripts/test_config.json b/scripts/test_config.json

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-#include "infini_train/src/core/cuda/cuda_guard.h"`
	`1`	`+#include "infini_train/src/core/cuda/cuda_guard_impl.h"`
`2`	`2`
`3`	`3`	`#include <array>`
`4`	`4`	`#include <cstdint>`