googleapis
diff --git a/‎tests/unit/vertexai/genai/replays/conftest.py‎
Lines changed: 2 additions & 1 deletion b/‎tests/unit/vertexai/genai/replays/conftest.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎tests/unit/vertexai/genai/test_evals.py‎
Lines changed: 23 additions & 19 deletions b/‎tests/unit/vertexai/genai/test_evals.py‎
Lines changed: 23 additions & 19 deletions
diff --git a/‎vertexai/_genai/_evals_common.py‎
Lines changed: 8 additions & 6 deletions b/‎vertexai/_genai/_evals_common.py‎
Lines changed: 8 additions & 6 deletions
@@ -26,6 +26,7 @@
 from google.genai import _replay_api_client
 from google.genai import client as google_genai_client_module
 from vertexai._genai import _evals_utils
+from vertexai._genai import _gcs_utils
 from vertexai._genai import prompt_optimizer
 import pytest
 
@@ -240,7 +241,7 @@ def client(use_vertex, replays_prefix, http_options, request):
                     mock_bigquery_client.return_value = mock.MagicMock()
 
                     with mock.patch.object(
-                        _evals_utils.GcsUtils, "read_file_contents"
+                        _gcs_utils.GcsUtils, "read_file_contents"
                     ) as mock_read_file_contents:
                         mock_read_file_contents.side_effect = (
                             _mock_read_file_contents_side_effect
 
@@ -40,6 +40,8 @@
 
 _evals_common = _genai.evals._evals_common
 _evals_utils = _genai._evals_utils
+_gcs_utils = _genai._gcs_utils
+_evals_metric_loaders = _genai._evals_metric_loaders
 
 pytestmark = pytest.mark.usefixtures("google_auth_mock")
 
@@ -74,9 +76,9 @@ def mock_eval_dependencies(mock_api_client_fixture):
     ) as mock_bq_client, mock.patch(
         "vertexai._genai.evals.Evals.evaluate_instances"
     ) as mock_evaluate_instances, mock.patch(
-        "vertexai._genai._evals_utils.GcsUtils.upload_json_to_prefix"
+        "vertexai._genai._gcs_utils.GcsUtils.upload_json_to_prefix"
     ) as mock_upload_to_gcs, mock.patch(
-        "vertexai._genai._evals_utils.LazyLoadedPrebuiltMetric._fetch_and_parse"
+        "vertexai._genai._evals_metric_loaders.LazyLoadedPrebuiltMetric._fetch_and_parse"
     ) as mock_fetch_prebuilt_metric:
 
         def mock_evaluate_instances_side_effect(*args, **kwargs):
@@ -181,6 +183,8 @@ def setup_method(self):
         importlib.reload(_evals_common)
         importlib.reload(_evals_metric_handlers)
         importlib.reload(_genai.evals)
+        importlib.reload(_evals_metric_loaders)
+        importlib.reload(_gcs_utils)
 
         vertexai.init(
             project=_TEST_PROJECT,
@@ -189,7 +193,7 @@ def setup_method(self):
         self.client = vertexai.Client(project=_TEST_PROJECT, location=_TEST_LOCATION)
 
     @mock.patch.object(_evals_common, "Models")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_with_string_model_success(
         self, mock_eval_dataset_loader, mock_models
     ):
@@ -232,7 +236,7 @@ def test_inference_with_string_model_success(
         assert inference_result.candidate_name == "gemini-pro"
         assert inference_result.gcs_source is None
 
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_with_callable_model_sets_candidate_name(
         self, mock_eval_dataset_loader
     ):
@@ -251,7 +255,7 @@ def my_model_fn(contents):
         assert inference_result.candidate_name == "my_model_fn"
         assert inference_result.gcs_source is None
 
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_with_lambda_model_candidate_name_is_none(
         self, mock_eval_dataset_loader
     ):
@@ -273,7 +277,7 @@ def test_inference_with_lambda_model_candidate_name_is_none(
         )
         assert inference_result.gcs_source is None
 
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_with_callable_model_success(self, mock_eval_dataset_loader):
         mock_df = pd.DataFrame({"prompt": ["test prompt"]})
         mock_eval_dataset_loader.return_value.load.return_value = mock_df.to_dict(
@@ -301,7 +305,7 @@ def mock_model_fn(contents):
         assert inference_result.gcs_source is None
 
     @mock.patch.object(_evals_common, "Models")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_with_prompt_template(
         self, mock_eval_dataset_loader, mock_models
     ):
@@ -348,8 +352,8 @@ def test_inference_with_prompt_template(
         assert inference_result.gcs_source is None
 
     @mock.patch.object(_evals_common, "Models")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
-    @mock.patch.object(_evals_utils, "GcsUtils")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
+    @mock.patch.object(_gcs_utils, "GcsUtils")
     def test_inference_with_gcs_destination(
         self, mock_gcs_utils, mock_eval_dataset_loader, mock_models
     ):
@@ -402,7 +406,7 @@ def test_inference_with_gcs_destination(
         )
 
     @mock.patch.object(_evals_common, "Models")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     @mock.patch("pandas.DataFrame.to_json")
     @mock.patch("os.makedirs")
     def test_inference_with_local_destination(
@@ -454,7 +458,7 @@ def test_inference_with_local_destination(
         assert inference_result.gcs_source is None
 
     @mock.patch.object(_evals_common, "Models")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_from_request_column_save_to_local_dir(
         self, mock_eval_dataset_loader, mock_models
     ):
@@ -688,7 +692,7 @@ def test_inference_from_local_csv_file(self, mock_models):
         assert inference_result.gcs_source is None
 
     @mock.patch.object(_evals_common, "Models")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_with_row_level_config_overrides(
         self, mock_eval_dataset_loader, mock_models
     ):
@@ -873,7 +877,7 @@ def mock_generate_content_logic(*args, **kwargs):
         assert inference_result.gcs_source is None
 
     @mock.patch.object(_evals_common, "Models")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_inference_with_multimodal_content(
         self, mock_eval_dataset_loader, mock_models
     ):
@@ -1107,7 +1111,7 @@ def test_run_inference_with_litellm_import_error(self, mock_api_client_fixture):
     @mock.patch.object(_evals_common, "_is_gemini_model")
     @mock.patch.object(_evals_common, "_is_litellm_model")
     @mock.patch.object(_evals_common, "_is_litellm_vertex_maas_model")
-    @mock.patch.object(_evals_utils, "EvalDatasetLoader")
+    @mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader")
     def test_run_inference_with_litellm_parsing(
         self,
         mock_eval_dataset_loader,
@@ -3641,7 +3645,7 @@ def test_execute_evaluation_with_openai_schema(
             name="test_metric", prompt_template="Evaluate: {response}"
         )
 
-        with mock.patch.object(_evals_utils, "EvalDatasetLoader") as mock_loader_class:
+        with mock.patch.object(_evals_metric_loaders, "EvalDatasetLoader") as mock_loader_class:
             mock_loader_instance = mock_loader_class.return_value
             mock_loader_instance.load.return_value = mock_openai_raw_data
 
@@ -3894,7 +3898,7 @@ def test_execute_evaluation_lazy_loaded_prebuilt_metric_instance(
             eval_dataset_df=dataset_df
         )
 
-        lazy_metric_instance = _evals_utils.LazyLoadedPrebuiltMetric(
+        lazy_metric_instance = _evals_metric_loaders.LazyLoadedPrebuiltMetric(
             name="fluency", version="v1"
         )
 
@@ -4094,7 +4098,7 @@ def test_execute_evaluation_adds_creation_timestamp(
 class TestEvaluationDataset:
     """Contains set of tests for the EvaluationDataset class methods."""
 
-    @mock.patch.object(_evals_utils, "GcsUtils")
+    @mock.patch.object(_gcs_utils, "GcsUtils")
     def test_load_from_observability_eval_cases(self, mock_gcs_utils):
         """Tests that load_from_observability_eval_cases reads data from GCS."""
 
@@ -4146,7 +4150,7 @@ def read_file_contents_side_effect(src: str) -> str:
             ),
         )
 
-    @mock.patch.object(_evals_utils, "GcsUtils")
+    @mock.patch.object(_gcs_utils, "GcsUtils")
     def test_load_from_observability_eval_cases_no_system_instruction(
         self, mock_gcs_utils
     ):
@@ -4198,7 +4202,7 @@ def read_file_contents_side_effect(src: str) -> str:
             ),
         )
 
-    @mock.patch.object(_evals_utils, "GcsUtils")
+    @mock.patch.object(_gcs_utils, "GcsUtils")
     def test_load_from_observability_eval_cases_multiple_cases(self, mock_gcs_utils):
         """Test load_from_observability_eval_cases can handle multiple cases."""
 
 
@@ -33,6 +33,8 @@
 from . import _evals_data_converters
 from . import _evals_metric_handlers
 from . import _evals_utils
+from . import _evals_metric_loaders
+from . import _gcs_utils
 from . import evals
 from . import types
 
@@ -627,7 +629,7 @@ def _load_dataframe(
     """Loads and prepares the prompt dataset for inference."""
     logger.info("Loading prompt dataset from: %s", src)
     try:
-        loader = _evals_utils.EvalDatasetLoader(api_client=api_client)
+        loader = _evals_metric_loaders.EvalDatasetLoader(api_client=api_client)
         dataset_list_of_dicts = loader.load(src)
         if not dataset_list_of_dicts:
             raise ValueError("Prompt dataset 'prompt_dataset' must not be empty.")
@@ -753,7 +755,7 @@ def _get_dataset_source(
 def _resolve_dataset_inputs(
     dataset: list[types.EvaluationDataset],
     dataset_schema: Optional[Literal["GEMINI", "FLATTEN", "OPENAI"]],
-    loader: "_evals_utils.EvalDatasetLoader",
+    loader: "_evals_metric_loaders.EvalDatasetLoader",
 ) -> tuple[types.EvaluationDataset, int]:
     """Loads and processes single or multiple datasets for evaluation.
 
@@ -830,7 +832,7 @@ def _resolve_metrics(
     """Resolves a list of metric instances, loading RubricMetric if necessary."""
     resolved_metrics_list = []
     for metric_instance in metrics:
-        if isinstance(metric_instance, _evals_utils.LazyLoadedPrebuiltMetric):
+        if isinstance(metric_instance, _evals_metric_loaders.LazyLoadedPrebuiltMetric):
             try:
                 resolved_metrics_list.append(
                     metric_instance.resolve(api_client=api_client)
@@ -923,7 +925,7 @@ def _execute_evaluation(
         else:
             deduped_candidate_names.append(name)
 
-    loader = _evals_utils.EvalDatasetLoader(api_client=api_client)
+    loader = _evals_metric_loaders.EvalDatasetLoader(api_client=api_client)
     processed_eval_dataset, num_response_candidates = _resolve_dataset_inputs(
         dataset=dataset_list, dataset_schema=dataset_schema, loader=loader
     )
@@ -983,7 +985,7 @@ def _convert_gcs_to_evaluation_item_result(
 ) -> types.EvaluationItemResult:
     """Converts a json file to an EvaluationItemResult."""
     logger.info("Loading evaluation item result from GCS: %s", gcs_uri)
-    gcs_utils = _evals_utils.GcsUtils(api_client=api_client)
+    gcs_utils = _gcs_utils.GcsUtils(api_client=api_client)
     try:
         eval_item_data = json.loads(gcs_utils.read_file_contents(gcs_uri))
         return types.EvaluationItemResult(**eval_item_data)
@@ -1000,7 +1002,7 @@ def _convert_gcs_to_evaluation_item_request(
 ) -> types.EvaluationItemRequest:
     """Converts a json file to an EvaluationItemRequest."""
     logger.info("Loading evaluation item request from GCS: %s", gcs_uri)
-    gcs_utils = _evals_utils.GcsUtils(api_client=api_client)
+    gcs_utils = _gcs_utils.GcsUtils(api_client=api_client)
     try:
         eval_item_data = json.loads(gcs_utils.read_file_contents(gcs_uri))
         return types.EvaluationItemRequest(**eval_item_data)