fix: check XProvence before AutoConfig to prevent registry pollution

sigridjineth · sigridjineth · commit 7b6363422a60 · 2025-12-08T02:23:18.000+09:00
The previous fix still failed because __init__.py called AutoConfig.from_pretrained
before XProvenceModel was created. This polluted transformers' internal config
registry with XLMRobertaConfig, causing conflicts when XProvenceModel tried to
load the custom XProvenceConfig.

Solution:
- Add _is_xprovence_model() helper that reads config.json directly
- Check for XProvence BEFORE calling AutoConfig.from_pretrained
- This prevents transformers from caching the wrong config class
diff --git a/backends/python/server/text_embeddings_server/models/__init__.py b/backends/python/server/text_embeddings_server/models/__init__.py
@@ -1,4 +1,5 @@
 import os
+import json
 import torch
 
 from loguru import logger
@@ -14,6 +15,25 @@
 from text_embeddings_server.models.xprovence_model import XProvenceModel
 from text_embeddings_server.utils.device import get_device, use_ipex
 
+
+def _is_xprovence_model(model_path: Path) -> bool:
+    """Check if model is XProvence by reading config.json directly.
+
+    This avoids calling AutoConfig.from_pretrained which can pollute
+    transformers' internal registry and cause config class conflicts.
+    """
+    config_path = model_path / "config.json"
+    if not config_path.exists():
+        return False
+
+    try:
+        with open(config_path, "r") as f:
+            config = json.load(f)
+        architectures = config.get("architectures", [])
+        return any("XProvence" in arch for arch in architectures)
+    except Exception:
+        return False
+
 FlashJinaBert = None
 FlashMistral = None
 FlashQwen3 = None
@@ -81,16 +101,14 @@ def get_model(model_path: Path, dtype: Optional[str], pool: str):
     device = get_device()
     logger.info(f"backend device: {device}")
 
-    config = AutoConfig.from_pretrained(model_path, trust_remote_code=TRUST_REMOTE_CODE)
-
-    if (
-        hasattr(config, "architectures")
-        and config.architectures
-        and "XProvence" in config.architectures[0]
-    ):
+    # Check for XProvence BEFORE calling AutoConfig.from_pretrained
+    # to avoid polluting transformers' internal config registry
+    if _is_xprovence_model(model_path):
         logger.info("Detected XProvence model for context pruning")
         return XProvenceModel(model_path, device, datatype, trust_remote=True)
 
+    config = AutoConfig.from_pretrained(model_path, trust_remote_code=TRUST_REMOTE_CODE)
+
     if (
         FlashJinaBert is not None
         and hasattr(config, "auto_map")