MemTensor · fridayL · Dec 11, 2025 · Dec 4, 2025 · Dec 4, 2025 · Dec 4, 2025
diff --git a/src/memos/api/handlers/chat_handler.py b/src/memos/api/handlers/chat_handler.py
@@ -32,6 +32,7 @@
     prepare_reference_data,
     process_streaming_references_complete,
 )
+from memos.mem_reader.read_multi_modal.utils import detect_lang
 from memos.mem_scheduler.schemas.message_schemas import ScheduleMessageItem
 from memos.mem_scheduler.schemas.task_schemas import (
     ANSWER_TASK_LABEL,
@@ -409,7 +410,6 @@ def generate_chat_response() -> Generator[str, None, None]:
                         pref_top_k=chat_req.pref_top_k,
                         filter=chat_req.filter,
                         search_tool_memory=False,
-                        playground_search_goal_parser=False,
                     )
                     start_time = time.time()
                     search_response = self.search_handler.handle_search_memories(search_req)
@@ -491,7 +491,6 @@ def generate_chat_response() -> Generator[str, None, None]:
                         filter=chat_req.filter,
                         search_memory_type="All",
                         search_tool_memory=False,
-                        playground_search_goal_parser=False,
                     )
                     start_time = time.time()
                     search_response = self.search_handler.handle_search_memories(search_req)
@@ -532,8 +531,9 @@ def generate_chat_response() -> Generator[str, None, None]:
                     )
 
                     # Step 2: Build system prompt with memories
+                    lang = detect_lang(chat_req.query)
                     system_prompt = self._build_enhance_system_prompt(
-                        filtered_memories, pref_string
+                        filtered_memories, pref_string, lang=lang
                     )
 
                     # Prepare messages
@@ -550,50 +550,62 @@ def generate_chat_response() -> Generator[str, None, None]:
                     )
 
                     # Step 3: Generate streaming response from LLM
-                    model = next(iter(self.chat_llms.keys()))
-                    response_stream = self.chat_llms[model].generate_stream(
-                        current_messages, model_name_or_path=model
-                    )
-
-                    # Stream the response
-                    buffer = ""
-                    full_response = ""
-                    in_think = False
-
-                    for chunk in response_stream:
-                        if chunk == "<think>":
-                            in_think = True
-                            yield f"data: {json.dumps({'type': 'status', 'data': 'reasoning'})}\n\n"
-                            continue
-                        if chunk == "</think>":
-                            in_think = False
-                            yield f"data: {json.dumps({'type': 'status', 'data': '2'})}\n\n"
-                            continue
-
-                        if in_think:
-                            chunk_data = f"data: {json.dumps({'type': 'reasoning', 'data': chunk}, ensure_ascii=False)}\n\n"
-                            yield chunk_data
-                            continue
-
-                        buffer += chunk
-                        full_response += chunk
-
-                        # Process buffer to ensure complete reference tags
-                        processed_chunk, remaining_buffer = process_streaming_references_complete(
-                            buffer
+                    try:
+                        model = next(iter(self.chat_llms.keys()))
+                        response_stream = self.chat_llms[model].generate_stream(
+                            current_messages, model_name_or_path=model
                         )
 
-                        if processed_chunk:
-                            chunk_data = f"data: {json.dumps({'type': 'text', 'data': processed_chunk}, ensure_ascii=False)}\n\n"
-                            yield chunk_data
-                            buffer = remaining_buffer
-
-                    # Process any remaining buffer
-                    if buffer:
-                        processed_chunk, _ = process_streaming_references_complete(buffer)
-                        if processed_chunk:
-                            chunk_data = f"data: {json.dumps({'type': 'text', 'data': processed_chunk}, ensure_ascii=False)}\n\n"
-                            yield chunk_data
+                        # Stream the response
+                        buffer = ""
+                        full_response = ""
+                        in_think = False
+
+                        for chunk in response_stream:
+                            if chunk == "<think>":
+                                in_think = True
+                                yield f"data: {json.dumps({'type': 'status', 'data': 'reasoning'})}\n\n"
+                                continue
+                            if chunk == "</think>":
+                                in_think = False
+                                yield f"data: {json.dumps({'type': 'status', 'data': '2'})}\n\n"
+                                continue
+
+                            if in_think:
+                                chunk_data = f"data: {json.dumps({'type': 'reasoning', 'data': chunk}, ensure_ascii=False)}\n\n"
+                                yield chunk_data
+                                continue
+
+                            buffer += chunk
+                            full_response += chunk
+
+                            # Process buffer to ensure complete reference tags
+                            processed_chunk, remaining_buffer = (
+                                process_streaming_references_complete(buffer)
+                            )
+
+                            if processed_chunk:
+                                chunk_data = f"data: {json.dumps({'type': 'text', 'data': processed_chunk}, ensure_ascii=False)}\n\n"
+                                yield chunk_data
+                                buffer = remaining_buffer
+
+                        # Process any remaining buffer
+                        if buffer:
+                            processed_chunk, _ = process_streaming_references_complete(buffer)
+                            if processed_chunk:
+                                chunk_data = f"data: {json.dumps({'type': 'text', 'data': processed_chunk}, ensure_ascii=False)}\n\n"
+                                yield chunk_data
+
+                    except Exception as llm_error:
+                        # Log the error
+                        self.logger.error(
+                            f"Error during LLM generation: {llm_error}", exc_info=True
+                        )
+                        # Send error message to client
+                        error_msg = f"模型生成错误: {llm_error!s}"
+                        yield f"data: {json.dumps({'type': 'error', 'data': error_msg}, ensure_ascii=False)}\n\n"
+                        # Re-raise to let outer exception handler process it
+                        raise
 
                     if chat_req.internet_search or parsed_goal.internet_search:
                         # Yield internet reference after text response
@@ -766,6 +778,7 @@ def _build_enhance_system_prompt(
         self,
         memories_list: list,
         pref_string: str = "",
+        lang: str = "en",
         tone: str = "friendly",
         verbosity: str = "mid",
     ) -> str:
@@ -782,9 +795,9 @@ def _build_enhance_system_prompt(
             System prompt string
         """
         now = datetime.now()
-        formatted_date = now.strftime("%Y-%m-%d (%A)")
+        formatted_date = now.strftime("%Y-%m-%d %H:%M (%A)")
         sys_body = get_memos_prompt(
-            date=formatted_date, tone=tone, verbosity=verbosity, mode="enhance"
+            date=formatted_date, tone=tone, verbosity=verbosity, mode="enhance", lang=lang
         )
 
         # Format memories

diff --git a/src/memos/api/product_models.py b/src/memos/api/product_models.py
@@ -461,9 +461,6 @@ def _convert_deprecated_fields(self) -> "APISearchRequest":
 class APISearchPlaygroundRequest(APISearchRequest):
     """Request model for searching memories in playground."""
 
-    # TODO: tmp field for playground search goal parser, will be removed later
-    playground_search_goal_parser: bool = Field(False, description="Playground search goal parser")
-
 
 class APIADDRequest(BaseRequest):
     """Request model for creating memories."""

diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/bochasearch.py b/src/memos/memories/textual/tree_text_memory/retrieve/bochasearch.py
@@ -123,16 +123,6 @@ def _post(self, url: str, body: dict) -> list[dict]:
 class BochaAISearchRetriever:
     """BochaAI retriever that converts search results into TextualMemoryItem objects"""
 
-    @require_python_package(
-        import_name="rake_nltk",
-        install_command="pip install rake_nltk",
-        install_link="https://pypi.org/project/rake-nltk/",
-    )
-    @require_python_package(
-        import_name="nltk",
-        install_command="pip install nltk",
-        install_link="https://www.nltk.org/install.html",
-    )
     @require_python_package(
         import_name="jieba",
         install_command="pip install jieba",

diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/searcher.py b/src/memos/memories/textual/tree_text_memory/retrieve/searcher.py
@@ -227,8 +227,7 @@ def _parse_task(
         query_embedding = None
 
         # fine mode will trigger initial embedding search
-        # TODO: tmp "playground_search_goal_parser" for playground search goal parser, will be removed later
-        if mode == "fine_old" or kwargs.get("playground_search_goal_parser", False):
+        if mode == "fine_old":
             logger.info("[SEARCH] Fine mode: embedding search")
             query_embedding = self.embedder.embed([query])[0]
 
@@ -275,10 +274,6 @@ def _parse_task(
             **kwargs,
         )
 
-        # TODO: tmp field playground_search_goal_parser for playground, will be removed later
-        if kwargs.get("playground_search_goal_parser", False):
-            parsed_goal.internet_search = False
-
         query = parsed_goal.rephrased_query or query
         # if goal has extra memories, embed them too
         if parsed_goal.memories:

diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/task_goal_parser.py b/src/memos/memories/textual/tree_text_memory/retrieve/task_goal_parser.py
@@ -39,9 +39,6 @@ def parse(
         - mode == 'fast': use jieba to split words only
         - mode == 'fine': use LLM to parse structured topic/keys/tags
         """
-        # TODO: tmp mode for playground search goal parser, will be removed later
-        if kwargs.get("playground_search_goal_parser", False):
-            mode = "fine"
 
         if mode == "fast":
             return self._parse_fast(task_description, context=context, **kwargs)

diff --git a/src/memos/multi_mem_cube/single_cube.py b/src/memos/multi_mem_cube/single_cube.py
@@ -444,10 +444,6 @@ def _fast_search(
             plugin=plugin,
             search_tool_memory=search_req.search_tool_memory,
             tool_mem_top_k=search_req.tool_mem_top_k,
-            # TODO: tmp field for playground search goal parser, will be removed later
-            playground_search_goal_parser=search_req.playground_search_goal_parser
-            if hasattr(search_req, "playground_search_goal_parser")
-            else False,
         )
 
         formatted_memories = [format_memory_item(data) for data in search_results]