From 68f74aecde2044f3e98a28561fe7bc099340a120 Mon Sep 17 00:00:00 2001
From: Daniel <danieltu.life@gmail.com>
Date: Sat, 29 Nov 2025 21:17:49 -0800
Subject: [PATCH 01/11] prototype

---
 native/spark-expr/src/comet_scalar_funcs.rs   |   4 +-
 native/spark-expr/src/string_funcs/mod.rs     |   2 +
 .../src/string_funcs/regexp_extract.rs        | 401 ++++++++++++++++++
 .../apache/comet/serde/QueryPlanSerde.scala   |   2 +
 .../org/apache/comet/serde/strings.scala      | 100 ++++-
 .../comet/CometStringExpressionSuite.scala    | 122 ++++++
 6 files changed, 629 insertions(+), 2 deletions(-)
 create mode 100644 native/spark-expr/src/string_funcs/regexp_extract.rs
diff --git a/native/spark-expr/src/comet_scalar_funcs.rs b/native/spark-expr/src/comet_scalar_funcs.rs
index 021bb1c78f..45b4ca8aad 100644
--- a/native/spark-expr/src/comet_scalar_funcs.rs
+++ b/native/spark-expr/src/comet_scalar_funcs.rs
@@ -23,7 +23,7 @@ use crate::{
     spark_array_repeat, spark_ceil, spark_decimal_div, spark_decimal_integral_div, spark_floor,
     spark_hex, spark_isnan, spark_lpad, spark_make_decimal, spark_read_side_padding, spark_round,
     spark_rpad, spark_unhex, spark_unscaled_value, EvalMode, SparkBitwiseCount, SparkBitwiseNot,
-    SparkDateTrunc, SparkStringSpace,
+    SparkDateTrunc, SparkRegExpExtract, SparkRegExpExtractAll, SparkStringSpace,
 };
 use arrow::datatypes::DataType;
 use datafusion::common::{DataFusionError, Result as DataFusionResult};
@@ -199,6 +199,8 @@ fn all_scalar_functions() -> Vec<Arc<ScalarUDF>> {
         Arc::new(ScalarUDF::new_from_impl(SparkBitwiseCount::default())),
         Arc::new(ScalarUDF::new_from_impl(SparkDateTrunc::default())),
         Arc::new(ScalarUDF::new_from_impl(SparkStringSpace::default())),
+        Arc::new(ScalarUDF::new_from_impl(SparkRegExpExtract::default())),
+        Arc::new(ScalarUDF::new_from_impl(SparkRegExpExtractAll::default())),
     ]
 }
 
diff --git a/native/spark-expr/src/string_funcs/mod.rs b/native/spark-expr/src/string_funcs/mod.rs
index aac8204e29..2026ec5fec 100644
--- a/native/spark-expr/src/string_funcs/mod.rs
+++ b/native/spark-expr/src/string_funcs/mod.rs
@@ -15,8 +15,10 @@
 // specific language governing permissions and limitations
 // under the License.
 
+mod regexp_extract;
 mod string_space;
 mod substring;
 
+pub use regexp_extract::{SparkRegExpExtract, SparkRegExpExtractAll};
 pub use string_space::SparkStringSpace;
 pub use substring::SubstringExpr;
diff --git a/native/spark-expr/src/string_funcs/regexp_extract.rs b/native/spark-expr/src/string_funcs/regexp_extract.rs
new file mode 100644
index 0000000000..2a9ce6b82c
--- /dev/null
+++ b/native/spark-expr/src/string_funcs/regexp_extract.rs
@@ -0,0 +1,401 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+use arrow::array::{Array, ArrayRef, GenericStringArray};
+use arrow::datatypes::DataType;
+use datafusion::common::{exec_err, internal_datafusion_err, Result, ScalarValue};
+use datafusion::logical_expr::{
+    ColumnarValue, ScalarFunctionArgs, ScalarUDFImpl, Signature, Volatility,
+};
+use regex::Regex;
+use std::sync::Arc;
+use std::any::Any;
+
+/// Spark-compatible regexp_extract function
+#[derive(Debug, PartialEq, Eq, Hash)]
+pub struct SparkRegExpExtract {
+    signature: Signature,
+    aliases: Vec<String>,
+}
+
+impl Default for SparkRegExpExtract {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+
+impl SparkRegExpExtract {
+    pub fn new() -> Self {
+        Self {
+            signature: Signature::user_defined(Volatility::Immutable),
+            aliases: vec![],
+        }
+    }
+}
+
+impl ScalarUDFImpl for SparkRegExpExtract {
+    fn as_any(&self) -> &dyn Any {
+        self
+    }
+
+    fn name(&self) -> &str {
+        "regexp_extract"
+    }
+
+    fn signature(&self) -> &Signature {
+        &self.signature
+    }
+
+    fn return_type(&self, _arg_types: &[DataType]) -> Result<DataType> {
+        // regexp_extract always returns String
+        Ok(DataType::Utf8)
+    }
+
+    fn invoke_with_args(&self, args: ScalarFunctionArgs) -> Result<ColumnarValue> {
+        // regexp_extract(subject, pattern, idx)
+        if args.args.len() != 3 {
+            return exec_err!(
+                "regexp_extract expects 3 arguments, got {}",
+                args.args.len()
+            );
+        }
+
+        let subject = &args.args[0];
+        let pattern = &args.args[1];
+        let idx = &args.args[2];
+
+        // Pattern must be a literal string
+        let pattern_str = match pattern {
+            ColumnarValue::Scalar(ScalarValue::Utf8(Some(s))) => s.clone(),
+            _ => {
+                return exec_err!("regexp_extract pattern must be a string literal");
+            }
+        };
+
+        // idx must be a literal int
+        let idx_val = match idx {
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(i))) => *i as usize,
+            _ => {
+                return exec_err!("regexp_extract idx must be an integer literal");
+            }
+        };
+
+        // Compile regex once
+        let regex = Regex::new(&pattern_str).map_err(|e| {
+            internal_datafusion_err!("Invalid regex pattern '{}': {}", pattern_str, e)
+        })?;
+
+        match subject {
+            ColumnarValue::Array(array) => {
+                let result = regexp_extract_array(array, &regex, idx_val)?;
+                Ok(ColumnarValue::Array(result))
+            }
+            ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
+                let result = match s {
+                    Some(text) => Some(extract_group(text, &regex, idx_val)),
+                    None => None,  // NULL input → NULL output
+                };
+                Ok(ColumnarValue::Scalar(ScalarValue::Utf8(result)))
+            }
+            _ => exec_err!("regexp_extract expects string input"),
+        }
+    }
+
+    fn aliases(&self) -> &[String] {
+        &self.aliases
+    }
+}
+
+/// Spark-compatible regexp_extract_all function
+#[derive(Debug, PartialEq, Eq, Hash)]
+pub struct SparkRegExpExtractAll {
+    signature: Signature,
+    aliases: Vec<String>,
+}
+
+impl Default for SparkRegExpExtractAll {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+
+impl SparkRegExpExtractAll {
+    pub fn new() -> Self {
+        Self {
+            signature: Signature::user_defined(Volatility::Immutable),
+            aliases: vec![],
+        }
+    }
+}
+
+impl ScalarUDFImpl for SparkRegExpExtractAll {
+    fn as_any(&self) -> &dyn Any {
+        self
+    }
+
+    fn name(&self) -> &str {
+        "regexp_extract_all"
+    }
+
+    fn signature(&self) -> &Signature {
+        &self.signature
+    }
+
+    fn return_type(&self, _arg_types: &[DataType]) -> Result<DataType> {
+        // regexp_extract_all returns Array<String>
+        Ok(DataType::List(Arc::new(
+            arrow::datatypes::Field::new("item", DataType::Utf8, true),
+        )))
+    }
+
+    fn invoke_with_args(&self, args: ScalarFunctionArgs) -> Result<ColumnarValue> {
+        // regexp_extract_all(subject, pattern) or regexp_extract_all(subject, pattern, idx)
+        if args.args.len() < 2 || args.args.len() > 3 {
+            return exec_err!(
+                "regexp_extract_all expects 2 or 3 arguments, got {}",
+                args.args.len()
+            );
+        }
+
+        let subject = &args.args[0];
+        let pattern = &args.args[1];
+        let idx_val = if args.args.len() == 3 {
+            match &args.args[2] {
+                ColumnarValue::Scalar(ScalarValue::Int32(Some(i))) => *i as usize,
+                _ => {
+                    return exec_err!("regexp_extract_all idx must be an integer literal");
+                }
+            }
+        } else {
+            0 // default to group 0 (entire match)
+        };
+
+        // Pattern must be a literal string
+        let pattern_str = match pattern {
+            ColumnarValue::Scalar(ScalarValue::Utf8(Some(s))) => s.clone(),
+            _ => {
+                return exec_err!("regexp_extract_all pattern must be a string literal");
+            }
+        };
+
+        // Compile regex once
+        let regex = Regex::new(&pattern_str).map_err(|e| {
+            internal_datafusion_err!("Invalid regex pattern '{}': {}", pattern_str, e)
+        })?;
+
+        match subject {
+            ColumnarValue::Array(array) => {
+                let result = regexp_extract_all_array(array, &regex, idx_val)?;
+                Ok(ColumnarValue::Array(result))
+            }
+            ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
+                match s {
+                    Some(text) => {
+                        let matches = extract_all_groups(text, &regex, idx_val);
+                        // Build a list array with a single element
+                        let mut list_builder =
+                            arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
+                        for m in matches {
+                            list_builder.values().append_value(m);
+                        }
+                        list_builder.append(true);
+                        let list_array = list_builder.finish();
+                        
+                        Ok(ColumnarValue::Scalar(ScalarValue::List(
+                            Arc::new(list_array),
+                        )))
+                    }
+                    None => {
+                        // Return NULL list using try_into (same as planner.rs:424)
+                        let null_list: ScalarValue = DataType::List(Arc::new(
+                            arrow::datatypes::Field::new("item", DataType::Utf8, true)
+                        )).try_into()?;
+                        Ok(ColumnarValue::Scalar(null_list))
+                    }
+                }
+            }
+            _ => exec_err!("regexp_extract_all expects string input"),
+        }
+    }
+
+    fn aliases(&self) -> &[String] {
+        &self.aliases
+    }
+}
+
+// Helper functions
+
+fn extract_group(text: &str, regex: &Regex, idx: usize) -> String {
+    regex
+        .captures(text)
+        .and_then(|caps| caps.get(idx))
+        .map(|m| m.as_str().to_string())
+        // Spark behavior: return empty string "" if no match or group not found
+        .unwrap_or_else(|| String::new())
+}
+
+fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<ArrayRef> {
+    let string_array = array
+        .as_any()
+        .downcast_ref::<GenericStringArray<i32>>()
+        .ok_or_else(|| {
+            internal_datafusion_err!("regexp_extract expects string array input")
+        })?;
+
+    let result: GenericStringArray<i32> = string_array
+        .iter()
+        .map(|s| s.map(|text| extract_group(text, regex, idx)))  // NULL → None, non-NULL → Some("")
+        .collect();
+
+    Ok(Arc::new(result))
+}
+
+fn extract_all_groups(text: &str, regex: &Regex, idx: usize) -> Vec<String> {
+    regex
+        .captures_iter(text)
+        .filter_map(|caps| caps.get(idx).map(|m| m.as_str().to_string()))
+        .collect()
+}
+
+fn regexp_extract_all_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<ArrayRef> {
+    let string_array = array
+        .as_any()
+        .downcast_ref::<GenericStringArray<i32>>()
+        .ok_or_else(|| {
+            internal_datafusion_err!("regexp_extract_all expects string array input")
+        })?;
+
+    let mut list_builder =
+        arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
+
+    for s in string_array.iter() {
+        match s {
+            Some(text) => {
+                let matches = extract_all_groups(text, regex, idx);
+                for m in matches {
+                    list_builder.values().append_value(m);
+                }
+                list_builder.append(true);
+            }
+            None => {
+                list_builder.append(false);
+            }
+        }
+    }
+
+    Ok(Arc::new(list_builder.finish()))
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use arrow::array::StringArray;
+
+    #[test]
+    fn test_regexp_extract_basic() {
+        let regex = Regex::new(r"(\d+)-(\w+)").unwrap();
+
+        // Spark behavior: return "" on no match, not None
+        assert_eq!(extract_group("123-abc", &regex, 0), "123-abc");
+        assert_eq!(extract_group("123-abc", &regex, 1), "123");
+        assert_eq!(extract_group("123-abc", &regex, 2), "abc");
+        assert_eq!(extract_group("123-abc", &regex, 3), "");  // no such group → ""
+        assert_eq!(extract_group("no match", &regex, 0), "");  // no match → ""
+    }
+
+    #[test]
+    fn test_regexp_extract_all_basic() {
+        let regex = Regex::new(r"(\d+)").unwrap();
+
+        // Multiple matches
+        let matches = extract_all_groups("a1b2c3", &regex, 0);
+        assert_eq!(matches, vec!["1", "2", "3"]);
+
+        // Same with group index 1
+        let matches = extract_all_groups("a1b2c3", &regex, 1);
+        assert_eq!(matches, vec!["1", "2", "3"]);
+
+        // No match
+        let matches = extract_all_groups("no digits", &regex, 0);
+        assert!(matches.is_empty());
+        assert_eq!(matches, Vec::<String>::new());
+    }
+    
+    #[test]
+    fn test_regexp_extract_all_array() -> Result<()> {
+        use datafusion::common::cast::as_list_array;
+        
+        let regex = Regex::new(r"(\d+)").unwrap();
+        let array = Arc::new(StringArray::from(vec![
+            Some("a1b2"),
+            Some("no digits"),
+            None,
+            Some("c3d4e5"),
+        ])) as ArrayRef;
+
+        let result = regexp_extract_all_array(&array, &regex, 0)?;
+        let list_array = as_list_array(&result)?;
+
+        // Row 0: "a1b2" → ["1", "2"]
+        let row0 = list_array.value(0);
+        let row0_str = row0.as_any().downcast_ref::<GenericStringArray<i32>>().unwrap();
+        assert_eq!(row0_str.len(), 2);
+        assert_eq!(row0_str.value(0), "1");
+        assert_eq!(row0_str.value(1), "2");
+
+        // Row 1: "no digits" → [] (empty array, not NULL)
+        let row1 = list_array.value(1);
+        let row1_str = row1.as_any().downcast_ref::<GenericStringArray<i32>>().unwrap();
+        assert_eq!(row1_str.len(), 0);  // Empty array
+        assert!(!list_array.is_null(1));  // Not NULL, just empty
+
+        // Row 2: NULL input → NULL output
+        assert!(list_array.is_null(2));
+
+        // Row 3: "c3d4e5" → ["3", "4", "5"]
+        let row3 = list_array.value(3);
+        let row3_str = row3.as_any().downcast_ref::<GenericStringArray<i32>>().unwrap();
+        assert_eq!(row3_str.len(), 3);
+        assert_eq!(row3_str.value(0), "3");
+        assert_eq!(row3_str.value(1), "4");
+        assert_eq!(row3_str.value(2), "5");
+
+        Ok(())
+    }
+
+    #[test]
+    fn test_regexp_extract_array() -> Result<()> {
+        let regex = Regex::new(r"(\d+)-(\w+)").unwrap();
+        let array = Arc::new(StringArray::from(vec![
+            Some("123-abc"),
+            Some("456-def"),
+            None,
+            Some("no-match"),
+        ])) as ArrayRef;
+
+        let result = regexp_extract_array(&array, &regex, 1)?;
+        let result_array = result.as_any().downcast_ref::<StringArray>().unwrap();
+
+        assert_eq!(result_array.value(0), "123");
+        assert_eq!(result_array.value(1), "456");
+        assert!(result_array.is_null(2));  // NULL input → NULL output
+        assert_eq!(result_array.value(3), "");  // no match → "" (empty string)
+
+        Ok(())
+    }
+}
+
diff --git a/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala b/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
index 54df2f1688..d18e84ffab 100644
--- a/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
@@ -153,6 +153,8 @@ object QueryPlanSerde extends Logging with CometExprShim {
     classOf[Like] -> CometLike,
     classOf[Lower] -> CometLower,
     classOf[OctetLength] -> CometScalarFunction("octet_length"),
+    classOf[RegExpExtract] -> CometRegExpExtract,
+    classOf[RegExpExtractAll] -> CometRegExpExtractAll,
     classOf[RegExpReplace] -> CometRegExpReplace,
     classOf[Reverse] -> CometReverse,
     classOf[RLike] -> CometRLike,
diff --git a/spark/src/main/scala/org/apache/comet/serde/strings.scala b/spark/src/main/scala/org/apache/comet/serde/strings.scala
index 15f4b238f2..0756615bd2 100644
--- a/spark/src/main/scala/org/apache/comet/serde/strings.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/strings.scala
@@ -21,7 +21,7 @@ package org.apache.comet.serde
 
 import java.util.Locale
 
-import org.apache.spark.sql.catalyst.expressions.{Attribute, Cast, Concat, Expression, InitCap, Length, Like, Literal, Lower, RegExpReplace, RLike, StringLPad, StringRepeat, StringRPad, Substring, Upper}
+import org.apache.spark.sql.catalyst.expressions.{Attribute, Cast, Concat, Expression, InitCap, Length, Like, Literal, Lower, RegExpReplace, RegExpExtract, RegExpExtractAll, RLike, StringLPad, StringRepeat, StringRPad, Substring, Upper}
 import org.apache.spark.sql.types.{BinaryType, DataTypes, LongType, StringType}
 
 import org.apache.comet.CometConf
@@ -286,3 +286,101 @@ trait CommonStringExprs {
     }
   }
 }
+
+object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
+  override def getSupportLevel(expr: RegExpExtract): SupportLevel = {
+    // Check if the pattern is compatible with Spark
+    expr.regexp match {
+      case Literal(pattern, DataTypes.StringType) =>
+        if (!RegExp.isSupportedPattern(pattern.toString) &&
+          !CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.get()) {
+          withInfo(
+            expr,
+            s"Regexp pattern $pattern is not compatible with Spark. " +
+              s"Set ${CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key}=true " +
+              "to allow it anyway.")
+          return Incompatible()
+        }
+      case _ =>
+        // Pattern must be a literal
+        return Unsupported(Some("Only literal regexp patterns are supported"))
+    }
+    
+    // Check if idx is a literal
+    expr.idx match {
+      case Literal(_, DataTypes.IntegerType) => Compatible()
+      case _ =>
+        Unsupported(Some("Only literal group index is supported"))
+    }
+  }
+
+  override def convert(
+      expr: RegExpExtract,
+      inputs: Seq[Attribute],
+      binding: Boolean): Option[Expr] = {
+    val subjectExpr = exprToProtoInternal(expr.subject, inputs, binding)
+    val patternExpr = exprToProtoInternal(expr.regexp, inputs, binding)
+    val idxExpr = exprToProtoInternal(expr.idx, inputs, binding)
+    
+    val optExpr = scalarFunctionExprToProto(
+      "regexp_extract",
+      subjectExpr,
+      patternExpr,
+      idxExpr)
+    optExprWithInfo(optExpr, expr, expr.subject, expr.regexp, expr.idx)
+  }
+}
+
+object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
+  override def getSupportLevel(expr: RegExpExtractAll): SupportLevel = {
+    // Check if the pattern is compatible with Spark
+    expr.regexp match {
+      case Literal(pattern, DataTypes.StringType) =>
+        if (!RegExp.isSupportedPattern(pattern.toString) &&
+          !CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.get()) {
+          withInfo(
+            expr,
+            s"Regexp pattern $pattern is not compatible with Spark. " +
+              s"Set ${CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key}=true " +
+              "to allow it anyway.")
+          return Incompatible()
+        }
+      case _ =>
+        // Pattern must be a literal
+        return Unsupported(Some("Only literal regexp patterns are supported"))
+    }
+    
+    // Check if idx is a literal if exists
+    if (expr.idx.isDefined) {
+      expr.idx.get match {
+        case Literal(_, DataTypes.IntegerType) => Compatible()
+        case _ => return Unsupported(Some("Only literal group index is supported"))
+      }
+    }
+  }
+  
+  override def convert(expr: RegExpExtractAll, inputs: Seq[Attribute], binding: Boolean): Option[Expr] = {
+    val subjectExpr = exprToProtoInternal(expr.subject, inputs, binding)
+    val patternExpr = exprToProtoInternal(expr.regexp, inputs, binding)
+    
+    val optExpr = if (expr.idx.isDefined) {
+      val idxExpr = exprToProtoInternal(expr.idx.get, inputs, binding)
+      scalarFunctionExprToProto(
+        "regexp_extract_all",
+        subjectExpr,
+        patternExpr,
+        idxExpr)
+    } else {
+      scalarFunctionExprToProto(
+        "regexp_extract_all",
+        subjectExpr,
+        patternExpr)
+    }
+    
+    if (expr.idx.isDefined) {
+      optExprWithInfo(optExpr, expr, expr.subject, expr.regexp, expr.idx.get)
+    } else {
+      optExprWithInfo(optExpr, expr, expr.subject, expr.regexp)
+    }
+  }
+}
\ No newline at end of file
diff --git a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
index f9882780c8..ffa609b8f1 100644
--- a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
@@ -391,4 +391,126 @@ class CometStringExpressionSuite extends CometTestBase {
     }
   }
 
+  test("regexp_extract basic") {
+    import org.apache.comet.CometConf
+    
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("100-200", 1),
+        ("300-400", 1),
+        (null, 1),  // NULL input
+        ("no-match", 1),  // no match → should return ""
+        ("abc123def456", 1),
+        ("", 1)  // empty string
+      )
+      
+      withParquetTable(data, "tbl") {
+        // Test basic extraction: group 0 (full match)
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 0) FROM tbl")
+        // Test group 1
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 1) FROM tbl")
+        // Test group 2
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 2) FROM tbl")
+        // Test non-existent group → should return ""
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 3) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract edge cases") {
+    import org.apache.comet.CometConf
+    
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("email@example.com", 1),
+        ("phone: 123-456-7890", 1),
+        ("price: $99.99", 1),
+        (null, 1)
+      )
+      
+      withParquetTable(data, "tbl") {
+        // Extract email domain
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '@([^.]+)', 1) FROM tbl")
+        // Extract phone number
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d{3}-\\d{3}-\\d{4})', 1) FROM tbl")
+        // Extract price
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '\\$(\\d+\\.\\d+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all basic") {
+    import org.apache.comet.CometConf
+    
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("a1b2c3", 1),
+        ("test123test456", 1),
+        (null, 1),  // NULL input
+        ("no digits", 1),  // no match → should return []
+        ("", 1)  // empty string
+      )
+      
+      withParquetTable(data, "tbl") {
+        // Test default (group 0)
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '\\d+') FROM tbl")
+        // Test with explicit group 0
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '(\\d+)', 0) FROM tbl")
+        // Test group 1
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all multiple matches") {
+    import org.apache.comet.CometConf
+    
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("The prices are $10, $20, and $30", 1),
+        ("colors: red, green, blue", 1),
+        ("words: hello world", 1),
+        (null, 1)
+      )
+      
+      withParquetTable(data, "tbl") {
+        // Extract all prices
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '\\$(\\d+)', 1) FROM tbl")
+        // Extract all words
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z]+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all with dictionary encoding") {
+    import org.apache.comet.CometConf
+    
+    withSQLConf(
+      CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
+      "parquet.enable.dictionary" -> "true") {
+      // Use repeated values to trigger dictionary encoding
+      val data = (0 until 1000).map(i => {
+        val text = if (i % 3 == 0) "a1b2c3" else if (i % 3 == 1) "x5y6" else "no-match"
+        (text, 1)
+      })
+      
+      withParquetTable(data, "tbl") {
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '\\d+') FROM tbl")
+      }
+    }
+  }
+
 }

From 4dbed777f3285af2d7a6c9e3cbc6e6ac1d84d5ed Mon Sep 17 00:00:00 2001
From: Daniel <danieltu.life@gmail.com>
Date: Sat, 29 Nov 2025 22:09:39 -0800
Subject: [PATCH 02/11] refactor strings.scala

---
 .../org/apache/comet/serde/strings.scala      | 65 ++++++++-----------
 1 file changed, 27 insertions(+), 38 deletions(-)

diff --git a/spark/src/main/scala/org/apache/comet/serde/strings.scala b/spark/src/main/scala/org/apache/comet/serde/strings.scala
index 0756615bd2..a4124048ae 100644
--- a/spark/src/main/scala/org/apache/comet/serde/strings.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/strings.scala
@@ -21,7 +21,7 @@ package org.apache.comet.serde
 
 import java.util.Locale
 
-import org.apache.spark.sql.catalyst.expressions.{Attribute, Cast, Concat, Expression, InitCap, Length, Like, Literal, Lower, RegExpReplace, RegExpExtract, RegExpExtractAll, RLike, StringLPad, StringRepeat, StringRPad, Substring, Upper}
+import org.apache.spark.sql.catalyst.expressions.{Attribute, Cast, Concat, Expression, InitCap, Length, Like, Literal, Lower, RegExpExtract, RegExpExtractAll, RegExpReplace, RLike, StringLPad, StringRepeat, StringRPad, Substring, Upper}
 import org.apache.spark.sql.types.{BinaryType, DataTypes, LongType, StringType}
 
 import org.apache.comet.CometConf
@@ -289,7 +289,7 @@ trait CommonStringExprs {
 
 object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
   override def getSupportLevel(expr: RegExpExtract): SupportLevel = {
-    // Check if the pattern is compatible with Spark
+    // Check if the pattern is compatible with Spark or allow incompatible patterns
     expr.regexp match {
       case Literal(pattern, DataTypes.StringType) =>
         if (!RegExp.isSupportedPattern(pattern.toString) &&
@@ -302,13 +302,13 @@ object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
           return Incompatible()
         }
       case _ =>
-        // Pattern must be a literal
         return Unsupported(Some("Only literal regexp patterns are supported"))
     }
-    
+
     // Check if idx is a literal
     expr.idx match {
-      case Literal(_, DataTypes.IntegerType) => Compatible()
+      case Literal(_, DataTypes.IntegerType) =>
+        Compatible()
       case _ =>
         Unsupported(Some("Only literal group index is supported"))
     }
@@ -321,7 +321,6 @@ object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
     val subjectExpr = exprToProtoInternal(expr.subject, inputs, binding)
     val patternExpr = exprToProtoInternal(expr.regexp, inputs, binding)
     val idxExpr = exprToProtoInternal(expr.idx, inputs, binding)
-    
     val optExpr = scalarFunctionExprToProto(
       "regexp_extract",
       subjectExpr,
@@ -333,7 +332,7 @@ object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
 
 object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
   override def getSupportLevel(expr: RegExpExtractAll): SupportLevel = {
-    // Check if the pattern is compatible with Spark
+    // Check if the pattern is compatible with Spark or allow incompatible patterns
     expr.regexp match {
       case Literal(pattern, DataTypes.StringType) =>
         if (!RegExp.isSupportedPattern(pattern.toString) &&
@@ -346,41 +345,31 @@ object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
           return Incompatible()
         }
       case _ =>
-        // Pattern must be a literal
         return Unsupported(Some("Only literal regexp patterns are supported"))
     }
-    
-    // Check if idx is a literal if exists
-    if (expr.idx.isDefined) {
-      expr.idx.get match {
-        case Literal(_, DataTypes.IntegerType) => Compatible()
-        case _ => return Unsupported(Some("Only literal group index is supported"))
-      }
+
+    // Check if idx is a literal
+    // For regexp_extract_all, idx will be default to 1 if not specified
+    expr.idx match {
+      case Literal(_, DataTypes.IntegerType) =>
+        Compatible()
+      case _ =>
+        Unsupported(Some("Only literal group index is supported"))
     }
   }
-  
-  override def convert(expr: RegExpExtractAll, inputs: Seq[Attribute], binding: Boolean): Option[Expr] = {
+  override def convert(
+      expr: RegExpExtractAll,
+      inputs: Seq[Attribute],
+      binding: Boolean): Option[Expr] = {
+    // Check if the pattern is compatible with Spark or allow incompatible patterns
     val subjectExpr = exprToProtoInternal(expr.subject, inputs, binding)
     val patternExpr = exprToProtoInternal(expr.regexp, inputs, binding)
-    
-    val optExpr = if (expr.idx.isDefined) {
-      val idxExpr = exprToProtoInternal(expr.idx.get, inputs, binding)
-      scalarFunctionExprToProto(
-        "regexp_extract_all",
-        subjectExpr,
-        patternExpr,
-        idxExpr)
-    } else {
-      scalarFunctionExprToProto(
-        "regexp_extract_all",
-        subjectExpr,
-        patternExpr)
-    }
-    
-    if (expr.idx.isDefined) {
-      optExprWithInfo(optExpr, expr, expr.subject, expr.regexp, expr.idx.get)
-    } else {
-      optExprWithInfo(optExpr, expr, expr.subject, expr.regexp)
-    }
+    val idxExpr = exprToProtoInternal(expr.idx, inputs, binding)
+    val optExpr = scalarFunctionExprToProto(
+      "regexp_extract_all",
+      subjectExpr,
+      patternExpr,
+      idxExpr)
+    optExprWithInfo(optExpr, expr, expr.subject, expr.regexp, expr.idx)
   }
-}
\ No newline at end of file
+}

From f1013628ea975c3bf8ec7fc1f2eefb412482fbaf Mon Sep 17 00:00:00 2001
From: Daniel Tu <danieltu.life@gmail.com>
Date: Sun, 30 Nov 2025 21:35:49 -0800
Subject: [PATCH 03/11] test, format and configs

---
 docs/source/user-guide/latest/configs.md      |  2 +
 .../org/apache/comet/serde/strings.scala      | 15 +---
 .../comet/CometStringExpressionSuite.scala    | 90 +++++++++----------
 3 files changed, 47 insertions(+), 60 deletions(-)

diff --git a/docs/source/user-guide/latest/configs.md b/docs/source/user-guide/latest/configs.md
index a1c3212c20..f5638d5cf4 100644
--- a/docs/source/user-guide/latest/configs.md
+++ b/docs/source/user-guide/latest/configs.md
@@ -291,6 +291,8 @@ These settings can be used to determine which parts of the plan are accelerated
 | `spark.comet.expression.RLike.enabled` | Enable Comet acceleration for `RLike` | true |
 | `spark.comet.expression.Rand.enabled` | Enable Comet acceleration for `Rand` | true |
 | `spark.comet.expression.Randn.enabled` | Enable Comet acceleration for `Randn` | true |
+| `spark.comet.expression.RegExpExtract.enabled` | Enable Comet acceleration for `RegExpExtract` | true |
+| `spark.comet.expression.RegExpExtractAll.enabled` | Enable Comet acceleration for `RegExpExtractAll` | true |
 | `spark.comet.expression.RegExpReplace.enabled` | Enable Comet acceleration for `RegExpReplace` | true |
 | `spark.comet.expression.Remainder.enabled` | Enable Comet acceleration for `Remainder` | true |
 | `spark.comet.expression.Reverse.enabled` | Enable Comet acceleration for `Reverse` | true |
diff --git a/spark/src/main/scala/org/apache/comet/serde/strings.scala b/spark/src/main/scala/org/apache/comet/serde/strings.scala
index a4124048ae..733c25ec2b 100644
--- a/spark/src/main/scala/org/apache/comet/serde/strings.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/strings.scala
@@ -321,11 +321,7 @@ object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
     val subjectExpr = exprToProtoInternal(expr.subject, inputs, binding)
     val patternExpr = exprToProtoInternal(expr.regexp, inputs, binding)
     val idxExpr = exprToProtoInternal(expr.idx, inputs, binding)
-    val optExpr = scalarFunctionExprToProto(
-      "regexp_extract",
-      subjectExpr,
-      patternExpr,
-      idxExpr)
+    val optExpr = scalarFunctionExprToProto("regexp_extract", subjectExpr, patternExpr, idxExpr)
     optExprWithInfo(optExpr, expr, expr.subject, expr.regexp, expr.idx)
   }
 }
@@ -349,7 +345,7 @@ object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
     }
 
     // Check if idx is a literal
-    // For regexp_extract_all, idx will be default to 1 if not specified
+    // For regexp_extract_all, idx will default to 0 (group 0, entire match) if not specified
     expr.idx match {
       case Literal(_, DataTypes.IntegerType) =>
         Compatible()
@@ -365,11 +361,8 @@ object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
     val subjectExpr = exprToProtoInternal(expr.subject, inputs, binding)
     val patternExpr = exprToProtoInternal(expr.regexp, inputs, binding)
     val idxExpr = exprToProtoInternal(expr.idx, inputs, binding)
-    val optExpr = scalarFunctionExprToProto(
-      "regexp_extract_all",
-      subjectExpr,
-      patternExpr,
-      idxExpr)
+    val optExpr =
+      scalarFunctionExprToProto("regexp_extract_all", subjectExpr, patternExpr, idxExpr)
     optExprWithInfo(optExpr, expr, expr.subject, expr.regexp, expr.idx)
   }
 }
diff --git a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
index ffa609b8f1..5214eb8215 100644
--- a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
@@ -393,110 +393,102 @@ class CometStringExpressionSuite extends CometTestBase {
 
   test("regexp_extract basic") {
     import org.apache.comet.CometConf
-    
+
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
       val data = Seq(
         ("100-200", 1),
         ("300-400", 1),
-        (null, 1),  // NULL input
-        ("no-match", 1),  // no match → should return ""
+        (null, 1), // NULL input
+        ("no-match", 1), // no match → should return ""
         ("abc123def456", 1),
-        ("", 1)  // empty string
+        ("", 1) // empty string
       )
-      
+
       withParquetTable(data, "tbl") {
         // Test basic extraction: group 0 (full match)
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 0) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 0) FROM tbl")
         // Test group 1
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 1) FROM tbl")
         // Test group 2
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 2) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 2) FROM tbl")
         // Test non-existent group → should return ""
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 3) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 3) FROM tbl")
+        // Test empty pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '', 0) FROM tbl")
+        // Test null pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, NULL, 0) FROM tbl")
       }
     }
   }
 
   test("regexp_extract edge cases") {
     import org.apache.comet.CometConf
-    
+
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(
-        ("email@example.com", 1),
-        ("phone: 123-456-7890", 1),
-        ("price: $99.99", 1),
-        (null, 1)
-      )
-      
+      val data =
+        Seq(("email@example.com", 1), ("phone: 123-456-7890", 1), ("price: $99.99", 1), (null, 1))
+
       withParquetTable(data, "tbl") {
         // Extract email domain
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '@([^.]+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '@([^.]+)', 1) FROM tbl")
         // Extract phone number
         checkSparkAnswerAndOperator(
           "SELECT regexp_extract(_1, '(\\d{3}-\\d{3}-\\d{4})', 1) FROM tbl")
         // Extract price
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '\\$(\\d+\\.\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '\\$(\\d+\\.\\d+)', 1) FROM tbl")
       }
     }
   }
 
   test("regexp_extract_all basic") {
     import org.apache.comet.CometConf
-    
+
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
       val data = Seq(
         ("a1b2c3", 1),
         ("test123test456", 1),
-        (null, 1),  // NULL input
-        ("no digits", 1),  // no match → should return []
-        ("", 1)  // empty string
+        (null, 1), // NULL input
+        ("no digits", 1), // no match → should return []
+        ("", 1) // empty string
       )
-      
+
       withParquetTable(data, "tbl") {
-        // Test default (group 0)
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '\\d+') FROM tbl")
+        // Test with explicit group 0 (full match on no-group pattern)
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+', 0) FROM tbl")
         // Test with explicit group 0
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '(\\d+)', 0) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 0) FROM tbl")
         // Test group 1
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
+        // Test empty pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '', 0) FROM tbl")
+        // Test null pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, NULL, 0) FROM tbl")
       }
     }
   }
 
   test("regexp_extract_all multiple matches") {
     import org.apache.comet.CometConf
-    
+
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
       val data = Seq(
         ("The prices are $10, $20, and $30", 1),
         ("colors: red, green, blue", 1),
         ("words: hello world", 1),
-        (null, 1)
-      )
-      
+        (null, 1))
+
       withParquetTable(data, "tbl") {
         // Extract all prices
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '\\$(\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\$(\\d+)', 1) FROM tbl")
         // Extract all words
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '([a-z]+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z]+)', 1) FROM tbl")
       }
     }
   }
 
   test("regexp_extract_all with dictionary encoding") {
     import org.apache.comet.CometConf
-    
+
     withSQLConf(
       CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
       "parquet.enable.dictionary" -> "true") {
@@ -505,10 +497,10 @@ class CometStringExpressionSuite extends CometTestBase {
         val text = if (i % 3 == 0) "a1b2c3" else if (i % 3 == 1) "x5y6" else "no-match"
         (text, 1)
       })
-      
+
       withParquetTable(data, "tbl") {
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '\\d+') FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+') FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+', 0) FROM tbl")
       }
     }
   }

From ff1ebd6b3bebe85c0f393b268660dc8031614bc1 Mon Sep 17 00:00:00 2001
From: Daniel Tu <danieltu.life@gmail.com>
Date: Mon, 1 Dec 2025 00:05:28 -0800
Subject: [PATCH 04/11] make regexp_extract more align with spark's behavior

---
 .../src/string_funcs/regexp_extract.rs        | 169 ++++++++++++------
 1 file changed, 110 insertions(+), 59 deletions(-)

diff --git a/native/spark-expr/src/string_funcs/regexp_extract.rs b/native/spark-expr/src/string_funcs/regexp_extract.rs
index 2a9ce6b82c..eba2e7993c 100644
--- a/native/spark-expr/src/string_funcs/regexp_extract.rs
+++ b/native/spark-expr/src/string_funcs/regexp_extract.rs
@@ -22,8 +22,8 @@ use datafusion::logical_expr::{
     ColumnarValue, ScalarFunctionArgs, ScalarUDFImpl, Signature, Volatility,
 };
 use regex::Regex;
-use std::sync::Arc;
 use std::any::Any;
+use std::sync::Arc;
 
 /// Spark-compatible regexp_extract function
 #[derive(Debug, PartialEq, Eq, Hash)]
@@ -106,8 +106,8 @@ impl ScalarUDFImpl for SparkRegExpExtract {
             }
             ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
                 let result = match s {
-                    Some(text) => Some(extract_group(text, &regex, idx_val)),
-                    None => None,  // NULL input → NULL output
+                    Some(text) => Some(extract_group(text, &regex, idx_val)?),
+                    None => None, // NULL input → NULL output
                 };
                 Ok(ColumnarValue::Scalar(ScalarValue::Utf8(result)))
             }
@@ -157,9 +157,11 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
 
     fn return_type(&self, _arg_types: &[DataType]) -> Result<DataType> {
         // regexp_extract_all returns Array<String>
-        Ok(DataType::List(Arc::new(
-            arrow::datatypes::Field::new("item", DataType::Utf8, true),
-        )))
+        Ok(DataType::List(Arc::new(arrow::datatypes::Field::new(
+            "item",
+            DataType::Utf8,
+            false,
+        ))))
     }
 
     fn invoke_with_args(&self, args: ScalarFunctionArgs) -> Result<ColumnarValue> {
@@ -181,7 +183,8 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
                 }
             }
         } else {
-            0 // default to group 0 (entire match)
+            // Using 1 here to align with Spark's default behavior.
+            1
         };
 
         // Pattern must be a literal string
@@ -205,7 +208,7 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
             ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
                 match s {
                     Some(text) => {
-                        let matches = extract_all_groups(text, &regex, idx_val);
+                        let matches = extract_all_groups(text, &regex, idx_val)?;
                         // Build a list array with a single element
                         let mut list_builder =
                             arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
@@ -214,16 +217,17 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
                         }
                         list_builder.append(true);
                         let list_array = list_builder.finish();
-                        
-                        Ok(ColumnarValue::Scalar(ScalarValue::List(
-                            Arc::new(list_array),
-                        )))
+
+                        Ok(ColumnarValue::Scalar(ScalarValue::List(Arc::new(
+                            list_array,
+                        ))))
                     }
                     None => {
                         // Return NULL list using try_into (same as planner.rs:424)
                         let null_list: ScalarValue = DataType::List(Arc::new(
-                            arrow::datatypes::Field::new("item", DataType::Utf8, true)
-                        )).try_into()?;
+                            arrow::datatypes::Field::new("item", DataType::Utf8, false),
+                        ))
+                        .try_into()?;
                         Ok(ColumnarValue::Scalar(null_list))
                     }
                 }
@@ -239,53 +243,86 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
 
 // Helper functions
 
-fn extract_group(text: &str, regex: &Regex, idx: usize) -> String {
-    regex
-        .captures(text)
-        .and_then(|caps| caps.get(idx))
-        .map(|m| m.as_str().to_string())
-        // Spark behavior: return empty string "" if no match or group not found
-        .unwrap_or_else(|| String::new())
+fn extract_group(text: &str, regex: &Regex, idx: usize) -> Result<String> {
+    match regex.captures(text) {
+        Some(caps) => {
+            // Spark behavior: throw error if group index is out of bounds
+            if idx >= caps.len() {
+                return exec_err!(
+                    "Regex group count is {}, but the specified group index is {}",
+                    caps.len(),
+                    idx
+                );
+            }
+            Ok(caps
+                .get(idx)
+                .map(|m| m.as_str().to_string())
+                .unwrap_or_default())
+        }
+        None => {
+            // No match: return empty string (Spark behavior)
+            Ok(String::new())
+        }
+    }
 }
 
 fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<ArrayRef> {
     let string_array = array
         .as_any()
         .downcast_ref::<GenericStringArray<i32>>()
-        .ok_or_else(|| {
-            internal_datafusion_err!("regexp_extract expects string array input")
-        })?;
+        .ok_or_else(|| internal_datafusion_err!("regexp_extract expects string array input"))?;
 
-    let result: GenericStringArray<i32> = string_array
-        .iter()
-        .map(|s| s.map(|text| extract_group(text, regex, idx)))  // NULL → None, non-NULL → Some("")
-        .collect();
+    let mut builder = arrow::array::StringBuilder::new();
+    for s in string_array.iter() {
+        match s {
+            Some(text) => {
+                let extracted = extract_group(text, regex, idx)?;
+                builder.append_value(extracted);
+            }
+            None => {
+                builder.append_null(); // NULL → None
+            }
+        }
+    }
 
-    Ok(Arc::new(result))
+    Ok(Arc::new(builder.finish()))
 }
 
-fn extract_all_groups(text: &str, regex: &Regex, idx: usize) -> Vec<String> {
-    regex
-        .captures_iter(text)
-        .filter_map(|caps| caps.get(idx).map(|m| m.as_str().to_string()))
-        .collect()
+fn extract_all_groups(text: &str, regex: &Regex, idx: usize) -> Result<Vec<String>> {
+    let mut results = Vec::new();
+
+    for caps in regex.captures_iter(text) {
+        // Check bounds for each capture (matches Spark behavior)
+        if idx >= caps.len() {
+            return exec_err!(
+                "Regex group count is {}, but the specified group index is {}",
+                caps.len(),
+                idx
+            );
+        }
+
+        let matched = caps
+            .get(idx)
+            .map(|m| m.as_str().to_string())
+            .unwrap_or_default();
+        results.push(matched);
+    }
+
+    Ok(results)
 }
 
 fn regexp_extract_all_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<ArrayRef> {
     let string_array = array
         .as_any()
         .downcast_ref::<GenericStringArray<i32>>()
-        .ok_or_else(|| {
-            internal_datafusion_err!("regexp_extract_all expects string array input")
-        })?;
+        .ok_or_else(|| internal_datafusion_err!("regexp_extract_all expects string array input"))?;
 
-    let mut list_builder =
-        arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
+    let mut list_builder = arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
 
     for s in string_array.iter() {
         match s {
             Some(text) => {
-                let matches = extract_all_groups(text, regex, idx);
+                let matches = extract_all_groups(text, regex, idx)?;
                 for m in matches {
                     list_builder.values().append_value(m);
                 }
@@ -310,11 +347,14 @@ mod tests {
         let regex = Regex::new(r"(\d+)-(\w+)").unwrap();
 
         // Spark behavior: return "" on no match, not None
-        assert_eq!(extract_group("123-abc", &regex, 0), "123-abc");
-        assert_eq!(extract_group("123-abc", &regex, 1), "123");
-        assert_eq!(extract_group("123-abc", &regex, 2), "abc");
-        assert_eq!(extract_group("123-abc", &regex, 3), "");  // no such group → ""
-        assert_eq!(extract_group("no match", &regex, 0), "");  // no match → ""
+        assert_eq!(extract_group("123-abc", &regex, 0).unwrap(), "123-abc");
+        assert_eq!(extract_group("123-abc", &regex, 1).unwrap(), "123");
+        assert_eq!(extract_group("123-abc", &regex, 2).unwrap(), "abc");
+        assert_eq!(extract_group("no match", &regex, 0).unwrap(), ""); // no match → ""
+
+        // Spark behavior: group index out of bounds → error
+        assert!(extract_group("123-abc", &regex, 3).is_err());
+        assert!(extract_group("123-abc", &regex, 99).is_err());
     }
 
     #[test]
@@ -322,23 +362,26 @@ mod tests {
         let regex = Regex::new(r"(\d+)").unwrap();
 
         // Multiple matches
-        let matches = extract_all_groups("a1b2c3", &regex, 0);
+        let matches = extract_all_groups("a1b2c3", &regex, 0).unwrap();
         assert_eq!(matches, vec!["1", "2", "3"]);
 
         // Same with group index 1
-        let matches = extract_all_groups("a1b2c3", &regex, 1);
+        let matches = extract_all_groups("a1b2c3", &regex, 1).unwrap();
         assert_eq!(matches, vec!["1", "2", "3"]);
 
-        // No match
-        let matches = extract_all_groups("no digits", &regex, 0);
+        // No match: returns empty vec, not error
+        let matches = extract_all_groups("no digits", &regex, 0).unwrap();
         assert!(matches.is_empty());
         assert_eq!(matches, Vec::<String>::new());
+
+        // Group index out of bounds → error
+        assert!(extract_all_groups("a1b2c3", &regex, 2).is_err());
     }
-    
+
     #[test]
     fn test_regexp_extract_all_array() -> Result<()> {
         use datafusion::common::cast::as_list_array;
-        
+
         let regex = Regex::new(r"(\d+)").unwrap();
         let array = Arc::new(StringArray::from(vec![
             Some("a1b2"),
@@ -352,23 +395,32 @@ mod tests {
 
         // Row 0: "a1b2" → ["1", "2"]
         let row0 = list_array.value(0);
-        let row0_str = row0.as_any().downcast_ref::<GenericStringArray<i32>>().unwrap();
+        let row0_str = row0
+            .as_any()
+            .downcast_ref::<GenericStringArray<i32>>()
+            .unwrap();
         assert_eq!(row0_str.len(), 2);
         assert_eq!(row0_str.value(0), "1");
         assert_eq!(row0_str.value(1), "2");
 
         // Row 1: "no digits" → [] (empty array, not NULL)
         let row1 = list_array.value(1);
-        let row1_str = row1.as_any().downcast_ref::<GenericStringArray<i32>>().unwrap();
-        assert_eq!(row1_str.len(), 0);  // Empty array
-        assert!(!list_array.is_null(1));  // Not NULL, just empty
+        let row1_str = row1
+            .as_any()
+            .downcast_ref::<GenericStringArray<i32>>()
+            .unwrap();
+        assert_eq!(row1_str.len(), 0); // Empty array
+        assert!(!list_array.is_null(1)); // Not NULL, just empty
 
         // Row 2: NULL input → NULL output
         assert!(list_array.is_null(2));
 
         // Row 3: "c3d4e5" → ["3", "4", "5"]
         let row3 = list_array.value(3);
-        let row3_str = row3.as_any().downcast_ref::<GenericStringArray<i32>>().unwrap();
+        let row3_str = row3
+            .as_any()
+            .downcast_ref::<GenericStringArray<i32>>()
+            .unwrap();
         assert_eq!(row3_str.len(), 3);
         assert_eq!(row3_str.value(0), "3");
         assert_eq!(row3_str.value(1), "4");
@@ -392,10 +444,9 @@ mod tests {
 
         assert_eq!(result_array.value(0), "123");
         assert_eq!(result_array.value(1), "456");
-        assert!(result_array.is_null(2));  // NULL input → NULL output
-        assert_eq!(result_array.value(3), "");  // no match → "" (empty string)
+        assert!(result_array.is_null(2)); // NULL input → NULL output
+        assert_eq!(result_array.value(3), ""); // no match → "" (empty string)
 
         Ok(())
     }
 }
-

From 87dfed42583c3a6d975e0adae697f44cca0c96db Mon Sep 17 00:00:00 2001
From: Daniel <danieltu.life@gmail.com>
Date: Tue, 2 Dec 2025 23:11:12 -0800
Subject: [PATCH 05/11] Solve comments (test not yet fixed) 1. more data type
 support in scala side 2. unify errors as execution ones 3. reduce code
 duplication 4. negative index check

---
 .../src/string_funcs/regexp_extract.rs        | 151 ++++++++----------
 .../org/apache/comet/serde/strings.scala      |  16 +-
 2 files changed, 77 insertions(+), 90 deletions(-)

diff --git a/native/spark-expr/src/string_funcs/regexp_extract.rs b/native/spark-expr/src/string_funcs/regexp_extract.rs
index eba2e7993c..d8e1cbf3b0 100644
--- a/native/spark-expr/src/string_funcs/regexp_extract.rs
+++ b/native/spark-expr/src/string_funcs/regexp_extract.rs
@@ -17,7 +17,7 @@
 
 use arrow::array::{Array, ArrayRef, GenericStringArray};
 use arrow::datatypes::DataType;
-use datafusion::common::{exec_err, internal_datafusion_err, Result, ScalarValue};
+use datafusion::common::{exec_err, DataFusionError, Result, ScalarValue};
 use datafusion::logical_expr::{
     ColumnarValue, ScalarFunctionArgs, ScalarUDFImpl, Signature, Volatility,
 };
@@ -61,53 +61,21 @@ impl ScalarUDFImpl for SparkRegExpExtract {
     }
 
     fn return_type(&self, _arg_types: &[DataType]) -> Result<DataType> {
-        // regexp_extract always returns String
         Ok(DataType::Utf8)
     }
 
     fn invoke_with_args(&self, args: ScalarFunctionArgs) -> Result<ColumnarValue> {
-        // regexp_extract(subject, pattern, idx)
-        if args.args.len() != 3 {
-            return exec_err!(
-                "regexp_extract expects 3 arguments, got {}",
-                args.args.len()
-            );
-        }
-
-        let subject = &args.args[0];
-        let pattern = &args.args[1];
-        let idx = &args.args[2];
-
-        // Pattern must be a literal string
-        let pattern_str = match pattern {
-            ColumnarValue::Scalar(ScalarValue::Utf8(Some(s))) => s.clone(),
-            _ => {
-                return exec_err!("regexp_extract pattern must be a string literal");
-            }
-        };
-
-        // idx must be a literal int
-        let idx_val = match idx {
-            ColumnarValue::Scalar(ScalarValue::Int32(Some(i))) => *i as usize,
-            _ => {
-                return exec_err!("regexp_extract idx must be an integer literal");
-            }
-        };
-
-        // Compile regex once
-        let regex = Regex::new(&pattern_str).map_err(|e| {
-            internal_datafusion_err!("Invalid regex pattern '{}': {}", pattern_str, e)
-        })?;
+        let (subject, regex, idx) = parse_args(&args, self.name())?;
 
         match subject {
             ColumnarValue::Array(array) => {
-                let result = regexp_extract_array(array, &regex, idx_val)?;
+                let result = regexp_extract_array(&array, &regex, idx)?;
                 Ok(ColumnarValue::Array(result))
             }
             ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
                 let result = match s {
-                    Some(text) => Some(extract_group(text, &regex, idx_val)?),
-                    None => None, // NULL input → NULL output
+                    Some(text) => Some(extract_group(&text, &regex, idx)?),
+                    None => None,
                 };
                 Ok(ColumnarValue::Scalar(ScalarValue::Utf8(result)))
             }
@@ -165,50 +133,18 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
     }
 
     fn invoke_with_args(&self, args: ScalarFunctionArgs) -> Result<ColumnarValue> {
-        // regexp_extract_all(subject, pattern) or regexp_extract_all(subject, pattern, idx)
-        if args.args.len() < 2 || args.args.len() > 3 {
-            return exec_err!(
-                "regexp_extract_all expects 2 or 3 arguments, got {}",
-                args.args.len()
-            );
-        }
-
-        let subject = &args.args[0];
-        let pattern = &args.args[1];
-        let idx_val = if args.args.len() == 3 {
-            match &args.args[2] {
-                ColumnarValue::Scalar(ScalarValue::Int32(Some(i))) => *i as usize,
-                _ => {
-                    return exec_err!("regexp_extract_all idx must be an integer literal");
-                }
-            }
-        } else {
-            // Using 1 here to align with Spark's default behavior.
-            1
-        };
-
-        // Pattern must be a literal string
-        let pattern_str = match pattern {
-            ColumnarValue::Scalar(ScalarValue::Utf8(Some(s))) => s.clone(),
-            _ => {
-                return exec_err!("regexp_extract_all pattern must be a string literal");
-            }
-        };
-
-        // Compile regex once
-        let regex = Regex::new(&pattern_str).map_err(|e| {
-            internal_datafusion_err!("Invalid regex pattern '{}': {}", pattern_str, e)
-        })?;
+        // regexp_extract_all(subject, pattern, idx)
+        let (subject, regex, idx) = parse_args(&args, self.name())?;
 
         match subject {
             ColumnarValue::Array(array) => {
-                let result = regexp_extract_all_array(array, &regex, idx_val)?;
+                let result = regexp_extract_all_array(&array, &regex, idx)?;
                 Ok(ColumnarValue::Array(result))
             }
             ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
                 match s {
                     Some(text) => {
-                        let matches = extract_all_groups(text, &regex, idx_val)?;
+                        let matches = extract_all_groups(&text, &regex, idx)?;
                         // Build a list array with a single element
                         let mut list_builder =
                             arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
@@ -223,7 +159,6 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
                         ))))
                     }
                     None => {
-                        // Return NULL list using try_into (same as planner.rs:424)
                         let null_list: ScalarValue = DataType::List(Arc::new(
                             arrow::datatypes::Field::new("item", DataType::Utf8, false),
                         ))
@@ -243,14 +178,53 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
 
 // Helper functions
 
-fn extract_group(text: &str, regex: &Regex, idx: usize) -> Result<String> {
+fn parse_args<'a>(args: &'a ScalarFunctionArgs, fn_name: &str) -> Result<(&'a ColumnarValue, Regex, i32)> {
+    if args.args.len() != 3 {
+        return exec_err!(
+                "{} expects 3 arguments, got {}",
+                fn_name,
+                args.args.len()
+            );
+    }
+
+    let subject = &args.args[0];
+    let idx = &args.args[2];
+    let pattern = &args.args[1];
+
+    let pattern_str = match pattern {
+        ColumnarValue::Scalar(ScalarValue::Utf8(Some(s))) => s.clone(),
+        _ => {
+            return exec_err!("{} pattern must be a string literal", fn_name);
+        }
+    };
+
+    let idx_val = match idx {
+        ColumnarValue::Scalar(ScalarValue::Int32(Some(i))) => *i as i32,
+        _ => {
+            return exec_err!("{} idx must be an integer literal", fn_name);
+        }
+    };
+    if idx_val < 0 {
+        return exec_err!("{fn_name} group index must be non-negative");
+    }
+
+    let regex = Regex::new(&pattern_str).map_err(|e| {
+        DataFusionError::Execution(format!("Invalid regex pattern '{}': {}", pattern_str, e))
+    })?;
+
+    Ok((subject, regex, idx_val))
+}
+
+fn extract_group(text: &str, regex: &Regex, idx: i32) -> Result<String> {
+    let idx = idx as usize;
     match regex.captures(text) {
         Some(caps) => {
             // Spark behavior: throw error if group index is out of bounds
-            if idx >= caps.len() {
+            let group_cnt = caps.len() - 1;
+            if idx > group_cnt {
                 return exec_err!(
-                    "Regex group count is {}, but the specified group index is {}",
-                    caps.len(),
+                    "Regex group index out of bounds, group count: {}, index: {}",
+                    group_cnt,
                     idx
                 );
             }
@@ -266,11 +240,11 @@ fn extract_group(text: &str, regex: &Regex, idx: usize) -> Result<String> {
     }
 }
 
-fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<ArrayRef> {
+fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: i32) -> Result<ArrayRef> {
     let string_array = array
         .as_any()
         .downcast_ref::<GenericStringArray<i32>>()
-        .ok_or_else(|| internal_datafusion_err!("regexp_extract expects string array input"))?;
+        .ok_or_else(|| DataFusionError::Execution("regexp_extract expects string array input".to_string()))?;
 
     let mut builder = arrow::array::StringBuilder::new();
     for s in string_array.iter() {
@@ -280,7 +254,7 @@ fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<A
                 builder.append_value(extracted);
             }
             None => {
-                builder.append_null(); // NULL → None
+                builder.append_null();
             }
         }
     }
@@ -288,15 +262,17 @@ fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<A
     Ok(Arc::new(builder.finish()))
 }
 
-fn extract_all_groups(text: &str, regex: &Regex, idx: usize) -> Result<Vec<String>> {
+fn extract_all_groups(text: &str, regex: &Regex, idx: i32) -> Result<Vec<String>> {
+    let idx = idx as usize;
     let mut results = Vec::new();
 
     for caps in regex.captures_iter(text) {
         // Check bounds for each capture (matches Spark behavior)
-        if idx >= caps.len() {
+        let group_num = caps.len() - 1;
+        if idx > group_num {
             return exec_err!(
-                "Regex group count is {}, but the specified group index is {}",
-                caps.len(),
+                "Regex group index out of bounds, group count: {}, index: {}",
+                group_num,
                 idx
             );
         }
@@ -311,11 +287,11 @@ fn extract_all_groups(text: &str, regex: &Regex, idx: usize) -> Result<Vec<Strin
     Ok(results)
 }
 
-fn regexp_extract_all_array(array: &ArrayRef, regex: &Regex, idx: usize) -> Result<ArrayRef> {
+fn regexp_extract_all_array(array: &ArrayRef, regex: &Regex, idx: i32) -> Result<ArrayRef> {
     let string_array = array
         .as_any()
         .downcast_ref::<GenericStringArray<i32>>()
-        .ok_or_else(|| internal_datafusion_err!("regexp_extract_all expects string array input"))?;
+        .ok_or_else(|| DataFusionError::Execution("regexp_extract_all expects string array input".to_string()))?;
 
     let mut list_builder = arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
 
@@ -355,6 +331,7 @@ mod tests {
         // Spark behavior: group index out of bounds → error
         assert!(extract_group("123-abc", &regex, 3).is_err());
         assert!(extract_group("123-abc", &regex, 99).is_err());
+        assert!(extract_group("123-abc", &regex, -1).is_err());
     }
 
     #[test]
diff --git a/spark/src/main/scala/org/apache/comet/serde/strings.scala b/spark/src/main/scala/org/apache/comet/serde/strings.scala
index 733c25ec2b..6dfdfed385 100644
--- a/spark/src/main/scala/org/apache/comet/serde/strings.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/strings.scala
@@ -309,11 +309,16 @@ object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
     expr.idx match {
       case Literal(_, DataTypes.IntegerType) =>
         Compatible()
+      case Literal(_, DataTypes.LongType) =>
+        Compatible()
+      case Literal(_, DataTypes.ShortType) =>
+        Compatible()
+      case Literal(_, DataTypes.ByteType) =>
+        Compatible()
       case _ =>
         Unsupported(Some("Only literal group index is supported"))
     }
   }
-
   override def convert(
       expr: RegExpExtract,
       inputs: Seq[Attribute],
@@ -345,10 +350,16 @@ object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
     }
 
     // Check if idx is a literal
-    // For regexp_extract_all, idx will default to 0 (group 0, entire match) if not specified
+    // For regexp_extract_all, idx will default to 1 if not specified
     expr.idx match {
       case Literal(_, DataTypes.IntegerType) =>
         Compatible()
+      case Literal(_, DataTypes.LongType) =>
+        Compatible()
+      case Literal(_, DataTypes.ShortType) =>
+        Compatible()
+      case Literal(_, DataTypes.ByteType) =>
+        Compatible()
       case _ =>
         Unsupported(Some("Only literal group index is supported"))
     }
@@ -357,7 +368,6 @@ object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
       expr: RegExpExtractAll,
       inputs: Seq[Attribute],
       binding: Boolean): Option[Expr] = {
-    // Check if the pattern is compatible with Spark or allow incompatible patterns
     val subjectExpr = exprToProtoInternal(expr.subject, inputs, binding)
     val patternExpr = exprToProtoInternal(expr.regexp, inputs, binding)
     val idxExpr = exprToProtoInternal(expr.idx, inputs, binding)

From d83cac50d4f68aec730b874622217139b687256a Mon Sep 17 00:00:00 2001
From: Daniel Tu <danieltu.life@gmail.com>
Date: Tue, 2 Dec 2025 23:24:31 -0800
Subject: [PATCH 06/11] fix regexp_extract_all test failure

---
 .../src/string_funcs/regexp_extract.rs        | 23 +++++++++++--------
 1 file changed, 13 insertions(+), 10 deletions(-)

diff --git a/native/spark-expr/src/string_funcs/regexp_extract.rs b/native/spark-expr/src/string_funcs/regexp_extract.rs
index d8e1cbf3b0..3a1d4e4228 100644
--- a/native/spark-expr/src/string_funcs/regexp_extract.rs
+++ b/native/spark-expr/src/string_funcs/regexp_extract.rs
@@ -128,7 +128,7 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
         Ok(DataType::List(Arc::new(arrow::datatypes::Field::new(
             "item",
             DataType::Utf8,
-            false,
+            true,
         ))))
     }
 
@@ -160,7 +160,7 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
                     }
                     None => {
                         let null_list: ScalarValue = DataType::List(Arc::new(
-                            arrow::datatypes::Field::new("item", DataType::Utf8, false),
+                            arrow::datatypes::Field::new("item", DataType::Utf8, true),
                         ))
                         .try_into()?;
                         Ok(ColumnarValue::Scalar(null_list))
@@ -178,13 +178,12 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
 
 // Helper functions
 
-fn parse_args<'a>(args: &'a ScalarFunctionArgs, fn_name: &str) -> Result<(&'a ColumnarValue, Regex, i32)> {
+fn parse_args<'a>(
+    args: &'a ScalarFunctionArgs,
+    fn_name: &str,
+) -> Result<(&'a ColumnarValue, Regex, i32)> {
     if args.args.len() != 3 {
-        return exec_err!(
-                "{} expects 3 arguments, got {}",
-                fn_name,
-                args.args.len()
-            );
+        return exec_err!("{} expects 3 arguments, got {}", fn_name, args.args.len());
     }
 
     let subject = &args.args[0];
@@ -244,7 +243,9 @@ fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: i32) -> Result<Arr
     let string_array = array
         .as_any()
         .downcast_ref::<GenericStringArray<i32>>()
-        .ok_or_else(|| DataFusionError::Execution("regexp_extract expects string array input".to_string()))?;
+        .ok_or_else(|| {
+            DataFusionError::Execution("regexp_extract expects string array input".to_string())
+        })?;
 
     let mut builder = arrow::array::StringBuilder::new();
     for s in string_array.iter() {
@@ -291,7 +292,9 @@ fn regexp_extract_all_array(array: &ArrayRef, regex: &Regex, idx: i32) -> Result
     let string_array = array
         .as_any()
         .downcast_ref::<GenericStringArray<i32>>()
-        .ok_or_else(|| DataFusionError::Execution("regexp_extract_all expects string array input".to_string()))?;
+        .ok_or_else(|| {
+            DataFusionError::Execution("regexp_extract_all expects string array input".to_string())
+        })?;
 
     let mut list_builder = arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
 

From f2d82b3145a4840865d23af710ba57a38a9040a8 Mon Sep 17 00:00:00 2001
From: Daniel Tu <danieltu.life@gmail.com>
Date: Sun, 7 Dec 2025 11:24:53 -0800
Subject: [PATCH 07/11] refactor udf impl

---
 .../src/string_funcs/regexp_extract.rs        | 427 ++++++++++++------
 .../comet/CometStringExpressionSuite.scala    | 223 ++++++++-
 2 files changed, 507 insertions(+), 143 deletions(-)

diff --git a/native/spark-expr/src/string_funcs/regexp_extract.rs b/native/spark-expr/src/string_funcs/regexp_extract.rs
index 3a1d4e4228..559fc31f4c 100644
--- a/native/spark-expr/src/string_funcs/regexp_extract.rs
+++ b/native/spark-expr/src/string_funcs/regexp_extract.rs
@@ -15,21 +15,33 @@
 // specific language governing permissions and limitations
 // under the License.
 
-use arrow::array::{Array, ArrayRef, GenericStringArray};
-use arrow::datatypes::DataType;
+use arrow::array::{
+    Array, ArrayRef, GenericStringArray, GenericStringBuilder, ListArray, OffsetSizeTrait,
+};
+use arrow::datatypes::{DataType, FieldRef};
 use datafusion::common::{exec_err, DataFusionError, Result, ScalarValue};
 use datafusion::logical_expr::{
     ColumnarValue, ScalarFunctionArgs, ScalarUDFImpl, Signature, Volatility,
 };
+use datafusion::logical_expr_common::signature::TypeSignature::Exact;
 use regex::Regex;
 use std::any::Any;
 use std::sync::Arc;
 
 /// Spark-compatible regexp_extract function
+///
+/// Extracts a substring matching a [regular expression](https://docs.rs/regex/latest/regex/#syntax)
+/// and returns the specified capture group.
+///
+/// The function signature is: `regexp_extract(str, regexp, idx)`
+/// where:
+/// - `str`: The input string to search in
+/// - `regexp`: The regular expression pattern (must be a literal)
+/// - `idx`: The capture group index (0 for the entire match, must be a literal)
+///
 #[derive(Debug, PartialEq, Eq, Hash)]
 pub struct SparkRegExpExtract {
     signature: Signature,
-    aliases: Vec<String>,
 }
 
 impl Default for SparkRegExpExtract {
@@ -41,8 +53,13 @@ impl Default for SparkRegExpExtract {
 impl SparkRegExpExtract {
     pub fn new() -> Self {
         Self {
-            signature: Signature::user_defined(Volatility::Immutable),
-            aliases: vec![],
+            signature: Signature::one_of(
+                vec![
+                    Exact(vec![DataType::Utf8, DataType::Utf8, DataType::Int32]),
+                    Exact(vec![DataType::LargeUtf8, DataType::Utf8, DataType::Int32]),
+                ],
+                Volatility::Immutable,
+            ),
         }
     }
 }
@@ -61,38 +78,61 @@ impl ScalarUDFImpl for SparkRegExpExtract {
     }
 
     fn return_type(&self, _arg_types: &[DataType]) -> Result<DataType> {
-        Ok(DataType::Utf8)
+        Ok(match &_arg_types[0] {
+            DataType::Utf8 => DataType::Utf8,
+            DataType::LargeUtf8 => DataType::LargeUtf8,
+            _ => {
+                return exec_err!(
+                    "regexp_extract expects utf8 or largeutf8 input but got {:?}",
+                    _arg_types[0]
+                )
+            }
+        })
     }
 
     fn invoke_with_args(&self, args: ScalarFunctionArgs) -> Result<ColumnarValue> {
-        let (subject, regex, idx) = parse_args(&args, self.name())?;
-
-        match subject {
-            ColumnarValue::Array(array) => {
-                let result = regexp_extract_array(&array, &regex, idx)?;
-                Ok(ColumnarValue::Array(result))
-            }
-            ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
-                let result = match s {
-                    Some(text) => Some(extract_group(&text, &regex, idx)?),
-                    None => None,
-                };
-                Ok(ColumnarValue::Scalar(ScalarValue::Utf8(result)))
+        let args = &args.args;
+        let len = args
+            .iter()
+            .fold(Option::<usize>::None, |acc, arg| match arg {
+                ColumnarValue::Scalar(_) => acc,
+                ColumnarValue::Array(a) => Some(a.len()),
+            });
+        let is_scalar = len.is_none();
+        let result = match args[0].data_type() {
+            DataType::Utf8 => regexp_extract_func::<i32>(args),
+            DataType::LargeUtf8 => regexp_extract_func::<i64>(args),
+            _ => {
+                return exec_err!(
+                    "regexp_extract expects the data type of subject to be utf8 or largeutf8 but got {:?}",
+                    args[0].data_type()
+                );
             }
-            _ => exec_err!("regexp_extract expects string input"),
+        };
+        if is_scalar {
+            result
+                .and_then(|arr| ScalarValue::try_from_array(&arr, 0))
+                .map(ColumnarValue::Scalar)
+        } else {
+            result.map(ColumnarValue::Array)
         }
     }
-
-    fn aliases(&self) -> &[String] {
-        &self.aliases
-    }
 }
 
 /// Spark-compatible regexp_extract_all function
+///
+/// Extracts all substrings matching a [regular expression](https://docs.rs/regex/latest/regex/#syntax)
+/// and returns them as an array.
+///
+/// The function signature is: `regexp_extract_all(str, regexp, idx)`
+/// where:
+/// - `str`: The input string to search in
+/// - `regexp`: The regular expression pattern (must be a literal)
+/// - `idx`: The capture group index (0 for the entire match, must be a literal)
+///
 #[derive(Debug, PartialEq, Eq, Hash)]
 pub struct SparkRegExpExtractAll {
     signature: Signature,
-    aliases: Vec<String>,
 }
 
 impl Default for SparkRegExpExtractAll {
@@ -104,8 +144,13 @@ impl Default for SparkRegExpExtractAll {
 impl SparkRegExpExtractAll {
     pub fn new() -> Self {
         Self {
-            signature: Signature::user_defined(Volatility::Immutable),
-            aliases: vec![],
+            signature: Signature::one_of(
+                vec![
+                    Exact(vec![DataType::Utf8, DataType::Utf8, DataType::Int32]),
+                    Exact(vec![DataType::LargeUtf8, DataType::Utf8, DataType::Int32]),
+                ],
+                Volatility::Immutable,
+            ),
         }
     }
 }
@@ -124,71 +169,90 @@ impl ScalarUDFImpl for SparkRegExpExtractAll {
     }
 
     fn return_type(&self, _arg_types: &[DataType]) -> Result<DataType> {
-        // regexp_extract_all returns Array<String>
-        Ok(DataType::List(Arc::new(arrow::datatypes::Field::new(
-            "item",
-            DataType::Utf8,
-            true,
-        ))))
+        Ok(match &_arg_types[0] {
+            DataType::Utf8 => DataType::List(Arc::new(arrow::datatypes::Field::new(
+                "item",
+                DataType::Utf8,
+                false,
+            ))),
+            DataType::LargeUtf8 => DataType::List(Arc::new(arrow::datatypes::Field::new(
+                "item",
+                DataType::LargeUtf8,
+                false,
+            ))),
+            _ => {
+                return exec_err!(
+                    "regexp_extract_all expects utf8 or largeutf8 input but got {:?}",
+                    _arg_types[0]
+                )
+            }
+        })
     }
 
     fn invoke_with_args(&self, args: ScalarFunctionArgs) -> Result<ColumnarValue> {
-        // regexp_extract_all(subject, pattern, idx)
-        let (subject, regex, idx) = parse_args(&args, self.name())?;
-
-        match subject {
-            ColumnarValue::Array(array) => {
-                let result = regexp_extract_all_array(&array, &regex, idx)?;
-                Ok(ColumnarValue::Array(result))
-            }
-            ColumnarValue::Scalar(ScalarValue::Utf8(s)) => {
-                match s {
-                    Some(text) => {
-                        let matches = extract_all_groups(&text, &regex, idx)?;
-                        // Build a list array with a single element
-                        let mut list_builder =
-                            arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
-                        for m in matches {
-                            list_builder.values().append_value(m);
-                        }
-                        list_builder.append(true);
-                        let list_array = list_builder.finish();
-
-                        Ok(ColumnarValue::Scalar(ScalarValue::List(Arc::new(
-                            list_array,
-                        ))))
-                    }
-                    None => {
-                        let null_list: ScalarValue = DataType::List(Arc::new(
-                            arrow::datatypes::Field::new("item", DataType::Utf8, true),
-                        ))
-                        .try_into()?;
-                        Ok(ColumnarValue::Scalar(null_list))
-                    }
-                }
+        let args = &args.args;
+        let len = args
+            .iter()
+            .fold(Option::<usize>::None, |acc, arg| match arg {
+                ColumnarValue::Scalar(_) => acc,
+                ColumnarValue::Array(a) => Some(a.len()),
+            });
+        let is_scalar = len.is_none();
+        let result = match args[0].data_type() {
+            DataType::Utf8 => regexp_extract_all_func::<i32>(args),
+            DataType::LargeUtf8 => regexp_extract_all_func::<i64>(args),
+            _ => {
+                return exec_err!(
+                    "regexp_extract_all expects the data type of subject to be utf8 or largeutf8 but got {:?}",
+                    args[0].data_type()
+                );
             }
-            _ => exec_err!("regexp_extract_all expects string input"),
+        };
+        if is_scalar {
+            result
+                .and_then(|arr| ScalarValue::try_from_array(&arr, 0))
+                .map(ColumnarValue::Scalar)
+        } else {
+            result.map(ColumnarValue::Array)
         }
     }
-
-    fn aliases(&self) -> &[String] {
-        &self.aliases
-    }
 }
 
 // Helper functions
 
+fn regexp_extract_func<T: OffsetSizeTrait>(args: &[ColumnarValue]) -> Result<ArrayRef> {
+    let (subject, regex, idx) = parse_args(args, "regexp_extract")?;
+
+    let subject_array = match subject {
+        ColumnarValue::Array(array) => Arc::clone(array),
+        ColumnarValue::Scalar(scalar) => scalar.to_array()?,
+    };
+
+    regexp_extract_array::<T>(&subject_array, &regex, idx)
+}
+
+fn regexp_extract_all_func<T: OffsetSizeTrait>(args: &[ColumnarValue]) -> Result<ArrayRef> {
+    let (subject, regex, idx) = parse_args(args, "regexp_extract_all")?;
+
+    let subject_array = match subject {
+        ColumnarValue::Array(array) => Arc::clone(array),
+        ColumnarValue::Scalar(scalar) => scalar.to_array()?,
+    };
+
+    regexp_extract_all_array::<T>(&subject_array, &regex, idx)
+}
+
 fn parse_args<'a>(
-    args: &'a ScalarFunctionArgs,
+    args: &'a [ColumnarValue],
     fn_name: &str,
 ) -> Result<(&'a ColumnarValue, Regex, i32)> {
-    if args.args.len() != 3 {
-        return exec_err!("{} expects 3 arguments, got {}", fn_name, args.args.len());
+    if args.len() != 3 {
+        return exec_err!("{} expects 3 arguments, got {}", fn_name, args.len());
     }
 
-    let subject = &args.args[0];
-    let idx = &args.args[2];
-    let pattern = &args.args[1];
+    let subject = &args[0];
+    let pattern = &args[1];
+    let idx = &args[2];
 
     let pattern_str = match pattern {
         ColumnarValue::Scalar(ScalarValue::Utf8(Some(s))) => s.clone(),
@@ -198,7 +262,7 @@ fn parse_args<'a>(
     };
 
     let idx_val = match idx {
-        ColumnarValue::Scalar(ScalarValue::Int32(Some(i))) => *i as i32,
+        ColumnarValue::Scalar(ScalarValue::Int32(Some(i))) => *i,
         _ => {
             return exec_err!("{} idx must be an integer literal", fn_name);
         }
@@ -214,7 +278,35 @@ fn parse_args<'a>(
     Ok((subject, regex, idx_val))
 }
 
-fn extract_group(text: &str, regex: &Regex, idx: i32) -> Result<String> {
+fn regexp_extract_array<T: OffsetSizeTrait>(
+    array: &ArrayRef,
+    regex: &Regex,
+    idx: i32,
+) -> Result<ArrayRef> {
+    let string_array = array
+        .as_any()
+        .downcast_ref::<GenericStringArray<T>>()
+        .ok_or_else(|| {
+            DataFusionError::Execution("regexp_extract expects string array input".to_string())
+        })?;
+
+    let mut builder = GenericStringBuilder::<T>::new();
+    for s in string_array.iter() {
+        match s {
+            Some(text) => {
+                let extracted = regexp_extract(text, regex, idx)?;
+                builder.append_value(extracted);
+            }
+            None => {
+                builder.append_null();
+            }
+        }
+    }
+
+    Ok(Arc::new(builder.finish()))
+}
+
+fn regexp_extract(text: &str, regex: &Regex, idx: i32) -> Result<String> {
     let idx = idx as usize;
     match regex.captures(text) {
         Some(caps) => {
@@ -239,31 +331,62 @@ fn extract_group(text: &str, regex: &Regex, idx: i32) -> Result<String> {
     }
 }
 
-fn regexp_extract_array(array: &ArrayRef, regex: &Regex, idx: i32) -> Result<ArrayRef> {
+fn regexp_extract_all_array<T: OffsetSizeTrait>(
+    array: &ArrayRef,
+    regex: &Regex,
+    idx: i32,
+) -> Result<ArrayRef> {
     let string_array = array
         .as_any()
-        .downcast_ref::<GenericStringArray<i32>>()
+        .downcast_ref::<GenericStringArray<T>>()
         .ok_or_else(|| {
-            DataFusionError::Execution("regexp_extract expects string array input".to_string())
+            DataFusionError::Execution("regexp_extract_all expects string array input".to_string())
         })?;
 
-    let mut builder = arrow::array::StringBuilder::new();
+    let item_data_type = match array.data_type() {
+        DataType::Utf8 => DataType::Utf8,
+        DataType::LargeUtf8 => DataType::LargeUtf8,
+        _ => {
+            return exec_err!(
+                "regexp_extract_all expects utf8 or largeutf8 array but got {:?}",
+                array.data_type()
+            );
+        }
+    };
+    let item_field = Arc::new(arrow::datatypes::Field::new("item", item_data_type, false));
+
+    let string_builder = GenericStringBuilder::<T>::new();
+    let mut list_builder =
+        arrow::array::ListBuilder::new(string_builder).with_field(item_field.clone());
+
     for s in string_array.iter() {
         match s {
             Some(text) => {
-                let extracted = extract_group(text, regex, idx)?;
-                builder.append_value(extracted);
+                let matches = regexp_extract_all(text, regex, idx)?;
+                for m in matches {
+                    list_builder.values().append_value(m);
+                }
+                list_builder.append(true);
             }
             None => {
-                builder.append_null();
+                list_builder.append(false);
             }
         }
     }
 
-    Ok(Arc::new(builder.finish()))
+    let list_array = list_builder.finish();
+
+    // Manually create a new ListArray with the correct field schema to ensure nullable is false
+    // This ensures the schema matches what we declared in return_type
+    Ok(Arc::new(ListArray::new(
+        FieldRef::from(item_field.clone()),
+        list_array.offsets().clone(),
+        list_array.values().clone(),
+        list_array.nulls().cloned(),
+    )))
 }
 
-fn extract_all_groups(text: &str, regex: &Regex, idx: i32) -> Result<Vec<String>> {
+fn regexp_extract_all(text: &str, regex: &Regex, idx: i32) -> Result<Vec<String>> {
     let idx = idx as usize;
     let mut results = Vec::new();
 
@@ -288,53 +411,25 @@ fn extract_all_groups(text: &str, regex: &Regex, idx: i32) -> Result<Vec<String>
     Ok(results)
 }
 
-fn regexp_extract_all_array(array: &ArrayRef, regex: &Regex, idx: i32) -> Result<ArrayRef> {
-    let string_array = array
-        .as_any()
-        .downcast_ref::<GenericStringArray<i32>>()
-        .ok_or_else(|| {
-            DataFusionError::Execution("regexp_extract_all expects string array input".to_string())
-        })?;
-
-    let mut list_builder = arrow::array::ListBuilder::new(arrow::array::StringBuilder::new());
-
-    for s in string_array.iter() {
-        match s {
-            Some(text) => {
-                let matches = extract_all_groups(text, regex, idx)?;
-                for m in matches {
-                    list_builder.values().append_value(m);
-                }
-                list_builder.append(true);
-            }
-            None => {
-                list_builder.append(false);
-            }
-        }
-    }
-
-    Ok(Arc::new(list_builder.finish()))
-}
-
 #[cfg(test)]
 mod tests {
     use super::*;
-    use arrow::array::StringArray;
+    use arrow::array::{LargeStringArray, StringArray};
 
     #[test]
     fn test_regexp_extract_basic() {
         let regex = Regex::new(r"(\d+)-(\w+)").unwrap();
 
         // Spark behavior: return "" on no match, not None
-        assert_eq!(extract_group("123-abc", &regex, 0).unwrap(), "123-abc");
-        assert_eq!(extract_group("123-abc", &regex, 1).unwrap(), "123");
-        assert_eq!(extract_group("123-abc", &regex, 2).unwrap(), "abc");
-        assert_eq!(extract_group("no match", &regex, 0).unwrap(), ""); // no match → ""
+        assert_eq!(regexp_extract("123-abc", &regex, 0).unwrap(), "123-abc");
+        assert_eq!(regexp_extract("123-abc", &regex, 1).unwrap(), "123");
+        assert_eq!(regexp_extract("123-abc", &regex, 2).unwrap(), "abc");
+        assert_eq!(regexp_extract("no match", &regex, 0).unwrap(), ""); // no match → ""
 
         // Spark behavior: group index out of bounds → error
-        assert!(extract_group("123-abc", &regex, 3).is_err());
-        assert!(extract_group("123-abc", &regex, 99).is_err());
-        assert!(extract_group("123-abc", &regex, -1).is_err());
+        assert!(regexp_extract("123-abc", &regex, 3).is_err());
+        assert!(regexp_extract("123-abc", &regex, 99).is_err());
+        assert!(regexp_extract("123-abc", &regex, -1).is_err());
     }
 
     #[test]
@@ -342,20 +437,20 @@ mod tests {
         let regex = Regex::new(r"(\d+)").unwrap();
 
         // Multiple matches
-        let matches = extract_all_groups("a1b2c3", &regex, 0).unwrap();
+        let matches = regexp_extract_all("a1b2c3", &regex, 0).unwrap();
         assert_eq!(matches, vec!["1", "2", "3"]);
 
         // Same with group index 1
-        let matches = extract_all_groups("a1b2c3", &regex, 1).unwrap();
+        let matches = regexp_extract_all("a1b2c3", &regex, 1).unwrap();
         assert_eq!(matches, vec!["1", "2", "3"]);
 
         // No match: returns empty vec, not error
-        let matches = extract_all_groups("no digits", &regex, 0).unwrap();
+        let matches = regexp_extract_all("no digits", &regex, 0).unwrap();
         assert!(matches.is_empty());
         assert_eq!(matches, Vec::<String>::new());
 
         // Group index out of bounds → error
-        assert!(extract_all_groups("a1b2c3", &regex, 2).is_err());
+        assert!(regexp_extract_all("a1b2c3", &regex, 2).is_err());
     }
 
     #[test]
@@ -370,7 +465,7 @@ mod tests {
             Some("c3d4e5"),
         ])) as ArrayRef;
 
-        let result = regexp_extract_all_array(&array, &regex, 0)?;
+        let result = regexp_extract_all_array::<i32>(&array, &regex, 0)?;
         let list_array = as_list_array(&result)?;
 
         // Row 0: "a1b2" → ["1", "2"]
@@ -419,7 +514,7 @@ mod tests {
             Some("no-match"),
         ])) as ArrayRef;
 
-        let result = regexp_extract_array(&array, &regex, 1)?;
+        let result = regexp_extract_array::<i32>(&array, &regex, 1)?;
         let result_array = result.as_any().downcast_ref::<StringArray>().unwrap();
 
         assert_eq!(result_array.value(0), "123");
@@ -429,4 +524,76 @@ mod tests {
 
         Ok(())
     }
+
+    #[test]
+    fn test_regexp_extract_largeutf8() -> Result<()> {
+        let regex = Regex::new(r"(\d+)").unwrap();
+        let array = Arc::new(LargeStringArray::from(vec![
+            Some("a1b2c3"),
+            Some("x5y6"),
+            None,
+            Some("no digits"),
+        ])) as ArrayRef;
+
+        let result = regexp_extract_array::<i64>(&array, &regex, 1)?;
+        let result_array = result.as_any().downcast_ref::<LargeStringArray>().unwrap();
+
+        assert_eq!(result_array.value(0), "1"); // First digit from "a1b2c3"
+        assert_eq!(result_array.value(1), "5"); // First digit from "x5y6"
+        assert!(result_array.is_null(2)); // NULL input → NULL output
+        assert_eq!(result_array.value(3), ""); // no match → "" (empty string)
+
+        Ok(())
+    }
+
+    #[test]
+    fn test_regexp_extract_all_largeutf8() -> Result<()> {
+        use datafusion::common::cast::as_list_array;
+
+        let regex = Regex::new(r"(\d+)").unwrap();
+        let array = Arc::new(LargeStringArray::from(vec![
+            Some("a1b2c3"),
+            Some("x5y6"),
+            None,
+            Some("no digits"),
+        ])) as ArrayRef;
+
+        let result = regexp_extract_all_array::<i64>(&array, &regex, 0)?;
+        let list_array = as_list_array(&result)?;
+
+        // Row 0: "a1b2c3" → ["1", "2", "3"] (all matches)
+        let row0 = list_array.value(0);
+        let row0_str = row0
+            .as_any()
+            .downcast_ref::<GenericStringArray<i64>>()
+            .unwrap();
+        assert_eq!(row0_str.len(), 3);
+        assert_eq!(row0_str.value(0), "1");
+        assert_eq!(row0_str.value(1), "2");
+        assert_eq!(row0_str.value(2), "3");
+
+        // Row 1: "x5y6" → ["5", "6"] (all matches)
+        let row1 = list_array.value(1);
+        let row1_str = row1
+            .as_any()
+            .downcast_ref::<GenericStringArray<i64>>()
+            .unwrap();
+        assert_eq!(row1_str.len(), 2);
+        assert_eq!(row1_str.value(0), "5");
+        assert_eq!(row1_str.value(1), "6");
+
+        // Row 2: NULL input → NULL output
+        assert!(list_array.is_null(2));
+
+        // Row 3: "no digits" → [] (empty array, not NULL)
+        let row3 = list_array.value(3);
+        let row3_str = row3
+            .as_any()
+            .downcast_ref::<GenericStringArray<i64>>()
+            .unwrap();
+        assert_eq!(row3_str.len(), 0); // Empty array
+        assert!(!list_array.is_null(3)); // Not NULL, just empty
+
+        Ok(())
+    }
 }
diff --git a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
index 5214eb8215..01f6a24080 100644
--- a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
@@ -392,8 +392,6 @@ class CometStringExpressionSuite extends CometTestBase {
   }
 
   test("regexp_extract basic") {
-    import org.apache.comet.CometConf
-
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
       val data = Seq(
         ("100-200", 1),
@@ -422,8 +420,6 @@ class CometStringExpressionSuite extends CometTestBase {
   }
 
   test("regexp_extract edge cases") {
-    import org.apache.comet.CometConf
-
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
       val data =
         Seq(("email@example.com", 1), ("phone: 123-456-7890", 1), ("price: $99.99", 1), (null, 1))
@@ -441,8 +437,6 @@ class CometStringExpressionSuite extends CometTestBase {
   }
 
   test("regexp_extract_all basic") {
-    import org.apache.comet.CometConf
-
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
       val data = Seq(
         ("a1b2c3", 1),
@@ -468,8 +462,6 @@ class CometStringExpressionSuite extends CometTestBase {
   }
 
   test("regexp_extract_all multiple matches") {
-    import org.apache.comet.CometConf
-
     withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
       val data = Seq(
         ("The prices are $10, $20, and $30", 1),
@@ -487,20 +479,225 @@ class CometStringExpressionSuite extends CometTestBase {
   }
 
   test("regexp_extract_all with dictionary encoding") {
-    import org.apache.comet.CometConf
+    withSQLConf(
+      CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
+      "parquet.enable.dictionary" -> "true") {
+      // Use repeated values to trigger dictionary encoding
+      // Mix short strings, long strings, and various patterns
+      val longString1 = "prefix" + ("abc" * 100) + "123" + ("xyz" * 100) + "456"
+      val longString2 = "start" + ("test" * 200) + "789" + ("end" * 150)
+
+      val data = (0 until 2000).map(i => {
+        val text = i % 7 match {
+          case 0 => "a1b2c3" // Simple repeated pattern
+          case 1 => "x5y6" // Another simple pattern
+          case 2 => "no-match" // No digits
+          case 3 => longString1 // Long string with digits
+          case 4 => longString2 // Another long string
+          case 5 => "email@test.com-phone:123-456-7890" // Complex pattern
+          case 6 => "" // Empty string
+        }
+        (text, 1)
+      })
+
+      withParquetTable(data, "tbl") {
+        // Test simple pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)') FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 0) FROM tbl")
+
+        // Test complex patterns
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '(\\d{3}-\\d{3}-\\d{4})', 0) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '@([a-z]*)', 1) FROM tbl")
+
+        // Test with multiple groups
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d*)', 1) FROM tbl")
+      }
+    }
+  }
 
+  test("regexp_extract with dictionary encoding") {
     withSQLConf(
       CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
       "parquet.enable.dictionary" -> "true") {
       // Use repeated values to trigger dictionary encoding
-      val data = (0 until 1000).map(i => {
-        val text = if (i % 3 == 0) "a1b2c3" else if (i % 3 == 1) "x5y6" else "no-match"
+      // Mix short and long strings with various patterns
+      val longString1 = "data" + ("x" * 500) + "999" + ("y" * 500)
+      val longString2 = ("a" * 1000) + "777" + ("b" * 1000)
+
+      val data = (0 until 2000).map(i => {
+        val text = i % 7 match {
+          case 0 => "a1b2c3"
+          case 1 => "x5y6"
+          case 2 => "no-match"
+          case 3 => longString1
+          case 4 => longString2
+          case 5 => "IP:192.168.1.100-PORT:8080"
+          case 6 => ""
+        }
         (text, 1)
       })
 
       withParquetTable(data, "tbl") {
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+') FROM tbl")
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+', 0) FROM tbl")
+        // Test extracting first match with simple pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)', 1) FROM tbl")
+
+        // Test with complex patterns
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d+)\\.(\\d+)\\.(\\d+)\\.(\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, 'PORT:(\\d+)', 1) FROM tbl")
+
+        // Test with multiple groups - extract second group
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '([a-z])(\\d+)', 2) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract unicode and special characters") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("测试123test", 1), // Chinese characters
+        ("日本語456にほんご", 1), // Japanese characters
+        ("한글789Korean", 1), // Korean characters
+        ("Привет999Hello", 1), // Cyrillic
+        ("line1\nline2", 1), // Newline
+        ("tab\there", 1), // Tab
+        ("special: $#@!%^&*", 1), // Special chars
+        ("mixed测试123test日本語", 1), // Mixed unicode
+        (null, 1))
+
+      withParquetTable(data, "tbl") {
+        // Extract digits from unicode text
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
+
+        // Test word boundaries with unicode
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '([a-zA-Z]+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-zA-Z]+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all multiple groups") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("a1b2c3", 1),
+        ("x5y6z7", 1),
+        ("test123demo456end789", 1),
+        (null, 1),
+        ("no match here", 1))
+
+      withParquetTable(data, "tbl") {
+        // Test extracting different groups - full match
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d+)', 0) FROM tbl")
+        // Test extracting group 1 (letters)
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d+)', 1) FROM tbl")
+        // Test extracting group 2 (digits)
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d+)', 2) FROM tbl")
+
+        // Test with three groups
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z]+)(\\d+)([a-z]+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z]+)(\\d+)([a-z]+)', 2) FROM tbl")
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z]+)(\\d+)([a-z]+)', 3) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all group index out of bounds") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(("a1b2c3", 1), ("test123", 1), (null, 1))
+
+      withParquetTable(data, "tbl") {
+        // Group index out of bounds - should match Spark's behavior (error or empty)
+        // Pattern has only 1 group, asking for group 2
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 2) FROM tbl")
+
+        // Pattern has no groups, asking for group 1
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract complex patterns") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("2024-01-15", 1), // Date
+        ("192.168.1.1", 1), // IP address
+        ("user@domain.co.uk", 1), // Complex email
+        ("<tag>content</tag>", 1), // HTML-like
+        ("Time: 14:30:45.123", 1), // Timestamp
+        ("Version: 1.2.3-beta", 1), // Version string
+        ("RGB(255,128,0)", 1), // RGB color
+        (null, 1))
+
+      withParquetTable(data, "tbl") {
+        // Extract year from date
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d{4})-(\\d{2})-(\\d{2})', 1) FROM tbl")
+
+        // Extract month from date
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d{4})-(\\d{2})-(\\d{2})', 2) FROM tbl")
+
+        // Extract IP octets
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d+)\\.(\\d+)\\.(\\d+)\\.(\\d+)', 2) FROM tbl")
+
+        // Extract email domain
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '@([a-z.]+)', 1) FROM tbl")
+
+        // Extract time components
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\d{2}):(\\d{2}):(\\d{2})', 1) FROM tbl")
+
+        // Extract RGB values
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, 'RGB\\((\\d+),(\\d+),(\\d+)\\)', 2) FROM tbl")
+
+        // Test regexp_extract_all with complex patterns
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract vs regexp_extract_all comparison") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(("a1b2c3", 1), ("x5y6", 1), (null, 1), ("no digits", 1), ("single7match", 1))
+
+      withParquetTable(data, "tbl") {
+        // Compare single extraction vs all extractions in one query
+        checkSparkAnswerAndOperator("""SELECT 
+            |  regexp_extract(_1, '(\\d+)', 1) as first_match,
+            |  regexp_extract_all(_1, '(\\d+)', 1) as all_matches
+            |FROM tbl""".stripMargin)
+
+        // Verify regexp_extract returns first match only while regexp_extract_all returns all
+        checkSparkAnswerAndOperator("""SELECT 
+            |  _1,
+            |  regexp_extract(_1, '(\\d+)', 1) as first_digit,
+            |  regexp_extract_all(_1, '(\\d+)', 1) as all_digits
+            |FROM tbl""".stripMargin)
+
+        // Test with multiple groups
+        checkSparkAnswerAndOperator("""SELECT
+            |  regexp_extract(_1, '([a-z])(\\d+)', 1) as first_letter,
+            |  regexp_extract_all(_1, '([a-z])(\\d+)', 1) as all_letters,
+            |  regexp_extract(_1, '([a-z])(\\d+)', 2) as first_digit,
+            |  regexp_extract_all(_1, '([a-z])(\\d+)', 2) as all_digits
+            |FROM tbl""".stripMargin)
       }
     }
   }

From 84c0132e9e87203ce2b2f31dc33303dfc37b0228 Mon Sep 17 00:00:00 2001
From: Daniel Tu <danieltu.life@gmail.com>
Date: Sun, 7 Dec 2025 11:28:55 -0800
Subject: [PATCH 08/11] fix rust lint

---
 native/spark-expr/src/string_funcs/regexp_extract.rs | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/native/spark-expr/src/string_funcs/regexp_extract.rs b/native/spark-expr/src/string_funcs/regexp_extract.rs
index 559fc31f4c..38c80d8129 100644
--- a/native/spark-expr/src/string_funcs/regexp_extract.rs
+++ b/native/spark-expr/src/string_funcs/regexp_extract.rs
@@ -357,7 +357,7 @@ fn regexp_extract_all_array<T: OffsetSizeTrait>(
 
     let string_builder = GenericStringBuilder::<T>::new();
     let mut list_builder =
-        arrow::array::ListBuilder::new(string_builder).with_field(item_field.clone());
+        arrow::array::ListBuilder::new(string_builder).with_field(Arc::clone(&item_field));
 
     for s in string_array.iter() {
         match s {
@@ -379,9 +379,9 @@ fn regexp_extract_all_array<T: OffsetSizeTrait>(
     // Manually create a new ListArray with the correct field schema to ensure nullable is false
     // This ensures the schema matches what we declared in return_type
     Ok(Arc::new(ListArray::new(
-        FieldRef::from(item_field.clone()),
+        FieldRef::from(Arc::clone(&item_field)),
         list_array.offsets().clone(),
-        list_array.values().clone(),
+        Arc::clone(list_array.values()),
         list_array.nulls().cloned(),
     )))
 }

From a55263f2a5c6d2d96cfb0a1ba1e95aa595770e98 Mon Sep 17 00:00:00 2001
From: Daniel <danieltu.life@gmail.com>
Date: Sun, 7 Dec 2025 13:12:25 -0800
Subject: [PATCH 09/11] minor updates

---
 .../main/scala/org/apache/comet/serde/strings.scala  | 12 ------------
 .../apache/comet/CometStringExpressionSuite.scala    |  4 ++--
 2 files changed, 2 insertions(+), 14 deletions(-)

diff --git a/spark/src/main/scala/org/apache/comet/serde/strings.scala b/spark/src/main/scala/org/apache/comet/serde/strings.scala
index 6dfdfed385..51b41e2593 100644
--- a/spark/src/main/scala/org/apache/comet/serde/strings.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/strings.scala
@@ -309,12 +309,6 @@ object CometRegExpExtract extends CometExpressionSerde[RegExpExtract] {
     expr.idx match {
       case Literal(_, DataTypes.IntegerType) =>
         Compatible()
-      case Literal(_, DataTypes.LongType) =>
-        Compatible()
-      case Literal(_, DataTypes.ShortType) =>
-        Compatible()
-      case Literal(_, DataTypes.ByteType) =>
-        Compatible()
       case _ =>
         Unsupported(Some("Only literal group index is supported"))
     }
@@ -354,12 +348,6 @@ object CometRegExpExtractAll extends CometExpressionSerde[RegExpExtractAll] {
     expr.idx match {
       case Literal(_, DataTypes.IntegerType) =>
         Compatible()
-      case Literal(_, DataTypes.LongType) =>
-        Compatible()
-      case Literal(_, DataTypes.ShortType) =>
-        Compatible()
-      case Literal(_, DataTypes.ByteType) =>
-        Compatible()
       case _ =>
         Unsupported(Some("Only literal group index is supported"))
     }
diff --git a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
index 01f6a24080..0bdaba62b1 100644
--- a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
@@ -409,7 +409,7 @@ class CometStringExpressionSuite extends CometTestBase {
         checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 1) FROM tbl")
         // Test group 2
         checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 2) FROM tbl")
-        // Test non-existent group → should return ""
+        // Test non-existent group → should error
         checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 3) FROM tbl")
         // Test empty pattern
         checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '', 0) FROM tbl")
@@ -617,7 +617,7 @@ class CometStringExpressionSuite extends CometTestBase {
       val data = Seq(("a1b2c3", 1), ("test123", 1), (null, 1))
 
       withParquetTable(data, "tbl") {
-        // Group index out of bounds - should match Spark's behavior (error or empty)
+        // Group index out of bounds - should match Spark's behavior (error)
         // Pattern has only 1 group, asking for group 2
         checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 2) FROM tbl")
 

From 4b599d954f15ea02c1560eaead2633df3242df57 Mon Sep 17 00:00:00 2001
From: Daniel <danieltu.life@gmail.com>
Date: Mon, 29 Dec 2025 00:04:08 -0800
Subject: [PATCH 10/11] fix escape issue in test

---
 .../comet/CometRegexpExpressionSuite.scala    | 323 ++++++++++++++++++
 .../comet/CometStringExpressionSuite.scala    | 311 -----------------
 2 files changed, 323 insertions(+), 311 deletions(-)
 create mode 100644 spark/src/test/scala/org/apache/comet/CometRegexpExpressionSuite.scala

diff --git a/spark/src/test/scala/org/apache/comet/CometRegexpExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometRegexpExpressionSuite.scala
new file mode 100644
index 0000000000..541e97ff63
--- /dev/null
+++ b/spark/src/test/scala/org/apache/comet/CometRegexpExpressionSuite.scala
@@ -0,0 +1,323 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.comet
+
+import org.apache.spark.sql.CometTestBase
+
+class CometRegexpExpressionSuite extends CometTestBase {
+
+  test("regexp_extract basic") {
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("100-200", 1),
+        ("300-400", 1),
+        (null, 1), // NULL input
+        ("no-match", 1), // no match → should return ""
+        ("abc123def456", 1),
+        ("", 1) // empty string
+      )
+
+      withParquetTable(data, "tbl") {
+        // Test basic extraction: group 0 (full match)
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\\\d+)-(\\\\d+)', 0) FROM tbl")
+        // Test group 1
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\\\d+)-(\\\\d+)', 1) FROM tbl")
+        // Test group 2
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\\\d+)-(\\\\d+)', 2) FROM tbl")
+        // Test empty pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '', 0) FROM tbl")
+        // Test null pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, NULL, 0) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract edge cases") {
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data =
+        Seq(("email@example.com", 1), ("phone: 123-456-7890", 1), ("price: $99.99", 1), (null, 1))
+
+      withParquetTable(data, "tbl") {
+        // Extract email domain
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '@([^.]+)', 1) FROM tbl")
+        // Extract phone number
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\\\d{3}-\\\\d{3}-\\\\d{4})', 1) FROM tbl")
+        // Extract price
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '\\\\$(\\\\d+\\\\.\\\\d+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all basic") {
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("a1b2c3", 1),
+        ("test123test456", 1),
+        (null, 1), // NULL input
+        ("no digits", 1), // no match → should return []
+        ("", 1) // empty string
+      )
+
+      withParquetTable(data, "tbl") {
+        // Test with explicit group 0 (full match on no-group pattern)
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\\\d+', 0) FROM tbl")
+        // Test with explicit group 0
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\\\d+)', 0) FROM tbl")
+        // Test group 1
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\\\d+)', 1) FROM tbl")
+        // Test empty pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '', 0) FROM tbl")
+        // Test null pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, NULL, 0) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all multiple matches") {
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("The prices are $10, $20, and $30", 1),
+        ("colors: red, green, blue", 1),
+        ("words: hello world", 1),
+        (null, 1))
+
+      withParquetTable(data, "tbl") {
+        // Extract all prices
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\\\$(\\\\d+)', 1) FROM tbl")
+        // Extract all words
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z]+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all with dictionary encoding") {
+    withSQLConf(
+      CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
+      "parquet.enable.dictionary" -> "true") {
+      // Use repeated values to trigger dictionary encoding
+      // Mix short strings, long strings, and various patterns
+      val longString1 = "prefix" + ("abc" * 100) + "123" + ("xyz" * 100) + "456"
+      val longString2 = "start" + ("test" * 200) + "789" + ("end" * 150)
+
+      val data = (0 until 2000).map(i => {
+        val text = i % 7 match {
+          case 0 => "a1b2c3" // Simple repeated pattern
+          case 1 => "x5y6" // Another simple pattern
+          case 2 => "no-match" // No digits
+          case 3 => longString1 // Long string with digits
+          case 4 => longString2 // Another long string
+          case 5 => "email@test.com-phone:123-456-7890" // Complex pattern
+          case 6 => "" // Empty string
+        }
+        (text, 1)
+      })
+
+      withParquetTable(data, "tbl") {
+        // Test simple pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\\\d+)') FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\\\d+)', 0) FROM tbl")
+
+        // Test complex patterns
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '(\\\\d{3}-\\\\d{3}-\\\\d{4})', 0) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '@([a-z]*)', 1) FROM tbl")
+
+        // Test with multiple groups
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z])(\\\\d*)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract with dictionary encoding") {
+    withSQLConf(
+      CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
+      "parquet.enable.dictionary" -> "true") {
+      // Use repeated values to trigger dictionary encoding
+      // Mix short and long strings with various patterns
+      val longString1 = "data" + ("x" * 500) + "999" + ("y" * 500)
+      val longString2 = ("a" * 1000) + "777" + ("b" * 1000)
+
+      val data = (0 until 2000).map(i => {
+        val text = i % 7 match {
+          case 0 => "a1b2c3"
+          case 1 => "x5y6"
+          case 2 => "no-match"
+          case 3 => longString1
+          case 4 => longString2
+          case 5 => "IP:192.168.1.100-PORT:8080"
+          case 6 => ""
+        }
+        (text, 1)
+      })
+
+      withParquetTable(data, "tbl") {
+        // Test extracting first match with simple pattern
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\\\d+)', 1) FROM tbl")
+
+        // Test with complex patterns
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\\\d+)\\\\.(\\\\d+)\\\\.(\\\\d+)\\\\.(\\\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, 'PORT:(\\\\d+)', 1) FROM tbl")
+
+        // Test with multiple groups - extract second group
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '([a-z])(\\\\d+)', 2) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract unicode and special characters") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("测试123test", 1), // Chinese characters
+        ("日本語456にほんご", 1), // Japanese characters
+        ("한글789Korean", 1), // Korean characters
+        ("Привет999Hello", 1), // Cyrillic
+        ("line1\nline2", 1), // Newline
+        ("tab\there", 1), // Tab
+        ("special: $#@!%^&*", 1), // Special chars
+        ("mixed测试123test日本語", 1), // Mixed unicode
+        (null, 1))
+
+      withParquetTable(data, "tbl") {
+        // Extract digits from unicode text
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\\\d+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\\\d+)', 1) FROM tbl")
+
+        // Test word boundaries with unicode
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '([a-zA-Z]+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-zA-Z]+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract_all multiple groups") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("a1b2c3", 1),
+        ("x5y6z7", 1),
+        ("test123demo456end789", 1),
+        (null, 1),
+        ("no match here", 1))
+
+      withParquetTable(data, "tbl") {
+        // Test extracting different groups - full match
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z])(\\\\d+)', 0) FROM tbl")
+        // Test extracting group 1 (letters)
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z])(\\\\d+)', 1) FROM tbl")
+        // Test extracting group 2 (digits)
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z])(\\\\d+)', 2) FROM tbl")
+
+        // Test with three groups
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z]+)(\\\\d+)([a-z]+)', 1) FROM tbl")
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z]+)(\\\\d+)([a-z]+)', 2) FROM tbl")
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract_all(_1, '([a-z]+)(\\\\d+)([a-z]+)', 3) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract complex patterns") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(
+        ("2024-01-15", 1), // Date
+        ("192.168.1.1", 1), // IP address
+        ("user@domain.co.uk", 1), // Complex email
+        ("<tag>content</tag>", 1), // HTML-like
+        ("Time: 14:30:45.123", 1), // Timestamp
+        ("Version: 1.2.3-beta", 1), // Version string
+        ("RGB(255,128,0)", 1), // RGB color
+        (null, 1))
+
+      withParquetTable(data, "tbl") {
+        // Extract year from date
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\\\d{4})-(\\\\d{2})-(\\\\d{2})', 1) FROM tbl")
+
+        // Extract month from date
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\\\d{4})-(\\\\d{2})-(\\\\d{2})', 2) FROM tbl")
+
+        // Extract IP octets
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\\\d+)\\\\.(\\\\d+)\\\\.(\\\\d+)\\\\.(\\\\d+)', 2) FROM tbl")
+
+        // Extract email domain
+        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '@([a-z.]+)', 1) FROM tbl")
+
+        // Extract time components
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, '(\\\\d{2}):(\\\\d{2}):(\\\\d{2})', 1) FROM tbl")
+
+        // Extract RGB values
+        checkSparkAnswerAndOperator(
+          "SELECT regexp_extract(_1, 'RGB\\\\((\\\\d+),(\\\\d+),(\\\\d+)\\\\)', 2) FROM tbl")
+
+        // Test regexp_extract_all with complex patterns
+        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\\\d+)', 1) FROM tbl")
+      }
+    }
+  }
+
+  test("regexp_extract vs regexp_extract_all comparison") {
+    import org.apache.comet.CometConf
+
+    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
+      val data = Seq(("a1b2c3", 1), ("x5y6", 1), (null, 1), ("no digits", 1), ("single7match", 1))
+
+      withParquetTable(data, "tbl") {
+        // Compare single extraction vs all extractions in one query
+        checkSparkAnswerAndOperator("""SELECT 
+            |  regexp_extract(_1, '(\\\\d+)', 1) as first_match,
+            |  regexp_extract_all(_1, '(\\\\d+)', 1) as all_matches
+            |FROM tbl""".stripMargin)
+
+        // Verify regexp_extract returns first match only while regexp_extract_all returns all
+        checkSparkAnswerAndOperator("""SELECT 
+            |  _1,
+            |  regexp_extract(_1, '(\\\\d+)', 1) as first_digit,
+            |  regexp_extract_all(_1, '(\\\\d+)', 1) as all_digits
+            |FROM tbl""".stripMargin)
+
+        // Test with multiple groups
+        checkSparkAnswerAndOperator("""SELECT
+            |  regexp_extract(_1, '([a-z])(\\\\d+)', 1) as first_letter,
+            |  regexp_extract_all(_1, '([a-z])(\\\\d+)', 1) as all_letters,
+            |  regexp_extract(_1, '([a-z])(\\\\d+)', 2) as first_digit,
+            |  regexp_extract_all(_1, '([a-z])(\\\\d+)', 2) as all_digits
+            |FROM tbl""".stripMargin)
+      }
+    }
+  }
+
+}
diff --git a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
index 0bdaba62b1..f9882780c8 100644
--- a/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometStringExpressionSuite.scala
@@ -391,315 +391,4 @@ class CometStringExpressionSuite extends CometTestBase {
     }
   }
 
-  test("regexp_extract basic") {
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(
-        ("100-200", 1),
-        ("300-400", 1),
-        (null, 1), // NULL input
-        ("no-match", 1), // no match → should return ""
-        ("abc123def456", 1),
-        ("", 1) // empty string
-      )
-
-      withParquetTable(data, "tbl") {
-        // Test basic extraction: group 0 (full match)
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 0) FROM tbl")
-        // Test group 1
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 1) FROM tbl")
-        // Test group 2
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 2) FROM tbl")
-        // Test non-existent group → should error
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)-(\\d+)', 3) FROM tbl")
-        // Test empty pattern
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '', 0) FROM tbl")
-        // Test null pattern
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, NULL, 0) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract edge cases") {
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data =
-        Seq(("email@example.com", 1), ("phone: 123-456-7890", 1), ("price: $99.99", 1), (null, 1))
-
-      withParquetTable(data, "tbl") {
-        // Extract email domain
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '@([^.]+)', 1) FROM tbl")
-        // Extract phone number
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d{3}-\\d{3}-\\d{4})', 1) FROM tbl")
-        // Extract price
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '\\$(\\d+\\.\\d+)', 1) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract_all basic") {
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(
-        ("a1b2c3", 1),
-        ("test123test456", 1),
-        (null, 1), // NULL input
-        ("no digits", 1), // no match → should return []
-        ("", 1) // empty string
-      )
-
-      withParquetTable(data, "tbl") {
-        // Test with explicit group 0 (full match on no-group pattern)
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+', 0) FROM tbl")
-        // Test with explicit group 0
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 0) FROM tbl")
-        // Test group 1
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
-        // Test empty pattern
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '', 0) FROM tbl")
-        // Test null pattern
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, NULL, 0) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract_all multiple matches") {
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(
-        ("The prices are $10, $20, and $30", 1),
-        ("colors: red, green, blue", 1),
-        ("words: hello world", 1),
-        (null, 1))
-
-      withParquetTable(data, "tbl") {
-        // Extract all prices
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\$(\\d+)', 1) FROM tbl")
-        // Extract all words
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z]+)', 1) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract_all with dictionary encoding") {
-    withSQLConf(
-      CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
-      "parquet.enable.dictionary" -> "true") {
-      // Use repeated values to trigger dictionary encoding
-      // Mix short strings, long strings, and various patterns
-      val longString1 = "prefix" + ("abc" * 100) + "123" + ("xyz" * 100) + "456"
-      val longString2 = "start" + ("test" * 200) + "789" + ("end" * 150)
-
-      val data = (0 until 2000).map(i => {
-        val text = i % 7 match {
-          case 0 => "a1b2c3" // Simple repeated pattern
-          case 1 => "x5y6" // Another simple pattern
-          case 2 => "no-match" // No digits
-          case 3 => longString1 // Long string with digits
-          case 4 => longString2 // Another long string
-          case 5 => "email@test.com-phone:123-456-7890" // Complex pattern
-          case 6 => "" // Empty string
-        }
-        (text, 1)
-      })
-
-      withParquetTable(data, "tbl") {
-        // Test simple pattern
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)') FROM tbl")
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 0) FROM tbl")
-
-        // Test complex patterns
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '(\\d{3}-\\d{3}-\\d{4})', 0) FROM tbl")
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '@([a-z]*)', 1) FROM tbl")
-
-        // Test with multiple groups
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d*)', 1) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract with dictionary encoding") {
-    withSQLConf(
-      CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true",
-      "parquet.enable.dictionary" -> "true") {
-      // Use repeated values to trigger dictionary encoding
-      // Mix short and long strings with various patterns
-      val longString1 = "data" + ("x" * 500) + "999" + ("y" * 500)
-      val longString2 = ("a" * 1000) + "777" + ("b" * 1000)
-
-      val data = (0 until 2000).map(i => {
-        val text = i % 7 match {
-          case 0 => "a1b2c3"
-          case 1 => "x5y6"
-          case 2 => "no-match"
-          case 3 => longString1
-          case 4 => longString2
-          case 5 => "IP:192.168.1.100-PORT:8080"
-          case 6 => ""
-        }
-        (text, 1)
-      })
-
-      withParquetTable(data, "tbl") {
-        // Test extracting first match with simple pattern
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)', 1) FROM tbl")
-
-        // Test with complex patterns
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d+)\\.(\\d+)\\.(\\d+)\\.(\\d+)', 1) FROM tbl")
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, 'PORT:(\\d+)', 1) FROM tbl")
-
-        // Test with multiple groups - extract second group
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '([a-z])(\\d+)', 2) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract unicode and special characters") {
-    import org.apache.comet.CometConf
-
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(
-        ("测试123test", 1), // Chinese characters
-        ("日本語456にほんご", 1), // Japanese characters
-        ("한글789Korean", 1), // Korean characters
-        ("Привет999Hello", 1), // Cyrillic
-        ("line1\nline2", 1), // Newline
-        ("tab\there", 1), // Tab
-        ("special: $#@!%^&*", 1), // Special chars
-        ("mixed测试123test日本語", 1), // Mixed unicode
-        (null, 1))
-
-      withParquetTable(data, "tbl") {
-        // Extract digits from unicode text
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '(\\d+)', 1) FROM tbl")
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
-
-        // Test word boundaries with unicode
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '([a-zA-Z]+)', 1) FROM tbl")
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-zA-Z]+)', 1) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract_all multiple groups") {
-    import org.apache.comet.CometConf
-
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(
-        ("a1b2c3", 1),
-        ("x5y6z7", 1),
-        ("test123demo456end789", 1),
-        (null, 1),
-        ("no match here", 1))
-
-      withParquetTable(data, "tbl") {
-        // Test extracting different groups - full match
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d+)', 0) FROM tbl")
-        // Test extracting group 1 (letters)
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d+)', 1) FROM tbl")
-        // Test extracting group 2 (digits)
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '([a-z])(\\d+)', 2) FROM tbl")
-
-        // Test with three groups
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '([a-z]+)(\\d+)([a-z]+)', 1) FROM tbl")
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '([a-z]+)(\\d+)([a-z]+)', 2) FROM tbl")
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract_all(_1, '([a-z]+)(\\d+)([a-z]+)', 3) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract_all group index out of bounds") {
-    import org.apache.comet.CometConf
-
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(("a1b2c3", 1), ("test123", 1), (null, 1))
-
-      withParquetTable(data, "tbl") {
-        // Group index out of bounds - should match Spark's behavior (error)
-        // Pattern has only 1 group, asking for group 2
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 2) FROM tbl")
-
-        // Pattern has no groups, asking for group 1
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '\\d+', 1) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract complex patterns") {
-    import org.apache.comet.CometConf
-
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(
-        ("2024-01-15", 1), // Date
-        ("192.168.1.1", 1), // IP address
-        ("user@domain.co.uk", 1), // Complex email
-        ("<tag>content</tag>", 1), // HTML-like
-        ("Time: 14:30:45.123", 1), // Timestamp
-        ("Version: 1.2.3-beta", 1), // Version string
-        ("RGB(255,128,0)", 1), // RGB color
-        (null, 1))
-
-      withParquetTable(data, "tbl") {
-        // Extract year from date
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d{4})-(\\d{2})-(\\d{2})', 1) FROM tbl")
-
-        // Extract month from date
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d{4})-(\\d{2})-(\\d{2})', 2) FROM tbl")
-
-        // Extract IP octets
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d+)\\.(\\d+)\\.(\\d+)\\.(\\d+)', 2) FROM tbl")
-
-        // Extract email domain
-        checkSparkAnswerAndOperator("SELECT regexp_extract(_1, '@([a-z.]+)', 1) FROM tbl")
-
-        // Extract time components
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, '(\\d{2}):(\\d{2}):(\\d{2})', 1) FROM tbl")
-
-        // Extract RGB values
-        checkSparkAnswerAndOperator(
-          "SELECT regexp_extract(_1, 'RGB\\((\\d+),(\\d+),(\\d+)\\)', 2) FROM tbl")
-
-        // Test regexp_extract_all with complex patterns
-        checkSparkAnswerAndOperator("SELECT regexp_extract_all(_1, '(\\d+)', 1) FROM tbl")
-      }
-    }
-  }
-
-  test("regexp_extract vs regexp_extract_all comparison") {
-    import org.apache.comet.CometConf
-
-    withSQLConf(CometConf.COMET_REGEXP_ALLOW_INCOMPATIBLE.key -> "true") {
-      val data = Seq(("a1b2c3", 1), ("x5y6", 1), (null, 1), ("no digits", 1), ("single7match", 1))
-
-      withParquetTable(data, "tbl") {
-        // Compare single extraction vs all extractions in one query
-        checkSparkAnswerAndOperator("""SELECT 
-            |  regexp_extract(_1, '(\\d+)', 1) as first_match,
-            |  regexp_extract_all(_1, '(\\d+)', 1) as all_matches
-            |FROM tbl""".stripMargin)
-
-        // Verify regexp_extract returns first match only while regexp_extract_all returns all
-        checkSparkAnswerAndOperator("""SELECT 
-            |  _1,
-            |  regexp_extract(_1, '(\\d+)', 1) as first_digit,
-            |  regexp_extract_all(_1, '(\\d+)', 1) as all_digits
-            |FROM tbl""".stripMargin)
-
-        // Test with multiple groups
-        checkSparkAnswerAndOperator("""SELECT
-            |  regexp_extract(_1, '([a-z])(\\d+)', 1) as first_letter,
-            |  regexp_extract_all(_1, '([a-z])(\\d+)', 1) as all_letters,
-            |  regexp_extract(_1, '([a-z])(\\d+)', 2) as first_digit,
-            |  regexp_extract_all(_1, '([a-z])(\\d+)', 2) as all_digits
-            |FROM tbl""".stripMargin)
-      }
-    }
-  }
-
 }

From 65b239087cde54e44249e457ec57f673fa2e9cbd Mon Sep 17 00:00:00 2001
From: Daniel <danieltu.life@gmail.com>
Date: Mon, 29 Dec 2025 00:16:42 -0800
Subject: [PATCH 11/11] Merge remote-tracking branch 'apache/main' into
 regexp-extract-impl

---
 .github/workflows/pr_build_macos.yml          |   9 +
 .../source/user-guide/latest/compatibility.md |  10 +-
 docs/source/user-guide/latest/configs.md      |   1 +
 native/Cargo.lock                             |   4 +-
 native/core/src/execution/planner.rs          |   7 +
 native/spark-expr/Cargo.toml                  |   4 +
 native/spark-expr/benches/padding.rs          | 121 ++++
 native/spark-expr/src/agg_funcs/mod.rs        |   2 +
 native/spark-expr/src/agg_funcs/sum_int.rs    | 589 ++++++++++++++++++
 native/spark-expr/src/array_funcs/mod.rs      |   2 +
 native/spark-expr/src/array_funcs/size.rs     | 419 +++++++++++++
 native/spark-expr/src/comet_scalar_funcs.rs   |   5 +-
 .../spark-expr/src/conversion_funcs/cast.rs   | 420 ++++++++++++-
 .../char_varchar_utils/read_side_padding.rs   | 110 +++-
 .../org/apache/comet/DataTypeSupport.scala    |  10 +
 .../apache/comet/expressions/CometCast.scala  |  11 +-
 .../apache/comet/rules/CometExecRule.scala    |   9 +
 .../apache/comet/rules/CometScanRule.scala    |  24 +-
 .../rules/EliminateRedundantTransitions.scala |   6 +-
 .../apache/comet/serde/QueryPlanSerde.scala   |   3 +-
 .../org/apache/comet/serde/aggregates.scala   |  15 +-
 .../scala/org/apache/comet/serde/arrays.scala |  27 +-
 .../comet/CometArrayExpressionSuite.scala     |  42 ++
 .../org/apache/comet/CometCastSuite.scala     | 149 ++++-
 .../org/apache/comet/CometFuzzTestBase.scala  |  44 +-
 .../org/apache/comet/CometFuzzTestSuite.scala |  51 +-
 .../comet/CometMapExpressionSuite.scala       |  32 +
 .../comet/exec/CometAggregateSuite.scala      | 277 ++++++--
 .../parquet/CometParquetWriterSuite.scala     |  55 +-
 .../org/apache/spark/sql/CometTestBase.scala  |   9 +-
 .../benchmark/CometArithmeticBenchmark.scala  |  53 +-
 .../sql/benchmark/CometBenchmarkBase.scala    |  48 ++
 .../sql/benchmark/CometCastBenchmark.scala    |  42 +-
 .../CometCastStringToTemporalBenchmark.scala  | 101 +++
 .../CometConditionalExpressionBenchmark.scala |  49 +-
 .../CometDatetimeExpressionBenchmark.scala    |  12 +-
 .../CometJsonExpressionBenchmark.scala        |  31 +-
 .../CometPredicateExpressionBenchmark.scala   |  27 +-
 .../CometStringExpressionBenchmark.scala      |  31 +-
 .../sql/comet/CometPlanStabilitySuite.scala   |   3 +-
 .../spark/sql/CometToPrettyStringSuite.scala  |  11 +-
 .../spark/sql/CometToPrettyStringSuite.scala  |  11 +-
 42 files changed, 2430 insertions(+), 456 deletions(-)
 create mode 100644 native/spark-expr/benches/padding.rs
 create mode 100644 native/spark-expr/src/agg_funcs/sum_int.rs
 create mode 100644 native/spark-expr/src/array_funcs/size.rs
 create mode 100644 spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastStringToTemporalBenchmark.scala

diff --git a/.github/workflows/pr_build_macos.yml b/.github/workflows/pr_build_macos.yml
index 4c955346c7..0ad40c1932 100644
--- a/.github/workflows/pr_build_macos.yml
+++ b/.github/workflows/pr_build_macos.yml
@@ -131,6 +131,7 @@ jobs:
           - name: "sql"
             value: |
               org.apache.spark.sql.CometToPrettyStringSuite
+
       fail-fast: false
     name: ${{ matrix.os }}/${{ matrix.profile.name }} [${{ matrix.suite.name }}]
     runs-on: ${{ matrix.os }}
@@ -143,6 +144,14 @@ jobs:
           jdk-version: ${{ matrix.profile.java_version }}
           jdk-architecture: aarch64
           protoc-architecture: aarch_64
+      - name: Set thread thresholds envs for spark test on macOS
+        # see: https://github.com/apache/datafusion-comet/issues/2965
+        shell: bash
+        run: |
+          echo "SPARK_TEST_SQL_SHUFFLE_EXCHANGE_MAX_THREAD_THRESHOLD=256" >> $GITHUB_ENV
+          echo "SPARK_TEST_SQL_RESULT_QUERY_STAGE_MAX_THREAD_THRESHOLD=256" >> $GITHUB_ENV
+          echo "SPARK_TEST_HIVE_SHUFFLE_EXCHANGE_MAX_THREAD_THRESHOLD=48" >> $GITHUB_ENV
+          echo "SPARK_TEST_HIVE_RESULT_QUERY_STAGE_MAX_THREAD_THRESHOLD=48" >> $GITHUB_ENV
       - name: Java test steps
         uses: ./.github/actions/java-test
         with:
diff --git a/docs/source/user-guide/latest/compatibility.md b/docs/source/user-guide/latest/compatibility.md
index 60e2234f59..35bf097244 100644
--- a/docs/source/user-guide/latest/compatibility.md
+++ b/docs/source/user-guide/latest/compatibility.md
@@ -32,12 +32,11 @@ Comet has the following limitations when reading Parquet files:
 
 ## ANSI Mode
 
-Comet will fall back to Spark for the following expressions when ANSI mode is enabled. Thes expressions can be enabled by setting
+Comet will fall back to Spark for the following expressions when ANSI mode is enabled. These expressions can be enabled by setting
 `spark.comet.expression.EXPRNAME.allowIncompatible=true`, where `EXPRNAME` is the Spark expression class name. See
 the [Comet Supported Expressions Guide](expressions.md) for more information on this configuration setting.
 
 - Average
-- Sum
 - Cast (in some cases)
 
 There is an [epic](https://github.com/apache/datafusion-comet/issues/313) where we are tracking the work to fully implement ANSI support.
@@ -159,6 +158,8 @@ The following cast operations are generally compatible with Spark except for the
 | string | short |  |
 | string | integer |  |
 | string | long |  |
+| string | float |  |
+| string | double |  |
 | string | binary |  |
 | string | date | Only supports years between 262143 BC and 262142 AD |
 | binary | string |  |
@@ -181,9 +182,8 @@ The following cast operations are not compatible with Spark for all inputs and a
 |-|-|-|
 | float | decimal  | There can be rounding differences |
 | double | decimal  | There can be rounding differences |
-| string | float  | Does not support inputs ending with 'd' or 'f'. Does not support 'inf'. Does not support ANSI mode. |
-| string | double  | Does not support inputs ending with 'd' or 'f'. Does not support 'inf'. Does not support ANSI mode. |
-| string | decimal  | Does not support inputs ending with 'd' or 'f'. Does not support 'inf'. Does not support ANSI mode. Returns 0.0 instead of null if input contains no digits |
+| string | decimal  | Does not support fullwidth unicode digits (e.g \\uFF10)
+or strings containing null bytes (e.g \\u0000) |
 | string | timestamp  | Not all valid formats are supported |
 <!-- prettier-ignore-end -->
 <!--END:INCOMPAT_CAST_TABLE-->
diff --git a/docs/source/user-guide/latest/configs.md b/docs/source/user-guide/latest/configs.md
index bbb3d9aa34..5fd706d01a 100644
--- a/docs/source/user-guide/latest/configs.md
+++ b/docs/source/user-guide/latest/configs.md
@@ -309,6 +309,7 @@ These settings can be used to determine which parts of the plan are accelerated
 | `spark.comet.expression.Signum.enabled` | Enable Comet acceleration for `Signum` | true |
 | `spark.comet.expression.Sin.enabled` | Enable Comet acceleration for `Sin` | true |
 | `spark.comet.expression.Sinh.enabled` | Enable Comet acceleration for `Sinh` | true |
+| `spark.comet.expression.Size.enabled` | Enable Comet acceleration for `Size` | true |
 | `spark.comet.expression.SortOrder.enabled` | Enable Comet acceleration for `SortOrder` | true |
 | `spark.comet.expression.SparkPartitionID.enabled` | Enable Comet acceleration for `SparkPartitionID` | true |
 | `spark.comet.expression.Sqrt.enabled` | Enable Comet acceleration for `Sqrt` | true |
diff --git a/native/Cargo.lock b/native/Cargo.lock
index 7279aa901b..bf9a7ea2da 100644
--- a/native/Cargo.lock
+++ b/native/Cargo.lock
@@ -388,9 +388,9 @@ checksum = "b0f477b951e452a0b6b4a10b53ccd569042d1d01729b519e02074a9c0958a063"
 
 [[package]]
 name = "assertables"
-version = "9.8.2"
+version = "9.8.3"
 source = "registry+https://github.com/rust-lang/crates.io-index"
-checksum = "59051ec02907378a67b0ba1b8631121f5388c8dbbb3cec8c749d8f93c2c3c211"
+checksum = "cbada39b42413d4db3d9460f6e791702490c40f72924378a1b6fc1a4181188fd"
 
 [[package]]
 name = "async-channel"
diff --git a/native/core/src/execution/planner.rs b/native/core/src/execution/planner.rs
index 56de19d670..8e8191dd0e 100644
--- a/native/core/src/execution/planner.rs
+++ b/native/core/src/execution/planner.rs
@@ -71,6 +71,7 @@ use datafusion::{
 use datafusion_comet_spark_expr::{
     create_comet_physical_fun, create_comet_physical_fun_with_eval_mode, BinaryOutputStyle,
     BloomFilterAgg, BloomFilterMightContain, EvalMode, SparkHour, SparkMinute, SparkSecond,
+    SumInteger,
 };
 use iceberg::expr::Bind;
 
@@ -1813,6 +1814,12 @@ impl PhysicalPlanner {
                             AggregateUDF::new_from_impl(SumDecimal::try_new(datatype, eval_mode)?);
                         AggregateExprBuilder::new(Arc::new(func), vec![child])
                     }
+                    DataType::Int8 | DataType::Int16 | DataType::Int32 | DataType::Int64 => {
+                        let eval_mode = from_protobuf_eval_mode(expr.eval_mode)?;
+                        let func =
+                            AggregateUDF::new_from_impl(SumInteger::try_new(datatype, eval_mode)?);
+                        AggregateExprBuilder::new(Arc::new(func), vec![child])
+                    }
                     _ => {
                         // cast to the result data type of SUM if necessary, we should not expect
                         // a cast failure since it should have already been checked at Spark side
diff --git a/native/spark-expr/Cargo.toml b/native/spark-expr/Cargo.toml
index c973a5b37b..ea89c43204 100644
--- a/native/spark-expr/Cargo.toml
+++ b/native/spark-expr/Cargo.toml
@@ -76,6 +76,10 @@ harness = false
 name = "bloom_filter_agg"
 harness = false
 
+[[bench]]
+name = "padding"
+harness = false
+
 [[test]]
 name = "test_udf_registration"
 path = "tests/spark_expr_reg.rs"
diff --git a/native/spark-expr/benches/padding.rs b/native/spark-expr/benches/padding.rs
new file mode 100644
index 0000000000..cd9e28f2d7
--- /dev/null
+++ b/native/spark-expr/benches/padding.rs
@@ -0,0 +1,121 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+use arrow::array::builder::StringBuilder;
+use arrow::array::ArrayRef;
+use criterion::{criterion_group, criterion_main, Criterion};
+use datafusion::common::ScalarValue;
+use datafusion::physical_plan::ColumnarValue;
+use datafusion_comet_spark_expr::{spark_lpad, spark_rpad};
+use std::hint::black_box;
+use std::sync::Arc;
+
+fn create_string_array(size: usize) -> ArrayRef {
+    let mut builder = StringBuilder::new();
+    for i in 0..size {
+        if i % 10 == 0 {
+            builder.append_null();
+        } else {
+            builder.append_value(format!("string{}", i % 100));
+        }
+    }
+    Arc::new(builder.finish())
+}
+
+fn criterion_benchmark(c: &mut Criterion) {
+    let size = 8192;
+    let string_array = create_string_array(size);
+
+    // lpad with default padding (space)
+    c.bench_function("spark_lpad: default padding", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(20))),
+        ];
+        b.iter(|| black_box(spark_lpad(black_box(&args)).unwrap()))
+    });
+
+    // lpad with custom padding character
+    c.bench_function("spark_lpad: custom padding", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(20))),
+            ColumnarValue::Scalar(ScalarValue::Utf8(Some("*".to_string()))),
+        ];
+        b.iter(|| black_box(spark_lpad(black_box(&args)).unwrap()))
+    });
+
+    // rpad with default padding (space)
+    c.bench_function("spark_rpad: default padding", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(20))),
+        ];
+        b.iter(|| black_box(spark_rpad(black_box(&args)).unwrap()))
+    });
+
+    // rpad with custom padding character
+    c.bench_function("spark_rpad: custom padding", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(20))),
+            ColumnarValue::Scalar(ScalarValue::Utf8(Some("*".to_string()))),
+        ];
+        b.iter(|| black_box(spark_rpad(black_box(&args)).unwrap()))
+    });
+
+    // lpad with multi-character padding string
+    c.bench_function("spark_lpad: multi-char padding", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(20))),
+            ColumnarValue::Scalar(ScalarValue::Utf8(Some("abc".to_string()))),
+        ];
+        b.iter(|| black_box(spark_lpad(black_box(&args)).unwrap()))
+    });
+
+    // rpad with multi-character padding string
+    c.bench_function("spark_rpad: multi-char padding", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(20))),
+            ColumnarValue::Scalar(ScalarValue::Utf8(Some("abc".to_string()))),
+        ];
+        b.iter(|| black_box(spark_rpad(black_box(&args)).unwrap()))
+    });
+
+    // lpad with truncation (target length shorter than some strings)
+    c.bench_function("spark_lpad: with truncation", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(5))),
+        ];
+        b.iter(|| black_box(spark_lpad(black_box(&args)).unwrap()))
+    });
+
+    // rpad with truncation (target length shorter than some strings)
+    c.bench_function("spark_rpad: with truncation", |b| {
+        let args = vec![
+            ColumnarValue::Array(Arc::clone(&string_array)),
+            ColumnarValue::Scalar(ScalarValue::Int32(Some(5))),
+        ];
+        b.iter(|| black_box(spark_rpad(black_box(&args)).unwrap()))
+    });
+}
+
+criterion_group!(benches, criterion_benchmark);
+criterion_main!(benches);
diff --git a/native/spark-expr/src/agg_funcs/mod.rs b/native/spark-expr/src/agg_funcs/mod.rs
index 252da78890..b1027153e8 100644
--- a/native/spark-expr/src/agg_funcs/mod.rs
+++ b/native/spark-expr/src/agg_funcs/mod.rs
@@ -21,6 +21,7 @@ mod correlation;
 mod covariance;
 mod stddev;
 mod sum_decimal;
+mod sum_int;
 mod variance;
 
 pub use avg::Avg;
@@ -29,4 +30,5 @@ pub use correlation::Correlation;
 pub use covariance::Covariance;
 pub use stddev::Stddev;
 pub use sum_decimal::SumDecimal;
+pub use sum_int::SumInteger;
 pub use variance::Variance;
diff --git a/native/spark-expr/src/agg_funcs/sum_int.rs b/native/spark-expr/src/agg_funcs/sum_int.rs
new file mode 100644
index 0000000000..d226c5eded
--- /dev/null
+++ b/native/spark-expr/src/agg_funcs/sum_int.rs
@@ -0,0 +1,589 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+use crate::{arithmetic_overflow_error, EvalMode};
+use arrow::array::{
+    as_primitive_array, cast::AsArray, Array, ArrayRef, ArrowNativeTypeOp, ArrowPrimitiveType,
+    BooleanArray, Int64Array, PrimitiveArray,
+};
+use arrow::datatypes::{
+    ArrowNativeType, DataType, Field, FieldRef, Int16Type, Int32Type, Int64Type, Int8Type,
+};
+use datafusion::common::{DataFusionError, Result as DFResult, ScalarValue};
+use datafusion::logical_expr::function::{AccumulatorArgs, StateFieldsArgs};
+use datafusion::logical_expr::Volatility::Immutable;
+use datafusion::logical_expr::{
+    Accumulator, AggregateUDFImpl, EmitTo, GroupsAccumulator, ReversedUDAF, Signature,
+};
+use std::{any::Any, sync::Arc};
+
+#[derive(Debug, PartialEq, Eq, Hash)]
+pub struct SumInteger {
+    signature: Signature,
+    eval_mode: EvalMode,
+}
+
+impl SumInteger {
+    pub fn try_new(data_type: DataType, eval_mode: EvalMode) -> DFResult<Self> {
+        match data_type {
+            DataType::Int8 | DataType::Int16 | DataType::Int32 | DataType::Int64 => Ok(Self {
+                signature: Signature::user_defined(Immutable),
+                eval_mode,
+            }),
+            _ => Err(DataFusionError::Internal(
+                "Invalid data type for SumInteger".into(),
+            )),
+        }
+    }
+}
+
+impl AggregateUDFImpl for SumInteger {
+    fn as_any(&self) -> &dyn Any {
+        self
+    }
+
+    fn name(&self) -> &str {
+        "sum"
+    }
+
+    fn signature(&self) -> &Signature {
+        &self.signature
+    }
+
+    fn return_type(&self, _arg_types: &[DataType]) -> DFResult<DataType> {
+        Ok(DataType::Int64)
+    }
+
+    fn accumulator(&self, _acc_args: AccumulatorArgs) -> DFResult<Box<dyn Accumulator>> {
+        Ok(Box::new(SumIntegerAccumulator::new(self.eval_mode)))
+    }
+
+    fn state_fields(&self, _args: StateFieldsArgs) -> DFResult<Vec<FieldRef>> {
+        if self.eval_mode == EvalMode::Try {
+            Ok(vec![
+                Arc::new(Field::new("sum", DataType::Int64, true)),
+                Arc::new(Field::new("has_all_nulls", DataType::Boolean, false)),
+            ])
+        } else {
+            Ok(vec![Arc::new(Field::new("sum", DataType::Int64, true))])
+        }
+    }
+
+    fn groups_accumulator_supported(&self, _args: AccumulatorArgs) -> bool {
+        true
+    }
+
+    fn create_groups_accumulator(
+        &self,
+        _args: AccumulatorArgs,
+    ) -> DFResult<Box<dyn GroupsAccumulator>> {
+        Ok(Box::new(SumIntGroupsAccumulator::new(self.eval_mode)))
+    }
+
+    fn reverse_expr(&self) -> ReversedUDAF {
+        ReversedUDAF::Identical
+    }
+}
+
+#[derive(Debug)]
+struct SumIntegerAccumulator {
+    sum: Option<i64>,
+    eval_mode: EvalMode,
+    has_all_nulls: bool,
+}
+
+impl SumIntegerAccumulator {
+    fn new(eval_mode: EvalMode) -> Self {
+        if eval_mode == EvalMode::Try {
+            Self {
+                // Try mode starts with 0 (because if this is init to None we cant say if it is none due to all nulls or due to an overflow)
+                sum: Some(0),
+                has_all_nulls: true,
+                eval_mode,
+            }
+        } else {
+            Self {
+                sum: None,
+                has_all_nulls: false,
+                eval_mode,
+            }
+        }
+    }
+}
+
+impl Accumulator for SumIntegerAccumulator {
+    fn update_batch(&mut self, values: &[ArrayRef]) -> DFResult<()> {
+        // accumulator internal to add sum and return null sum (and has_nulls false) if there is an overflow in Try Eval mode
+        fn update_sum_internal<T>(
+            int_array: &PrimitiveArray<T>,
+            eval_mode: EvalMode,
+            mut sum: i64,
+        ) -> Result<Option<i64>, DataFusionError>
+        where
+            T: ArrowPrimitiveType,
+        {
+            for i in 0..int_array.len() {
+                if !int_array.is_null(i) {
+                    let v = int_array.value(i).to_i64().ok_or_else(|| {
+                        DataFusionError::Internal(format!(
+                            "Failed to convert value {:?} to i64",
+                            int_array.value(i)
+                        ))
+                    })?;
+                    match eval_mode {
+                        EvalMode::Legacy => {
+                            sum = v.add_wrapping(sum);
+                        }
+                        EvalMode::Ansi | EvalMode::Try => {
+                            match v.add_checked(sum) {
+                                Ok(v) => sum = v,
+                                Err(_e) => {
+                                    return if eval_mode == EvalMode::Ansi {
+                                        Err(DataFusionError::from(arithmetic_overflow_error(
+                                            "integer",
+                                        )))
+                                    } else {
+                                        Ok(None)
+                                    };
+                                }
+                            };
+                        }
+                    }
+                }
+            }
+            Ok(Some(sum))
+        }
+
+        if self.eval_mode == EvalMode::Try && !self.has_all_nulls && self.sum.is_none() {
+            // we saw an overflow earlier (Try eval mode). Skip processing
+            return Ok(());
+        }
+        let values = &values[0];
+        if values.len() == values.null_count() {
+            Ok(())
+        } else {
+            // No nulls so there should be a non-null sum / null incase overflow in Try eval
+            let running_sum = self.sum.unwrap_or(0);
+            let sum = match values.data_type() {
+                DataType::Int64 => update_sum_internal(
+                    as_primitive_array::<Int64Type>(values),
+                    self.eval_mode,
+                    running_sum,
+                )?,
+                DataType::Int32 => update_sum_internal(
+                    as_primitive_array::<Int32Type>(values),
+                    self.eval_mode,
+                    running_sum,
+                )?,
+                DataType::Int16 => update_sum_internal(
+                    as_primitive_array::<Int16Type>(values),
+                    self.eval_mode,
+                    running_sum,
+                )?,
+                DataType::Int8 => update_sum_internal(
+                    as_primitive_array::<Int8Type>(values),
+                    self.eval_mode,
+                    running_sum,
+                )?,
+                _ => {
+                    return Err(DataFusionError::Internal(format!(
+                        "unsupported data type: {:?}",
+                        values.data_type()
+                    )));
+                }
+            };
+            self.sum = sum;
+            self.has_all_nulls = false;
+            Ok(())
+        }
+    }
+
+    fn evaluate(&mut self) -> DFResult<ScalarValue> {
+        if self.has_all_nulls {
+            Ok(ScalarValue::Int64(None))
+        } else {
+            Ok(ScalarValue::Int64(self.sum))
+        }
+    }
+
+    fn size(&self) -> usize {
+        std::mem::size_of_val(self)
+    }
+
+    fn state(&mut self) -> DFResult<Vec<ScalarValue>> {
+        if self.eval_mode == EvalMode::Try {
+            Ok(vec![
+                ScalarValue::Int64(self.sum),
+                ScalarValue::Boolean(Some(self.has_all_nulls)),
+            ])
+        } else {
+            Ok(vec![ScalarValue::Int64(self.sum)])
+        }
+    }
+
+    fn merge_batch(&mut self, states: &[ArrayRef]) -> DFResult<()> {
+        let expected_state_len = if self.eval_mode == EvalMode::Try {
+            2
+        } else {
+            1
+        };
+        if expected_state_len != states.len() {
+            return Err(DataFusionError::Internal(format!(
+                "Invalid state while merging batch. Expected {} elements but found {}",
+                expected_state_len,
+                states.len()
+            )));
+        }
+
+        let that_sum_array = states[0].as_primitive::<Int64Type>();
+        let that_sum = if that_sum_array.is_null(0) {
+            None
+        } else {
+            Some(that_sum_array.value(0))
+        };
+
+        // Check for overflow for early termination
+        if self.eval_mode == EvalMode::Try {
+            let that_has_all_nulls = states[1].as_boolean().value(0);
+            let that_overflowed = !that_has_all_nulls && that_sum.is_none();
+            let this_overflowed = !self.has_all_nulls && self.sum.is_none();
+            if that_overflowed || this_overflowed {
+                self.sum = None;
+                self.has_all_nulls = false;
+                return Ok(());
+            }
+            if that_has_all_nulls {
+                return Ok(());
+            }
+            if self.has_all_nulls {
+                self.sum = that_sum;
+                self.has_all_nulls = false;
+                return Ok(());
+            }
+        } else {
+            if that_sum.is_none() {
+                return Ok(());
+            }
+            if self.sum.is_none() {
+                self.sum = that_sum;
+                return Ok(());
+            }
+        }
+
+        // safe to unwrap (since we checked nulls above) but handling error just in case state is corrupt
+        let left = self.sum.ok_or_else(|| {
+            DataFusionError::Internal(
+                "Invalid state in merging batch. Current batch's sum is None".to_string(),
+            )
+        })?;
+        let right = that_sum.ok_or_else(|| {
+            DataFusionError::Internal(
+                "Invalid state in merging batch. Incoming sum is None".to_string(),
+            )
+        })?;
+
+        match self.eval_mode {
+            EvalMode::Legacy => {
+                self.sum = Some(left.add_wrapping(right));
+            }
+            EvalMode::Ansi | EvalMode::Try => match left.add_checked(right) {
+                Ok(v) => self.sum = Some(v),
+                Err(_) => {
+                    if self.eval_mode == EvalMode::Ansi {
+                        return Err(DataFusionError::from(arithmetic_overflow_error("integer")));
+                    } else {
+                        self.sum = None;
+                        self.has_all_nulls = false;
+                    }
+                }
+            },
+        }
+        Ok(())
+    }
+}
+
+struct SumIntGroupsAccumulator {
+    sums: Vec<Option<i64>>,
+    has_all_nulls: Vec<bool>,
+    eval_mode: EvalMode,
+}
+
+impl SumIntGroupsAccumulator {
+    fn new(eval_mode: EvalMode) -> Self {
+        Self {
+            sums: Vec::new(),
+            eval_mode,
+            has_all_nulls: Vec::new(),
+        }
+    }
+
+    fn resize_helper(&mut self, total_num_groups: usize) {
+        if self.eval_mode == EvalMode::Try {
+            self.sums.resize(total_num_groups, Some(0));
+            self.has_all_nulls.resize(total_num_groups, true);
+        } else {
+            self.sums.resize(total_num_groups, None);
+            self.has_all_nulls.resize(total_num_groups, false);
+        }
+    }
+}
+
+impl GroupsAccumulator for SumIntGroupsAccumulator {
+    fn update_batch(
+        &mut self,
+        values: &[ArrayRef],
+        group_indices: &[usize],
+        opt_filter: Option<&BooleanArray>,
+        total_num_groups: usize,
+    ) -> DFResult<()> {
+        fn update_groups_sum_internal<T>(
+            int_array: &PrimitiveArray<T>,
+            group_indices: &[usize],
+            sums: &mut [Option<i64>],
+            has_all_nulls: &mut [bool],
+            eval_mode: EvalMode,
+        ) -> DFResult<()>
+        where
+            T: ArrowPrimitiveType,
+            T::Native: ArrowNativeType,
+        {
+            for (i, &group_index) in group_indices.iter().enumerate() {
+                if !int_array.is_null(i) {
+                    // there is an overflow in prev group in try eval. Skip processing
+                    if eval_mode == EvalMode::Try
+                        && !has_all_nulls[group_index]
+                        && sums[group_index].is_none()
+                    {
+                        continue;
+                    }
+                    let v = int_array.value(i).to_i64().ok_or_else(|| {
+                        DataFusionError::Internal("Failed to convert value to i64".to_string())
+                    })?;
+                    match eval_mode {
+                        EvalMode::Legacy => {
+                            sums[group_index] =
+                                Some(sums[group_index].unwrap_or(0).add_wrapping(v));
+                        }
+                        EvalMode::Ansi | EvalMode::Try => {
+                            match sums[group_index].unwrap_or(0).add_checked(v) {
+                                Ok(new_sum) => {
+                                    sums[group_index] = Some(new_sum);
+                                }
+                                Err(_) => {
+                                    if eval_mode == EvalMode::Ansi {
+                                        return Err(DataFusionError::from(
+                                            arithmetic_overflow_error("integer"),
+                                        ));
+                                    } else {
+                                        sums[group_index] = None;
+                                    }
+                                }
+                            };
+                        }
+                    }
+                    has_all_nulls[group_index] = false
+                }
+            }
+            Ok(())
+        }
+
+        debug_assert!(opt_filter.is_none(), "opt_filter is not supported yet");
+        let values = &values[0];
+        self.resize_helper(total_num_groups);
+
+        match values.data_type() {
+            DataType::Int64 => update_groups_sum_internal(
+                as_primitive_array::<Int64Type>(values),
+                group_indices,
+                &mut self.sums,
+                &mut self.has_all_nulls,
+                self.eval_mode,
+            )?,
+            DataType::Int32 => update_groups_sum_internal(
+                as_primitive_array::<Int32Type>(values),
+                group_indices,
+                &mut self.sums,
+                &mut self.has_all_nulls,
+                self.eval_mode,
+            )?,
+            DataType::Int16 => update_groups_sum_internal(
+                as_primitive_array::<Int16Type>(values),
+                group_indices,
+                &mut self.sums,
+                &mut self.has_all_nulls,
+                self.eval_mode,
+            )?,
+            DataType::Int8 => update_groups_sum_internal(
+                as_primitive_array::<Int8Type>(values),
+                group_indices,
+                &mut self.sums,
+                &mut self.has_all_nulls,
+                self.eval_mode,
+            )?,
+            _ => {
+                return Err(DataFusionError::Internal(format!(
+                    "Unsupported data type for SumIntGroupsAccumulator: {:?}",
+                    values.data_type()
+                )))
+            }
+        };
+        Ok(())
+    }
+
+    fn evaluate(&mut self, emit_to: EmitTo) -> DFResult<ArrayRef> {
+        match emit_to {
+            EmitTo::All => {
+                let result = Arc::new(Int64Array::from_iter(
+                    self.sums
+                        .iter()
+                        .zip(self.has_all_nulls.iter())
+                        .map(|(&sum, &is_null)| if is_null { None } else { sum }),
+                )) as ArrayRef;
+
+                self.sums.clear();
+                self.has_all_nulls.clear();
+                Ok(result)
+            }
+            EmitTo::First(n) => {
+                let result = Arc::new(Int64Array::from_iter(
+                    self.sums
+                        .drain(..n)
+                        .zip(self.has_all_nulls.drain(..n))
+                        .map(|(sum, is_null)| if is_null { None } else { sum }),
+                )) as ArrayRef;
+                Ok(result)
+            }
+        }
+    }
+
+    fn state(&mut self, emit_to: EmitTo) -> DFResult<Vec<ArrayRef>> {
+        let sums = emit_to.take_needed(&mut self.sums);
+
+        if self.eval_mode == EvalMode::Try {
+            let has_all_nulls = emit_to.take_needed(&mut self.has_all_nulls);
+            Ok(vec![
+                Arc::new(Int64Array::from(sums)),
+                Arc::new(BooleanArray::from(has_all_nulls)),
+            ])
+        } else {
+            Ok(vec![Arc::new(Int64Array::from(sums))])
+        }
+    }
+
+    fn merge_batch(
+        &mut self,
+        values: &[ArrayRef],
+        group_indices: &[usize],
+        opt_filter: Option<&BooleanArray>,
+        total_num_groups: usize,
+    ) -> DFResult<()> {
+        debug_assert!(opt_filter.is_none(), "opt_filter is not supported yet");
+
+        let expected_state_len = if self.eval_mode == EvalMode::Try {
+            2
+        } else {
+            1
+        };
+        if expected_state_len != values.len() {
+            return Err(DataFusionError::Internal(format!(
+                "Invalid state while merging batch. Expected {} elements but found {}",
+                expected_state_len,
+                values.len()
+            )));
+        }
+        let that_sums = values[0].as_primitive::<Int64Type>();
+
+        self.resize_helper(total_num_groups);
+
+        let that_sums_is_all_nulls = if self.eval_mode == EvalMode::Try {
+            Some(values[1].as_boolean())
+        } else {
+            None
+        };
+
+        for (idx, &group_index) in group_indices.iter().enumerate() {
+            let that_sum = if that_sums.is_null(idx) {
+                None
+            } else {
+                Some(that_sums.value(idx))
+            };
+
+            if self.eval_mode == EvalMode::Try {
+                let that_has_all_nulls = that_sums_is_all_nulls.unwrap().value(idx);
+
+                let that_overflowed = !that_has_all_nulls && that_sum.is_none();
+                let this_overflowed =
+                    !self.has_all_nulls[group_index] && self.sums[group_index].is_none();
+
+                if that_overflowed || this_overflowed {
+                    self.sums[group_index] = None;
+                    self.has_all_nulls[group_index] = false;
+                    continue;
+                }
+
+                if that_has_all_nulls {
+                    continue;
+                }
+
+                if self.has_all_nulls[group_index] {
+                    self.sums[group_index] = that_sum;
+                    self.has_all_nulls[group_index] = false;
+                    continue;
+                }
+            } else {
+                if that_sum.is_none() {
+                    continue;
+                }
+                if self.sums[group_index].is_none() {
+                    self.sums[group_index] = that_sum;
+                    continue;
+                }
+            }
+
+            // Both sides have non-null. Update sums now
+            let left = self.sums[group_index].unwrap();
+            let right = that_sum.unwrap();
+
+            match self.eval_mode {
+                EvalMode::Legacy => {
+                    self.sums[group_index] = Some(left.add_wrapping(right));
+                }
+                EvalMode::Ansi | EvalMode::Try => {
+                    match left.add_checked(right) {
+                        Ok(v) => self.sums[group_index] = Some(v),
+                        Err(_) => {
+                            if self.eval_mode == EvalMode::Ansi {
+                                return Err(DataFusionError::from(arithmetic_overflow_error(
+                                    "integer",
+                                )));
+                            } else {
+                                // overflow. update flag accordingly
+                                self.sums[group_index] = None;
+                                self.has_all_nulls[group_index] = false;
+                            }
+                        }
+                    }
+                }
+            }
+        }
+        Ok(())
+    }
+
+    fn size(&self) -> usize {
+        std::mem::size_of_val(self)
+    }
+}
diff --git a/native/spark-expr/src/array_funcs/mod.rs b/native/spark-expr/src/array_funcs/mod.rs
index cdfb1f4db4..063dd7a5aa 100644
--- a/native/spark-expr/src/array_funcs/mod.rs
+++ b/native/spark-expr/src/array_funcs/mod.rs
@@ -19,8 +19,10 @@ mod array_insert;
 mod array_repeat;
 mod get_array_struct_fields;
 mod list_extract;
+mod size;
 
 pub use array_insert::ArrayInsert;
 pub use array_repeat::spark_array_repeat;
 pub use get_array_struct_fields::GetArrayStructFields;
 pub use list_extract::ListExtract;
+pub use size::{spark_size, SparkSizeFunc};
diff --git a/native/spark-expr/src/array_funcs/size.rs b/native/spark-expr/src/array_funcs/size.rs
new file mode 100644
index 0000000000..9777553341
--- /dev/null
+++ b/native/spark-expr/src/array_funcs/size.rs
@@ -0,0 +1,419 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+use arrow::array::{Array, ArrayRef, Int32Array};
+use arrow::datatypes::{DataType, Field};
+use datafusion::common::{exec_err, DataFusionError, Result as DataFusionResult, ScalarValue};
+use datafusion::logical_expr::{
+    ColumnarValue, ScalarFunctionArgs, ScalarUDFImpl, Signature, Volatility,
+};
+use std::any::Any;
+use std::sync::Arc;
+
+/// Spark size() function that returns the size of arrays or maps.
+/// Returns -1 for null inputs (Spark behavior differs from standard SQL).
+pub fn spark_size(args: &[ColumnarValue]) -> Result<ColumnarValue, DataFusionError> {
+    if args.len() != 1 {
+        return exec_err!("size function takes exactly one argument");
+    }
+
+    match &args[0] {
+        ColumnarValue::Array(array) => {
+            let result = spark_size_array(array)?;
+            Ok(ColumnarValue::Array(result))
+        }
+        ColumnarValue::Scalar(scalar) => {
+            let result = spark_size_scalar(scalar)?;
+            Ok(ColumnarValue::Scalar(result))
+        }
+    }
+}
+
+#[derive(Debug, Hash, Eq, PartialEq)]
+pub struct SparkSizeFunc {
+    signature: Signature,
+}
+
+impl Default for SparkSizeFunc {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+
+impl SparkSizeFunc {
+    pub fn new() -> Self {
+        use DataType::*;
+        Self {
+            signature: Signature::uniform(
+                1,
+                vec![
+                    List(Arc::new(Field::new("item", Null, true))),
+                    LargeList(Arc::new(Field::new("item", Null, true))),
+                    FixedSizeList(Arc::new(Field::new("item", Null, true)), -1),
+                    Map(Arc::new(Field::new("entries", Null, true)), false),
+                ],
+                Volatility::Immutable,
+            ),
+        }
+    }
+}
+
+impl ScalarUDFImpl for SparkSizeFunc {
+    fn as_any(&self) -> &dyn Any {
+        self
+    }
+
+    fn name(&self) -> &str {
+        "size"
+    }
+
+    fn signature(&self) -> &Signature {
+        &self.signature
+    }
+
+    fn return_type(&self, _arg_types: &[DataType]) -> DataFusionResult<DataType> {
+        Ok(DataType::Int32)
+    }
+
+    fn invoke_with_args(&self, args: ScalarFunctionArgs) -> DataFusionResult<ColumnarValue> {
+        spark_size(&args.args)
+    }
+}
+
+fn spark_size_array(array: &ArrayRef) -> Result<ArrayRef, DataFusionError> {
+    let mut builder = Int32Array::builder(array.len());
+
+    match array.data_type() {
+        DataType::List(_) => {
+            let list_array = array
+                .as_any()
+                .downcast_ref::<arrow::array::ListArray>()
+                .ok_or_else(|| DataFusionError::Internal("Expected ListArray".to_string()))?;
+
+            for i in 0..list_array.len() {
+                if list_array.is_null(i) {
+                    builder.append_value(-1); // Spark behavior: return -1 for null
+                } else {
+                    let list_len = list_array.value(i).len() as i32;
+                    builder.append_value(list_len);
+                }
+            }
+        }
+        DataType::LargeList(_) => {
+            let list_array = array
+                .as_any()
+                .downcast_ref::<arrow::array::LargeListArray>()
+                .ok_or_else(|| DataFusionError::Internal("Expected LargeListArray".to_string()))?;
+
+            for i in 0..list_array.len() {
+                if list_array.is_null(i) {
+                    builder.append_value(-1); // Spark behavior: return -1 for null
+                } else {
+                    let list_len = list_array.value(i).len() as i32;
+                    builder.append_value(list_len);
+                }
+            }
+        }
+        DataType::FixedSizeList(_, size) => {
+            let fixed_list_array = array
+                .as_any()
+                .downcast_ref::<arrow::array::FixedSizeListArray>()
+                .ok_or_else(|| {
+                    DataFusionError::Internal("Expected FixedSizeListArray".to_string())
+                })?;
+
+            for i in 0..fixed_list_array.len() {
+                if fixed_list_array.is_null(i) {
+                    builder.append_value(-1); // Spark behavior: return -1 for null
+                } else {
+                    builder.append_value(*size);
+                }
+            }
+        }
+        DataType::Map(_, _) => {
+            let map_array = array
+                .as_any()
+                .downcast_ref::<arrow::array::MapArray>()
+                .ok_or_else(|| DataFusionError::Internal("Expected MapArray".to_string()))?;
+
+            for i in 0..map_array.len() {
+                if map_array.is_null(i) {
+                    builder.append_value(-1); // Spark behavior: return -1 for null
+                } else {
+                    let map_len = map_array.value_length(i);
+                    builder.append_value(map_len);
+                }
+            }
+        }
+        _ => {
+            return exec_err!(
+                "size function only supports arrays and maps, got: {:?}",
+                array.data_type()
+            );
+        }
+    }
+
+    Ok(Arc::new(builder.finish()))
+}
+
+fn spark_size_scalar(scalar: &ScalarValue) -> Result<ScalarValue, DataFusionError> {
+    match scalar {
+        ScalarValue::List(array) => {
+            // ScalarValue::List contains a ListArray with exactly one row.
+            // We need the length of that row's contents, not the row count.
+            if array.is_null(0) {
+                Ok(ScalarValue::Int32(Some(-1))) // Spark behavior: return -1 for null
+            } else {
+                let len = array.value(0).len() as i32;
+                Ok(ScalarValue::Int32(Some(len)))
+            }
+        }
+        ScalarValue::LargeList(array) => {
+            if array.is_null(0) {
+                Ok(ScalarValue::Int32(Some(-1)))
+            } else {
+                let len = array.value(0).len() as i32;
+                Ok(ScalarValue::Int32(Some(len)))
+            }
+        }
+        ScalarValue::FixedSizeList(array) => {
+            if array.is_null(0) {
+                Ok(ScalarValue::Int32(Some(-1)))
+            } else {
+                let len = array.value(0).len() as i32;
+                Ok(ScalarValue::Int32(Some(len)))
+            }
+        }
+        ScalarValue::Null => {
+            Ok(ScalarValue::Int32(Some(-1))) // Spark behavior: return -1 for null
+        }
+        _ => {
+            exec_err!(
+                "size function only supports arrays and maps, got: {:?}",
+                scalar
+            )
+        }
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use arrow::array::{Int32Array, ListArray, NullBufferBuilder};
+    use arrow::datatypes::{DataType, Field};
+    use std::sync::Arc;
+
+    #[test]
+    fn test_spark_size_array() {
+        // Create test data: [[1, 2, 3], [4, 5], null, []]
+        let value_data = Int32Array::from(vec![1, 2, 3, 4, 5]);
+        let value_offsets = arrow::buffer::OffsetBuffer::new(vec![0, 3, 5, 5, 5].into());
+        let field = Arc::new(Field::new("item", DataType::Int32, true));
+
+        let mut null_buffer = NullBufferBuilder::new(4);
+        null_buffer.append(true); // [1, 2, 3] - not null
+        null_buffer.append(true); // [4, 5] - not null
+        null_buffer.append(false); // null
+        null_buffer.append(true); // [] - not null but empty
+
+        let list_array = ListArray::try_new(
+            field,
+            value_offsets,
+            Arc::new(value_data),
+            null_buffer.finish(),
+        )
+        .unwrap();
+
+        let array_ref: ArrayRef = Arc::new(list_array);
+        let result = spark_size_array(&array_ref).unwrap();
+        let result = result.as_any().downcast_ref::<Int32Array>().unwrap();
+
+        // Expected: [3, 2, -1, 0]
+        assert_eq!(result.value(0), 3); // [1, 2, 3] has 3 elements
+        assert_eq!(result.value(1), 2); // [4, 5] has 2 elements
+        assert_eq!(result.value(2), -1); // null returns -1
+        assert_eq!(result.value(3), 0); // [] has 0 elements
+    }
+
+    #[test]
+    fn test_spark_size_scalar() {
+        // Test non-null list with 3 elements
+        let values = Int32Array::from(vec![1, 2, 3]);
+        let field = Arc::new(Field::new("item", DataType::Int32, true));
+        let offsets = arrow::buffer::OffsetBuffer::new(vec![0, 3].into());
+        let list_array = ListArray::try_new(field, offsets, Arc::new(values), None).unwrap();
+        let scalar = ScalarValue::List(Arc::new(list_array));
+        let result = spark_size_scalar(&scalar).unwrap();
+        assert_eq!(result, ScalarValue::Int32(Some(3))); // The array [1,2,3] has 3 elements
+
+        // Test empty list
+        let empty_values = Int32Array::from(vec![] as Vec<i32>);
+        let field = Arc::new(Field::new("item", DataType::Int32, true));
+        let offsets = arrow::buffer::OffsetBuffer::new(vec![0, 0].into());
+        let empty_list_array =
+            ListArray::try_new(field, offsets, Arc::new(empty_values), None).unwrap();
+        let scalar = ScalarValue::List(Arc::new(empty_list_array));
+        let result = spark_size_scalar(&scalar).unwrap();
+        assert_eq!(result, ScalarValue::Int32(Some(0))); // Empty array has 0 elements
+
+        // Test null handling
+        let scalar = ScalarValue::Null;
+        let result = spark_size_scalar(&scalar).unwrap();
+        assert_eq!(result, ScalarValue::Int32(Some(-1)));
+    }
+
+    // TODO: Add map array test once Arrow MapArray API constraints are resolved
+    // Currently MapArray doesn't allow nulls in entries which makes testing complex
+    // The core size() implementation supports maps correctly
+    #[ignore]
+    #[test]
+    fn test_spark_size_map_array() {
+        use arrow::array::{MapArray, StringArray};
+
+        // Create a simpler test with maps:
+        // [{"key1": "value1", "key2": "value2"}, {"key3": "value3"}, {}, null]
+
+        // Create keys array for all entries (no nulls)
+        let keys = StringArray::from(vec!["key1", "key2", "key3"]);
+
+        // Create values array for all entries (no nulls)
+        let values = StringArray::from(vec!["value1", "value2", "value3"]);
+
+        // Create entry offsets: [0, 2, 3, 3] representing:
+        // - Map 1: entries 0-1 (2 key-value pairs)
+        // - Map 2: entries 2-2 (1 key-value pair)
+        // - Map 3: entries 3-2 (0 key-value pairs, empty map)
+        // - Map 4: null (handled by null buffer)
+        let entry_offsets = arrow::buffer::OffsetBuffer::new(vec![0, 2, 3, 3, 3].into());
+
+        let key_field = Arc::new(Field::new("key", DataType::Utf8, false));
+        let value_field = Arc::new(Field::new("value", DataType::Utf8, false)); // Make values non-nullable too
+
+        // Create the entries struct array
+        let entries = arrow::array::StructArray::new(
+            arrow::datatypes::Fields::from(vec![key_field, value_field]),
+            vec![Arc::new(keys), Arc::new(values)],
+            None, // No nulls in the entries struct array itself
+        );
+
+        // Create null buffer for the map array (fourth map is null)
+        let mut null_buffer = NullBufferBuilder::new(4);
+        null_buffer.append(true); // Map with 2 entries - not null
+        null_buffer.append(true); // Map with 1 entry - not null
+        null_buffer.append(true); // Empty map - not null
+        null_buffer.append(false); // null map
+
+        let map_data_type = DataType::Map(
+            Arc::new(Field::new(
+                "entries",
+                DataType::Struct(arrow::datatypes::Fields::from(vec![
+                    Field::new("key", DataType::Utf8, false),
+                    Field::new("value", DataType::Utf8, false), // Make values non-nullable too
+                ])),
+                false,
+            )),
+            false, // keys are not sorted
+        );
+
+        let map_field = Arc::new(Field::new("map", map_data_type, true));
+
+        let map_array = MapArray::new(
+            map_field,
+            entry_offsets,
+            entries,
+            null_buffer.finish(),
+            false, // keys are not sorted
+        );
+
+        let array_ref: ArrayRef = Arc::new(map_array);
+        let result = spark_size_array(&array_ref).unwrap();
+        let result = result.as_any().downcast_ref::<Int32Array>().unwrap();
+
+        // Expected: [2, 1, 0, -1]
+        assert_eq!(result.value(0), 2); // Map with 2 key-value pairs
+        assert_eq!(result.value(1), 1); // Map with 1 key-value pair
+        assert_eq!(result.value(2), 0); // empty map has 0 pairs
+        assert_eq!(result.value(3), -1); // null map returns -1
+    }
+
+    #[test]
+    fn test_spark_size_fixed_size_list_array() {
+        use arrow::array::FixedSizeListArray;
+
+        // Create test data: fixed-size arrays of size 3
+        // [[1, 2, 3], [4, 5, 6], null]
+        let values = Int32Array::from(vec![1, 2, 3, 4, 5, 6, 0, 0, 0]); // Last 3 values are for the null entry
+        let list_size = 3;
+
+        let mut null_buffer = NullBufferBuilder::new(3);
+        null_buffer.append(true); // [1, 2, 3] - not null
+        null_buffer.append(true); // [4, 5, 6] - not null
+        null_buffer.append(false); // null
+
+        let list_field = Arc::new(Field::new("item", DataType::Int32, true));
+
+        let fixed_list_array = FixedSizeListArray::new(
+            list_field,
+            list_size,
+            Arc::new(values),
+            null_buffer.finish(),
+        );
+
+        let array_ref: ArrayRef = Arc::new(fixed_list_array);
+        let result = spark_size_array(&array_ref).unwrap();
+        let result = result.as_any().downcast_ref::<Int32Array>().unwrap();
+
+        // Expected: [3, 3, -1]
+        assert_eq!(result.value(0), 3); // Fixed-size list always has size 3
+        assert_eq!(result.value(1), 3); // Fixed-size list always has size 3
+        assert_eq!(result.value(2), -1); // null returns -1
+    }
+
+    #[test]
+    fn test_spark_size_large_list_array() {
+        use arrow::array::LargeListArray;
+
+        // Create test data: [[1, 2, 3, 4], [5], null, []]
+        let value_data = Int32Array::from(vec![1, 2, 3, 4, 5]);
+        let value_offsets = arrow::buffer::OffsetBuffer::new(vec![0i64, 4, 5, 5, 5].into());
+        let field = Arc::new(Field::new("item", DataType::Int32, true));
+
+        let mut null_buffer = NullBufferBuilder::new(4);
+        null_buffer.append(true); // [1, 2, 3, 4] - not null
+        null_buffer.append(true); // [5] - not null
+        null_buffer.append(false); // null
+        null_buffer.append(true); // [] - not null but empty
+
+        let large_list_array = LargeListArray::try_new(
+            field,
+            value_offsets,
+            Arc::new(value_data),
+            null_buffer.finish(),
+        )
+        .unwrap();
+
+        let array_ref: ArrayRef = Arc::new(large_list_array);
+        let result = spark_size_array(&array_ref).unwrap();
+        let result = result.as_any().downcast_ref::<Int32Array>().unwrap();
+
+        // Expected: [4, 1, -1, 0]
+        assert_eq!(result.value(0), 4); // [1, 2, 3, 4] has 4 elements
+        assert_eq!(result.value(1), 1); // [5] has 1 element
+        assert_eq!(result.value(2), -1); // null returns -1
+        assert_eq!(result.value(3), 0); // [] has 0 elements
+    }
+}
diff --git a/native/spark-expr/src/comet_scalar_funcs.rs b/native/spark-expr/src/comet_scalar_funcs.rs
index cccb6220a4..8ad06344b0 100644
--- a/native/spark-expr/src/comet_scalar_funcs.rs
+++ b/native/spark-expr/src/comet_scalar_funcs.rs
@@ -22,8 +22,8 @@ use crate::math_funcs::modulo_expr::spark_modulo;
 use crate::{
     spark_array_repeat, spark_ceil, spark_decimal_div, spark_decimal_integral_div, spark_floor,
     spark_isnan, spark_lpad, spark_make_decimal, spark_read_side_padding, spark_round, spark_rpad,
-    spark_unhex, spark_unscaled_value, EvalMode, SparkBitwiseCount, SparkDateTrunc,
-    SparkRegExpExtract, SparkRegExpExtractAll, SparkStringSpace,
+    spark_unhex, spark_unscaled_value, EvalMode, SparkBitwiseCount, SparkDateTrunc, SparkRegExpExtract, 
+    SparkRegExpExtractAll, SparkSizeFunc, SparkStringSpace,
 };
 use arrow::datatypes::DataType;
 use datafusion::common::{DataFusionError, Result as DataFusionResult};
@@ -194,6 +194,7 @@ fn all_scalar_functions() -> Vec<Arc<ScalarUDF>> {
         Arc::new(ScalarUDF::new_from_impl(SparkBitwiseCount::default())),
         Arc::new(ScalarUDF::new_from_impl(SparkDateTrunc::default())),
         Arc::new(ScalarUDF::new_from_impl(SparkStringSpace::default())),
+        Arc::new(ScalarUDF::new_from_impl(SparkSizeFunc::default())),
         Arc::new(ScalarUDF::new_from_impl(SparkRegExpExtract::default())),
         Arc::new(ScalarUDF::new_from_impl(SparkRegExpExtractAll::default())),
     ]
diff --git a/native/spark-expr/src/conversion_funcs/cast.rs b/native/spark-expr/src/conversion_funcs/cast.rs
index 12a147c6e1..5011917082 100644
--- a/native/spark-expr/src/conversion_funcs/cast.rs
+++ b/native/spark-expr/src/conversion_funcs/cast.rs
@@ -20,12 +20,13 @@ use crate::{timezone, BinaryOutputStyle};
 use crate::{EvalMode, SparkError, SparkResult};
 use arrow::array::builder::StringBuilder;
 use arrow::array::{
-    BooleanBuilder, Decimal128Builder, DictionaryArray, GenericByteArray, ListArray, StringArray,
-    StructArray,
+    BooleanBuilder, Decimal128Builder, DictionaryArray, GenericByteArray, ListArray,
+    PrimitiveBuilder, StringArray, StructArray,
 };
 use arrow::compute::can_cast_types;
 use arrow::datatypes::{
-    ArrowDictionaryKeyType, ArrowNativeType, DataType, GenericBinaryType, Schema,
+    i256, ArrowDictionaryKeyType, ArrowNativeType, DataType, Decimal256Type, GenericBinaryType,
+    Schema,
 };
 use arrow::{
     array::{
@@ -44,6 +45,7 @@ use arrow::{
     record_batch::RecordBatch,
     util::display::FormatOptions,
 };
+use base64::prelude::*;
 use chrono::{DateTime, NaiveDate, TimeZone, Timelike};
 use datafusion::common::{
     cast::as_generic_string_array, internal_err, DataFusionError, Result as DataFusionResult,
@@ -65,8 +67,6 @@ use std::{
     sync::Arc,
 };
 
-use base64::prelude::*;
-
 static TIMESTAMP_FORMAT: Option<&str> = Some("%Y-%m-%d %H:%M:%S%.f");
 
 const MICROS_PER_SECOND: i64 = 1000000;
@@ -216,17 +216,10 @@ fn can_cast_from_string(to_type: &DataType, options: &SparkCastOptions) -> bool
     use DataType::*;
     match to_type {
         Boolean | Int8 | Int16 | Int32 | Int64 | Binary => true,
-        Float32 | Float64 => {
-            // https://github.com/apache/datafusion-comet/issues/326
-            // Does not support inputs ending with 'd' or 'f'. Does not support 'inf'.
-            // Does not support ANSI mode.
-            options.allow_incompat
-        }
+        Float32 | Float64 => true,
         Decimal128(_, _) => {
             // https://github.com/apache/datafusion-comet/issues/325
-            // Does not support inputs ending with 'd' or 'f'. Does not support 'inf'.
-            // Does not support ANSI mode. Returns 0.0 instead of null if input contains no digits
-
+            // Does not support fullwidth digits and null byte handling.
             options.allow_incompat
         }
         Date32 | Date64 => {
@@ -976,6 +969,13 @@ fn cast_array(
             cast_string_to_timestamp(&array, to_type, eval_mode, &cast_options.timezone)
         }
         (Utf8, Date32) => cast_string_to_date(&array, to_type, eval_mode),
+        (Utf8, Float32 | Float64) => cast_string_to_float(&array, to_type, eval_mode),
+        (Utf8 | LargeUtf8, Decimal128(precision, scale)) => {
+            cast_string_to_decimal(&array, to_type, precision, scale, eval_mode)
+        }
+        (Utf8 | LargeUtf8, Decimal256(precision, scale)) => {
+            cast_string_to_decimal(&array, to_type, precision, scale, eval_mode)
+        }
         (Int64, Int32)
         | (Int64, Int16)
         | (Int64, Int8)
@@ -1041,7 +1041,7 @@ fn cast_array(
         }
         (Binary, Utf8) => Ok(cast_binary_to_string::<i32>(&array, cast_options)?),
         _ if cast_options.is_adapting_schema
-            || is_datafusion_spark_compatible(from_type, to_type, cast_options.allow_incompat) =>
+            || is_datafusion_spark_compatible(from_type, to_type) =>
         {
             // use DataFusion cast only when we know that it is compatible with Spark
             Ok(cast_with_options(&array, to_type, &native_cast_options)?)
@@ -1058,6 +1058,86 @@ fn cast_array(
     Ok(spark_cast_postprocess(cast_result?, from_type, to_type))
 }
 
+fn cast_string_to_float(
+    array: &ArrayRef,
+    to_type: &DataType,
+    eval_mode: EvalMode,
+) -> SparkResult<ArrayRef> {
+    match to_type {
+        DataType::Float32 => cast_string_to_float_impl::<Float32Type>(array, eval_mode, "FLOAT"),
+        DataType::Float64 => cast_string_to_float_impl::<Float64Type>(array, eval_mode, "DOUBLE"),
+        _ => Err(SparkError::Internal(format!(
+            "Unsupported cast to float type: {:?}",
+            to_type
+        ))),
+    }
+}
+
+fn cast_string_to_float_impl<T: ArrowPrimitiveType>(
+    array: &ArrayRef,
+    eval_mode: EvalMode,
+    type_name: &str,
+) -> SparkResult<ArrayRef>
+where
+    T::Native: FromStr + num::Float,
+{
+    let arr = array
+        .as_any()
+        .downcast_ref::<StringArray>()
+        .ok_or_else(|| SparkError::Internal("Expected string array".to_string()))?;
+
+    let mut builder = PrimitiveBuilder::<T>::with_capacity(arr.len());
+
+    for i in 0..arr.len() {
+        if arr.is_null(i) {
+            builder.append_null();
+        } else {
+            let str_value = arr.value(i).trim();
+            match parse_string_to_float(str_value) {
+                Some(v) => builder.append_value(v),
+                None => {
+                    if eval_mode == EvalMode::Ansi {
+                        return Err(invalid_value(arr.value(i), "STRING", type_name));
+                    }
+                    builder.append_null();
+                }
+            }
+        }
+    }
+
+    Ok(Arc::new(builder.finish()))
+}
+
+/// helper to parse floats from string inputs
+fn parse_string_to_float<F>(s: &str) -> Option<F>
+where
+    F: FromStr + num::Float,
+{
+    // Handle +inf / -inf
+    if s.eq_ignore_ascii_case("inf")
+        || s.eq_ignore_ascii_case("+inf")
+        || s.eq_ignore_ascii_case("infinity")
+        || s.eq_ignore_ascii_case("+infinity")
+    {
+        return Some(F::infinity());
+    }
+    if s.eq_ignore_ascii_case("-inf") || s.eq_ignore_ascii_case("-infinity") {
+        return Some(F::neg_infinity());
+    }
+    if s.eq_ignore_ascii_case("nan") {
+        return Some(F::nan());
+    }
+    // Remove D/F suffix if present
+    let pruned_float_str =
+        if s.ends_with("d") || s.ends_with("D") || s.ends_with('f') || s.ends_with('F') {
+            &s[..s.len() - 1]
+        } else {
+            s
+        };
+    // Rust's parse logic already handles scientific notations so we just rely on it
+    pruned_float_str.parse::<F>().ok()
+}
+
 fn cast_binary_to_string<O: OffsetSizeTrait>(
     array: &dyn Array,
     spark_cast_options: &SparkCastOptions,
@@ -1128,11 +1208,7 @@ fn cast_binary_formatter(value: &[u8]) -> String {
 
 /// Determines if DataFusion supports the given cast in a way that is
 /// compatible with Spark
-fn is_datafusion_spark_compatible(
-    from_type: &DataType,
-    to_type: &DataType,
-    allow_incompat: bool,
-) -> bool {
+fn is_datafusion_spark_compatible(from_type: &DataType, to_type: &DataType) -> bool {
     if from_type == to_type {
         return true;
     }
@@ -1185,10 +1261,6 @@ fn is_datafusion_spark_compatible(
                 | DataType::Decimal256(_, _)
                 | DataType::Utf8 // note that there can be formatting differences
         ),
-        DataType::Utf8 if allow_incompat => matches!(
-            to_type,
-            DataType::Binary | DataType::Float32 | DataType::Float64 | DataType::Decimal128(_, _)
-        ),
         DataType::Utf8 => matches!(to_type, DataType::Binary),
         DataType::Date32 => matches!(to_type, DataType::Utf8),
         DataType::Timestamp(_, _) => {
@@ -1976,6 +2048,306 @@ fn do_cast_string_to_int<
     Ok(Some(result))
 }
 
+fn cast_string_to_decimal(
+    array: &ArrayRef,
+    to_type: &DataType,
+    precision: &u8,
+    scale: &i8,
+    eval_mode: EvalMode,
+) -> SparkResult<ArrayRef> {
+    match to_type {
+        DataType::Decimal128(_, _) => {
+            cast_string_to_decimal128_impl(array, eval_mode, *precision, *scale)
+        }
+        DataType::Decimal256(_, _) => {
+            cast_string_to_decimal256_impl(array, eval_mode, *precision, *scale)
+        }
+        _ => Err(SparkError::Internal(format!(
+            "Unexpected type in cast_string_to_decimal: {:?}",
+            to_type
+        ))),
+    }
+}
+
+fn cast_string_to_decimal128_impl(
+    array: &ArrayRef,
+    eval_mode: EvalMode,
+    precision: u8,
+    scale: i8,
+) -> SparkResult<ArrayRef> {
+    let string_array = array
+        .as_any()
+        .downcast_ref::<StringArray>()
+        .ok_or_else(|| SparkError::Internal("Expected string array".to_string()))?;
+
+    let mut decimal_builder = Decimal128Builder::with_capacity(string_array.len());
+
+    for i in 0..string_array.len() {
+        if string_array.is_null(i) {
+            decimal_builder.append_null();
+        } else {
+            let str_value = string_array.value(i);
+            match parse_string_to_decimal(str_value, precision, scale) {
+                Ok(Some(decimal_value)) => {
+                    decimal_builder.append_value(decimal_value);
+                }
+                Ok(None) => {
+                    if eval_mode == EvalMode::Ansi {
+                        return Err(invalid_value(
+                            string_array.value(i),
+                            "STRING",
+                            &format!("DECIMAL({},{})", precision, scale),
+                        ));
+                    }
+                    decimal_builder.append_null();
+                }
+                Err(e) => {
+                    if eval_mode == EvalMode::Ansi {
+                        return Err(e);
+                    }
+                    decimal_builder.append_null();
+                }
+            }
+        }
+    }
+
+    Ok(Arc::new(
+        decimal_builder
+            .with_precision_and_scale(precision, scale)?
+            .finish(),
+    ))
+}
+
+fn cast_string_to_decimal256_impl(
+    array: &ArrayRef,
+    eval_mode: EvalMode,
+    precision: u8,
+    scale: i8,
+) -> SparkResult<ArrayRef> {
+    let string_array = array
+        .as_any()
+        .downcast_ref::<StringArray>()
+        .ok_or_else(|| SparkError::Internal("Expected string array".to_string()))?;
+
+    let mut decimal_builder = PrimitiveBuilder::<Decimal256Type>::with_capacity(string_array.len());
+
+    for i in 0..string_array.len() {
+        if string_array.is_null(i) {
+            decimal_builder.append_null();
+        } else {
+            let str_value = string_array.value(i);
+            match parse_string_to_decimal(str_value, precision, scale) {
+                Ok(Some(decimal_value)) => {
+                    // Convert i128 to i256
+                    let i256_value = i256::from_i128(decimal_value);
+                    decimal_builder.append_value(i256_value);
+                }
+                Ok(None) => {
+                    if eval_mode == EvalMode::Ansi {
+                        return Err(invalid_value(
+                            str_value,
+                            "STRING",
+                            &format!("DECIMAL({},{})", precision, scale),
+                        ));
+                    }
+                    decimal_builder.append_null();
+                }
+                Err(e) => {
+                    if eval_mode == EvalMode::Ansi {
+                        return Err(e);
+                    }
+                    decimal_builder.append_null();
+                }
+            }
+        }
+    }
+
+    Ok(Arc::new(
+        decimal_builder
+            .with_precision_and_scale(precision, scale)?
+            .finish(),
+    ))
+}
+
+/// Parse a string to decimal following Spark's behavior
+fn parse_string_to_decimal(s: &str, precision: u8, scale: i8) -> SparkResult<Option<i128>> {
+    let string_bytes = s.as_bytes();
+    let mut start = 0;
+    let mut end = string_bytes.len();
+
+    // trim whitespaces
+    while start < end && string_bytes[start].is_ascii_whitespace() {
+        start += 1;
+    }
+    while end > start && string_bytes[end - 1].is_ascii_whitespace() {
+        end -= 1;
+    }
+
+    let trimmed = &s[start..end];
+
+    if trimmed.is_empty() {
+        return Ok(None);
+    }
+    // Handle special values (inf, nan, etc.)
+    if trimmed.eq_ignore_ascii_case("inf")
+        || trimmed.eq_ignore_ascii_case("+inf")
+        || trimmed.eq_ignore_ascii_case("infinity")
+        || trimmed.eq_ignore_ascii_case("+infinity")
+        || trimmed.eq_ignore_ascii_case("-inf")
+        || trimmed.eq_ignore_ascii_case("-infinity")
+        || trimmed.eq_ignore_ascii_case("nan")
+    {
+        return Ok(None);
+    }
+
+    // validate and parse mantissa and exponent
+    match parse_decimal_str(trimmed) {
+        Ok((mantissa, exponent)) => {
+            // Convert to target scale
+            let target_scale = scale as i32;
+            let scale_adjustment = target_scale - exponent;
+
+            let scaled_value = if scale_adjustment >= 0 {
+                // Need to multiply (increase scale) but return None if scale is too high to fit i128
+                if scale_adjustment > 38 {
+                    return Ok(None);
+                }
+                mantissa.checked_mul(10_i128.pow(scale_adjustment as u32))
+            } else {
+                // Need to multiply (increase scale) but return None if scale is too high to fit i128
+                let abs_scale_adjustment = (-scale_adjustment) as u32;
+                if abs_scale_adjustment > 38 {
+                    return Ok(Some(0));
+                }
+
+                let divisor = 10_i128.pow(abs_scale_adjustment);
+                let quotient_opt = mantissa.checked_div(divisor);
+                // Check if divisor is 0
+                if quotient_opt.is_none() {
+                    return Ok(None);
+                }
+                let quotient = quotient_opt.unwrap();
+                let remainder = mantissa % divisor;
+
+                // Round half up: if abs(remainder) >= divisor/2, round away from zero
+                let half_divisor = divisor / 2;
+                let rounded = if remainder.abs() >= half_divisor {
+                    if mantissa >= 0 {
+                        quotient + 1
+                    } else {
+                        quotient - 1
+                    }
+                } else {
+                    quotient
+                };
+                Some(rounded)
+            };
+
+            match scaled_value {
+                Some(value) => {
+                    // Check if it fits target precision
+                    if is_validate_decimal_precision(value, precision) {
+                        Ok(Some(value))
+                    } else {
+                        Ok(None)
+                    }
+                }
+                None => {
+                    // Overflow while scaling
+                    Ok(None)
+                }
+            }
+        }
+        Err(_) => Ok(None),
+    }
+}
+
+/// Parse a decimal string into mantissa and scale
+/// e.g., "123.45" -> (12345, 2), "-0.001" -> (-1, 3)
+fn parse_decimal_str(s: &str) -> Result<(i128, i32), String> {
+    if s.is_empty() {
+        return Err("Empty string".to_string());
+    }
+
+    let (mantissa_str, exponent) = if let Some(e_pos) = s.find(|c| ['e', 'E'].contains(&c)) {
+        let mantissa_part = &s[..e_pos];
+        let exponent_part = &s[e_pos + 1..];
+        // Parse exponent
+        let exp: i32 = exponent_part
+            .parse()
+            .map_err(|e| format!("Invalid exponent: {}", e))?;
+
+        (mantissa_part, exp)
+    } else {
+        (s, 0)
+    };
+
+    let negative = mantissa_str.starts_with('-');
+    let mantissa_str = if negative || mantissa_str.starts_with('+') {
+        &mantissa_str[1..]
+    } else {
+        mantissa_str
+    };
+
+    if mantissa_str.starts_with('+') || mantissa_str.starts_with('-') {
+        return Err("Invalid sign format".to_string());
+    }
+
+    let (integral_part, fractional_part) = match mantissa_str.find('.') {
+        Some(dot_pos) => {
+            if mantissa_str[dot_pos + 1..].contains('.') {
+                return Err("Multiple decimal points".to_string());
+            }
+            (&mantissa_str[..dot_pos], &mantissa_str[dot_pos + 1..])
+        }
+        None => (mantissa_str, ""),
+    };
+
+    if integral_part.is_empty() && fractional_part.is_empty() {
+        return Err("No digits found".to_string());
+    }
+
+    if !integral_part.is_empty() && !integral_part.bytes().all(|b| b.is_ascii_digit()) {
+        return Err("Invalid integral part".to_string());
+    }
+
+    if !fractional_part.is_empty() && !fractional_part.bytes().all(|b| b.is_ascii_digit()) {
+        return Err("Invalid fractional part".to_string());
+    }
+
+    // Parse integral part
+    let integral_value: i128 = if integral_part.is_empty() {
+        // Empty integral part is valid (e.g., ".5" or "-.7e9")
+        0
+    } else {
+        integral_part
+            .parse()
+            .map_err(|_| "Invalid integral part".to_string())?
+    };
+
+    // Parse fractional part
+    let fractional_scale = fractional_part.len() as i32;
+    let fractional_value: i128 = if fractional_part.is_empty() {
+        0
+    } else {
+        fractional_part
+            .parse()
+            .map_err(|_| "Invalid fractional part".to_string())?
+    };
+
+    // Combine: value = integral * 10^fractional_scale + fractional
+    let mantissa = integral_value
+        .checked_mul(10_i128.pow(fractional_scale as u32))
+        .and_then(|v| v.checked_add(fractional_value))
+        .ok_or("Overflow in mantissa calculation")?;
+
+    let final_mantissa = if negative { -mantissa } else { mantissa };
+    // final scale = fractional_scale - exponent
+    // For example : "1.23E-5" has fractional_scale=2, exponent=-5, so scale = 2 - (-5) = 7
+    let final_scale = fractional_scale - exponent;
+    Ok((final_mantissa, final_scale))
+}
+
 /// Either return Ok(None) or Err(SparkError::CastInvalidValue) depending on the evaluation mode
 #[inline]
 fn none_or_err<T>(eval_mode: EvalMode, type_name: &str, str: &str) -> SparkResult<Option<T>> {
diff --git a/native/spark-expr/src/static_invoke/char_varchar_utils/read_side_padding.rs b/native/spark-expr/src/static_invoke/char_varchar_utils/read_side_padding.rs
index 89485ddec4..000b4810e7 100644
--- a/native/spark-expr/src/static_invoke/char_varchar_utils/read_side_padding.rs
+++ b/native/spark-expr/src/static_invoke/char_varchar_utils/read_side_padding.rs
@@ -194,6 +194,10 @@ fn spark_read_side_padding_internal<T: OffsetSizeTrait>(
     is_left_pad: bool,
 ) -> Result<ColumnarValue, DataFusionError> {
     let string_array = as_generic_string_array::<T>(array)?;
+
+    // Pre-compute pad characters once to avoid repeated iteration
+    let pad_chars: Vec<char> = pad_string.chars().collect();
+
     match pad_type {
         ColumnarValue::Array(array_int) => {
             let int_pad_array = array_int.as_primitive::<Int32Type>();
@@ -203,18 +207,24 @@ fn spark_read_side_padding_internal<T: OffsetSizeTrait>(
                 string_array.len() * int_pad_array.len(),
             );
 
+            // Reusable buffer to avoid per-element allocations
+            let mut buffer = String::with_capacity(pad_chars.len());
+
             for (string, length) in string_array.iter().zip(int_pad_array) {
                 let length = length.unwrap();
                 match string {
                     Some(string) => {
                         if length >= 0 {
-                            builder.append_value(add_padding_string(
-                                string.parse().unwrap(),
+                            buffer.clear();
+                            write_padded_string(
+                                &mut buffer,
+                                string,
                                 length as usize,
                                 truncate,
-                                pad_string,
+                                &pad_chars,
                                 is_left_pad,
-                            )?)
+                            );
+                            builder.append_value(&buffer);
                         } else {
                             builder.append_value("");
                         }
@@ -232,15 +242,23 @@ fn spark_read_side_padding_internal<T: OffsetSizeTrait>(
                 string_array.len() * length,
             );
 
+            // Reusable buffer to avoid per-element allocations
+            let mut buffer = String::with_capacity(length);
+
             for string in string_array.iter() {
                 match string {
-                    Some(string) => builder.append_value(add_padding_string(
-                        string.parse().unwrap(),
-                        length,
-                        truncate,
-                        pad_string,
-                        is_left_pad,
-                    )?),
+                    Some(string) => {
+                        buffer.clear();
+                        write_padded_string(
+                            &mut buffer,
+                            string,
+                            length,
+                            truncate,
+                            &pad_chars,
+                            is_left_pad,
+                        );
+                        builder.append_value(&buffer);
+                    }
                     _ => builder.append_null(),
                 }
             }
@@ -249,44 +267,74 @@ fn spark_read_side_padding_internal<T: OffsetSizeTrait>(
     }
 }
 
-fn add_padding_string(
-    string: String,
+/// Writes a padded string to the provided buffer, avoiding allocations.
+///
+/// The buffer is assumed to be cleared before calling this function.
+/// Padding characters are written directly to the buffer without intermediate allocations.
+#[inline]
+fn write_padded_string(
+    buffer: &mut String,
+    string: &str,
     length: usize,
     truncate: bool,
-    pad_string: &str,
+    pad_chars: &[char],
     is_left_pad: bool,
-) -> Result<String, DataFusionError> {
-    // It looks Spark's UTF8String is closer to chars rather than graphemes
+) {
+    // Spark's UTF8String uses char count, not grapheme count
     // https://stackoverflow.com/a/46290728
     let char_len = string.chars().count();
+
     if length <= char_len {
         if truncate {
+            // Find byte index for the truncation point
             let idx = string
                 .char_indices()
                 .nth(length)
                 .map(|(i, _)| i)
                 .unwrap_or(string.len());
-            match string[..idx].parse() {
-                Ok(string) => Ok(string),
-                Err(err) => Err(DataFusionError::Internal(format!(
-                    "Failed adding padding string {} error {:}",
-                    string, err
-                ))),
-            }
+            buffer.push_str(&string[..idx]);
         } else {
-            Ok(string)
+            buffer.push_str(string);
         }
     } else {
         let pad_needed = length - char_len;
-        let pad: String = pad_string.chars().cycle().take(pad_needed).collect();
-        let mut result = String::with_capacity(string.len() + pad.len());
+
         if is_left_pad {
-            result.push_str(&pad);
-            result.push_str(&string);
+            // Write padding first, then string
+            write_padding_chars(buffer, pad_chars, pad_needed);
+            buffer.push_str(string);
         } else {
-            result.push_str(&string);
-            result.push_str(&pad);
+            // Write string first, then padding
+            buffer.push_str(string);
+            write_padding_chars(buffer, pad_chars, pad_needed);
+        }
+    }
+}
+
+/// Writes `count` characters from the cycling pad pattern directly to the buffer.
+#[inline]
+fn write_padding_chars(buffer: &mut String, pad_chars: &[char], count: usize) {
+    if pad_chars.is_empty() {
+        return;
+    }
+
+    // Optimize for the common single-character padding case
+    if pad_chars.len() == 1 {
+        let ch = pad_chars[0];
+        for _ in 0..count {
+            buffer.push(ch);
+        }
+    } else {
+        // Multi-character padding: cycle through pad_chars
+        let mut remaining = count;
+        while remaining > 0 {
+            for &ch in pad_chars {
+                if remaining == 0 {
+                    break;
+                }
+                buffer.push(ch);
+                remaining -= 1;
+            }
         }
-        Ok(result)
     }
 }
diff --git a/spark/src/main/scala/org/apache/comet/DataTypeSupport.scala b/spark/src/main/scala/org/apache/comet/DataTypeSupport.scala
index 9adf829580..9f8fc77eba 100644
--- a/spark/src/main/scala/org/apache/comet/DataTypeSupport.scala
+++ b/spark/src/main/scala/org/apache/comet/DataTypeSupport.scala
@@ -79,4 +79,14 @@ object DataTypeSupport {
     case _: StructType | _: ArrayType | _: MapType => true
     case _ => false
   }
+
+  def hasTemporalType(t: DataType): Boolean = t match {
+    case DataTypes.DateType | DataTypes.TimestampType | DataTypes.TimestampNTZType =>
+      true
+    case t: StructType => t.exists(f => hasTemporalType(f.dataType))
+    case t: ArrayType => hasTemporalType(t.elementType)
+    case t: MapType => hasTemporalType(t.keyType) || hasTemporalType(t.valueType)
+    case _ => false
+  }
+
 }
diff --git a/spark/src/main/scala/org/apache/comet/expressions/CometCast.scala b/spark/src/main/scala/org/apache/comet/expressions/CometCast.scala
index 98ce8ac44d..9fc4b3afdf 100644
--- a/spark/src/main/scala/org/apache/comet/expressions/CometCast.scala
+++ b/spark/src/main/scala/org/apache/comet/expressions/CometCast.scala
@@ -185,16 +185,11 @@ object CometCast extends CometExpressionSerde[Cast] with CometExprShim {
       case DataTypes.BinaryType =>
         Compatible()
       case DataTypes.FloatType | DataTypes.DoubleType =>
-        // https://github.com/apache/datafusion-comet/issues/326
-        Incompatible(
-          Some(
-            "Does not support inputs ending with 'd' or 'f'. Does not support 'inf'. " +
-              "Does not support ANSI mode."))
+        Compatible()
       case _: DecimalType =>
         // https://github.com/apache/datafusion-comet/issues/325
-        Incompatible(
-          Some("Does not support inputs ending with 'd' or 'f'. Does not support 'inf'. " +
-            "Does not support ANSI mode. Returns 0.0 instead of null if input contains no digits"))
+        Incompatible(Some("""Does not support fullwidth unicode digits (e.g \\uFF10)
+            |or strings containing null bytes (e.g \\u0000)""".stripMargin))
       case DataTypes.DateType =>
         // https://github.com/apache/datafusion-comet/issues/327
         Compatible(Some("Only supports years between 262143 BC and 262142 AD"))
diff --git a/spark/src/main/scala/org/apache/comet/rules/CometExecRule.scala b/spark/src/main/scala/org/apache/comet/rules/CometExecRule.scala
index ed48e36f07..bb4ce879d7 100644
--- a/spark/src/main/scala/org/apache/comet/rules/CometExecRule.scala
+++ b/spark/src/main/scala/org/apache/comet/rules/CometExecRule.scala
@@ -33,6 +33,7 @@ import org.apache.spark.sql.execution._
 import org.apache.spark.sql.execution.adaptive.{AdaptiveSparkPlanExec, AQEShuffleReadExec, BroadcastQueryStageExec, ShuffleQueryStageExec}
 import org.apache.spark.sql.execution.aggregate.{HashAggregateExec, ObjectHashAggregateExec}
 import org.apache.spark.sql.execution.command.{DataWritingCommandExec, ExecutedCommandExec}
+import org.apache.spark.sql.execution.datasources.WriteFilesExec
 import org.apache.spark.sql.execution.datasources.csv.CSVFileFormat
 import org.apache.spark.sql.execution.datasources.json.JsonFileFormat
 import org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat
@@ -197,6 +198,14 @@ case class CometExecRule(session: SparkSession) extends Rule[SparkPlan] {
       case op if shouldApplySparkToColumnar(conf, op) =>
         convertToComet(op, CometSparkToColumnarExec).getOrElse(op)
 
+      // AQE reoptimization looks for `DataWritingCommandExec` or `WriteFilesExec`
+      // if there is none it would reinsert write nodes, and since Comet remap those nodes
+      // to Comet counterparties the write nodes are twice to the plan.
+      // Checking if AQE inserted another write Command on top of existing write command
+      case _ @DataWritingCommandExec(_, w: WriteFilesExec)
+          if w.child.isInstanceOf[CometNativeWriteExec] =>
+        w.child
+
       case op: DataWritingCommandExec =>
         convertToComet(op, CometDataWritingCommand).getOrElse(op)
 
diff --git a/spark/src/main/scala/org/apache/comet/rules/CometScanRule.scala b/spark/src/main/scala/org/apache/comet/rules/CometScanRule.scala
index 69bce75559..01e385b0ae 100644
--- a/spark/src/main/scala/org/apache/comet/rules/CometScanRule.scala
+++ b/spark/src/main/scala/org/apache/comet/rules/CometScanRule.scala
@@ -592,34 +592,12 @@ case class CometScanRule(session: SparkSession) extends Rule[SparkPlan] with Com
     val partitionSchemaSupported =
       typeChecker.isSchemaSupported(partitionSchema, fallbackReasons)
 
-    def hasUnsupportedType(dataType: DataType): Boolean = {
-      dataType match {
-        case s: StructType => s.exists(field => hasUnsupportedType(field.dataType))
-        case a: ArrayType => hasUnsupportedType(a.elementType)
-        case m: MapType =>
-          // maps containing complex types are not supported
-          isComplexType(m.keyType) || isComplexType(m.valueType) ||
-          hasUnsupportedType(m.keyType) || hasUnsupportedType(m.valueType)
-        case dt if isStringCollationType(dt) => true
-        case _ => false
-      }
-    }
-
-    val knownIssues =
-      scanExec.requiredSchema.exists(field => hasUnsupportedType(field.dataType)) ||
-        partitionSchema.exists(field => hasUnsupportedType(field.dataType))
-
-    if (knownIssues) {
-      fallbackReasons += "Schema contains data types that are not supported by " +
-        s"$SCAN_NATIVE_ICEBERG_COMPAT"
-    }
-
     val cometExecEnabled = COMET_EXEC_ENABLED.get()
     if (!cometExecEnabled) {
       fallbackReasons += s"$SCAN_NATIVE_ICEBERG_COMPAT requires ${COMET_EXEC_ENABLED.key}=true"
     }
 
-    if (cometExecEnabled && schemaSupported && partitionSchemaSupported && !knownIssues &&
+    if (cometExecEnabled && schemaSupported && partitionSchemaSupported &&
       fallbackReasons.isEmpty) {
       logInfo(s"Auto scan mode selecting $SCAN_NATIVE_ICEBERG_COMPAT")
       SCAN_NATIVE_ICEBERG_COMPAT
diff --git a/spark/src/main/scala/org/apache/comet/rules/EliminateRedundantTransitions.scala b/spark/src/main/scala/org/apache/comet/rules/EliminateRedundantTransitions.scala
index 7c92b07bca..bf0ac324cf 100644
--- a/spark/src/main/scala/org/apache/comet/rules/EliminateRedundantTransitions.scala
+++ b/spark/src/main/scala/org/apache/comet/rules/EliminateRedundantTransitions.scala
@@ -22,7 +22,7 @@ package org.apache.comet.rules
 import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.catalyst.rules.Rule
 import org.apache.spark.sql.catalyst.util.sideBySide
-import org.apache.spark.sql.comet.{CometCollectLimitExec, CometColumnarToRowExec, CometPlan, CometSparkToColumnarExec}
+import org.apache.spark.sql.comet.{CometCollectLimitExec, CometColumnarToRowExec, CometNativeWriteExec, CometPlan, CometSparkToColumnarExec}
 import org.apache.spark.sql.comet.execution.shuffle.{CometColumnarShuffle, CometShuffleExchangeExec}
 import org.apache.spark.sql.execution.{ColumnarToRowExec, RowToColumnarExec, SparkPlan}
 import org.apache.spark.sql.execution.adaptive.QueryStageExec
@@ -80,6 +80,10 @@ case class EliminateRedundantTransitions(session: SparkSession) extends Rule[Spa
           // and CometSparkToColumnarExec
           sparkToColumnar.child
         }
+      // Remove unnecessary transition for native writes
+      // Write should be final operation in the plan
+      case ColumnarToRowExec(nativeWrite: CometNativeWriteExec) =>
+        nativeWrite
       case c @ ColumnarToRowExec(child) if hasCometNativeChild(child) =>
         val op = CometColumnarToRowExec(child)
         if (c.logicalLink.isEmpty) {
diff --git a/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala b/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
index 9514c47da9..e78d872d0f 100644
--- a/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
@@ -63,7 +63,8 @@ object QueryPlanSerde extends Logging with CometExprShim {
     classOf[CreateArray] -> CometCreateArray,
     classOf[ElementAt] -> CometElementAt,
     classOf[Flatten] -> CometFlatten,
-    classOf[GetArrayItem] -> CometGetArrayItem)
+    classOf[GetArrayItem] -> CometGetArrayItem,
+    classOf[Size] -> CometSize)
 
   private val conditionalExpressions: Map[Class[_ <: Expression], CometExpressionSerde[_]] =
     Map(classOf[CaseWhen] -> CometCaseWhen, classOf[If] -> CometIf)
diff --git a/spark/src/main/scala/org/apache/comet/serde/aggregates.scala b/spark/src/main/scala/org/apache/comet/serde/aggregates.scala
index 8ab568dc83..a05efaebbc 100644
--- a/spark/src/main/scala/org/apache/comet/serde/aggregates.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/aggregates.scala
@@ -213,17 +213,6 @@ object CometAverage extends CometAggregateExpressionSerde[Average] {
 
 object CometSum extends CometAggregateExpressionSerde[Sum] {
 
-  override def getSupportLevel(sum: Sum): SupportLevel = {
-    sum.evalMode match {
-      case EvalMode.ANSI if !sum.dataType.isInstanceOf[DecimalType] =>
-        Incompatible(Some("ANSI mode for non decimal inputs is not supported"))
-      case EvalMode.TRY if !sum.dataType.isInstanceOf[DecimalType] =>
-        Incompatible(Some("TRY mode for non decimal inputs is not supported"))
-      case _ =>
-        Compatible()
-    }
-  }
-
   override def convert(
       aggExpr: AggregateExpression,
       sum: Sum,
@@ -236,6 +225,8 @@ object CometSum extends CometAggregateExpressionSerde[Sum] {
       return None
     }
 
+    val evalMode = sum.evalMode
+
     val childExpr = exprToProto(sum.child, inputs, binding)
     val dataType = serializeDataType(sum.dataType)
 
@@ -243,7 +234,7 @@ object CometSum extends CometAggregateExpressionSerde[Sum] {
       val builder = ExprOuterClass.Sum.newBuilder()
       builder.setChild(childExpr.get)
       builder.setDatatype(dataType.get)
-      builder.setEvalMode(evalModeToProto(CometEvalModeUtil.fromSparkEvalMode(sum.evalMode)))
+      builder.setEvalMode(evalModeToProto(CometEvalModeUtil.fromSparkEvalMode(evalMode)))
 
       Some(
         ExprOuterClass.AggExpr
diff --git a/spark/src/main/scala/org/apache/comet/serde/arrays.scala b/spark/src/main/scala/org/apache/comet/serde/arrays.scala
index f59234d402..5d989b4a35 100644
--- a/spark/src/main/scala/org/apache/comet/serde/arrays.scala
+++ b/spark/src/main/scala/org/apache/comet/serde/arrays.scala
@@ -21,7 +21,7 @@ package org.apache.comet.serde
 
 import scala.annotation.tailrec
 
-import org.apache.spark.sql.catalyst.expressions.{ArrayAppend, ArrayContains, ArrayDistinct, ArrayExcept, ArrayFilter, ArrayInsert, ArrayIntersect, ArrayJoin, ArrayMax, ArrayMin, ArrayRemove, ArrayRepeat, ArraysOverlap, ArrayUnion, Attribute, CreateArray, ElementAt, Expression, Flatten, GetArrayItem, IsNotNull, Literal, Reverse}
+import org.apache.spark.sql.catalyst.expressions.{ArrayAppend, ArrayContains, ArrayDistinct, ArrayExcept, ArrayFilter, ArrayInsert, ArrayIntersect, ArrayJoin, ArrayMax, ArrayMin, ArrayRemove, ArrayRepeat, ArraysOverlap, ArrayUnion, Attribute, CreateArray, ElementAt, Expression, Flatten, GetArrayItem, IsNotNull, Literal, Reverse, Size}
 import org.apache.spark.sql.internal.SQLConf
 import org.apache.spark.sql.types._
 
@@ -543,6 +543,31 @@ object CometArrayFilter extends CometExpressionSerde[ArrayFilter] {
   }
 }
 
+object CometSize extends CometExpressionSerde[Size] {
+
+  override def getSupportLevel(expr: Size): SupportLevel = {
+    // TODO respect spark.sql.legacy.sizeOfNull
+    expr.child.dataType match {
+      case _: ArrayType => Compatible()
+      case _: MapType => Unsupported(Some("size does not support map inputs"))
+      case other =>
+        // this should be unreachable because Spark only supports map and array inputs
+        Unsupported(Some(s"Unsupported child data type: $other"))
+    }
+
+  }
+
+  override def convert(
+      expr: Size,
+      inputs: Seq[Attribute],
+      binding: Boolean): Option[ExprOuterClass.Expr] = {
+    val arrayExprProto = exprToProto(expr.child, inputs, binding)
+
+    val sizeScalarExpr = scalarFunctionExprToProto("size", arrayExprProto)
+    optExprWithInfo(sizeScalarExpr, expr)
+  }
+}
+
 trait ArraysBase {
 
   def isTypeSupported(dt: DataType): Boolean = {
diff --git a/spark/src/test/scala/org/apache/comet/CometArrayExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometArrayExpressionSuite.scala
index 4d06baaa8d..9f908e741e 100644
--- a/spark/src/test/scala/org/apache/comet/CometArrayExpressionSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometArrayExpressionSuite.scala
@@ -829,4 +829,46 @@ class CometArrayExpressionSuite extends CometTestBase with AdaptiveSparkPlanHelp
       }
     }
   }
+
+  test("size with array input") {
+    withTempDir { dir =>
+      withTempView("t1") {
+        val path = new Path(dir.toURI.toString, "test.parquet")
+        makeParquetFileAllPrimitiveTypes(path, dictionaryEnabled = true, 100)
+        spark.read.parquet(path.toString).createOrReplaceTempView("t1")
+
+        // Test size function with arrays built from columns (ensures native execution)
+        checkSparkAnswerAndOperator(
+          sql("SELECT size(array(_2, _3, _4)) from t1 where _2 is not null order by _2, _3, _4"))
+        checkSparkAnswerAndOperator(
+          sql("SELECT size(array(_1)) from t1 where _1 is not null order by _1"))
+        checkSparkAnswerAndOperator(
+          sql("SELECT size(array(_2, _3)) from t1 where _2 is null order by _2, _3"))
+
+        // Test with conditional arrays (forces runtime evaluation)
+        checkSparkAnswerAndOperator(sql(
+          "SELECT size(case when _2 > 0 then array(_2, _3, _4) else array(_2) end) from t1 order by _2, _3, _4"))
+        checkSparkAnswerAndOperator(sql(
+          "SELECT size(case when _1 then array(_8, _9) else array(_8, _9, _10) end) from t1 order by _1, _8, _9, _10"))
+
+        // Test empty arrays using conditional logic to avoid constant folding
+        checkSparkAnswerAndOperator(sql(
+          "SELECT size(case when _2 < 0 then array(_2, _3) else array() end) from t1 order by _2, _3"))
+
+        // Test null arrays using conditional logic
+        checkSparkAnswerAndOperator(sql(
+          "SELECT size(case when _2 is null then cast(null as array<int>) else array(_2) end) from t1 order by _2"))
+
+        // Test with different data types using column references
+        checkSparkAnswerAndOperator(
+          sql("SELECT size(array(_8, _9, _10)) from t1 where _8 is not null order by _8, _9, _10")
+        ) // string arrays
+        checkSparkAnswerAndOperator(
+          sql(
+            "SELECT size(array(_2, _3, _4, _5, _6)) from t1 where _2 is not null order by _2, _3, _4, _5, _6"
+          )
+        ) // int arrays
+      }
+    }
+  }
 }
diff --git a/spark/src/test/scala/org/apache/comet/CometCastSuite.scala b/spark/src/test/scala/org/apache/comet/CometCastSuite.scala
index 90386a9797..1892749bec 100644
--- a/spark/src/test/scala/org/apache/comet/CometCastSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometCastSuite.scala
@@ -33,6 +33,7 @@ import org.apache.spark.sql.functions.col
 import org.apache.spark.sql.internal.SQLConf
 import org.apache.spark.sql.types.{ArrayType, BooleanType, ByteType, DataType, DataTypes, DecimalType, IntegerType, LongType, ShortType, StringType, StructField, StructType}
 
+import org.apache.comet.CometSparkSessionExtensions.isSpark40Plus
 import org.apache.comet.expressions.{CometCast, CometEvalMode}
 import org.apache.comet.rules.CometScanTypeChecker
 import org.apache.comet.serde.Compatible
@@ -641,53 +642,135 @@ class CometCastSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     castTest(gen.generateStrings(dataSize, numericPattern, 8).toDF("a"), DataTypes.LongType)
   }
 
-  ignore("cast StringType to FloatType") {
+  test("cast StringType to DoubleType") {
     // https://github.com/apache/datafusion-comet/issues/326
+    castTest(gen.generateStrings(dataSize, numericPattern, 8).toDF("a"), DataTypes.DoubleType)
+  }
+
+  test("cast StringType to FloatType") {
     castTest(gen.generateStrings(dataSize, numericPattern, 8).toDF("a"), DataTypes.FloatType)
   }
 
-  test("cast StringType to FloatType (partial support)") {
-    withSQLConf(
-      CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true",
-      SQLConf.ANSI_ENABLED.key -> "false") {
-      castTest(
-        gen.generateStrings(dataSize, "0123456789.", 8).toDF("a"),
-        DataTypes.FloatType,
-        testAnsi = false)
+  val specialValues: Seq[String] = Seq(
+    "1.5f",
+    "1.5F",
+    "2.0d",
+    "2.0D",
+    "3.14159265358979d",
+    "inf",
+    "Inf",
+    "INF",
+    "+inf",
+    "+Infinity",
+    "-inf",
+    "-Infinity",
+    "NaN",
+    "nan",
+    "NAN",
+    "1.23e4",
+    "1.23E4",
+    "-1.23e-4",
+    "  123.456789  ",
+    "0.0",
+    "-0.0",
+    "",
+    "xyz",
+    null)
+
+  test("cast StringType to FloatType special values") {
+    Seq(true, false).foreach { ansiMode =>
+      castTest(specialValues.toDF("a"), DataTypes.FloatType, testAnsi = ansiMode)
     }
   }
 
-  ignore("cast StringType to DoubleType") {
-    // https://github.com/apache/datafusion-comet/issues/326
-    castTest(gen.generateStrings(dataSize, numericPattern, 8).toDF("a"), DataTypes.DoubleType)
+  test("cast StringType to DoubleType special values") {
+    Seq(true, false).foreach { ansiMode =>
+      castTest(specialValues.toDF("a"), DataTypes.DoubleType, testAnsi = ansiMode)
+    }
   }
 
-  test("cast StringType to DoubleType (partial support)") {
-    withSQLConf(
-      CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true",
-      SQLConf.ANSI_ENABLED.key -> "false") {
-      castTest(
-        gen.generateStrings(dataSize, "0123456789.", 8).toDF("a"),
-        DataTypes.DoubleType,
-        testAnsi = false)
+//  This is to pass the first `all cast combinations are covered`
+  ignore("cast StringType to DecimalType(10,2)") {
+    val values = gen.generateStrings(dataSize, numericPattern, 12).toDF("a")
+    castTest(values, DataTypes.createDecimalType(10, 2), testAnsi = false)
+  }
+
+  test("cast StringType to DecimalType(10,2) (does not support fullwidth unicode digits)") {
+    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true") {
+      // TODO fix for Spark 4.0.0
+      assume(!isSpark40Plus)
+      val values = gen.generateStrings(dataSize, numericPattern, 12).toDF("a")
+      Seq(true, false).foreach(ansiEnabled =>
+        castTest(values, DataTypes.createDecimalType(10, 2), testAnsi = ansiEnabled))
     }
   }
 
-  ignore("cast StringType to DecimalType(10,2)") {
-    // https://github.com/apache/datafusion-comet/issues/325
-    val values = gen.generateStrings(dataSize, numericPattern, 8).toDF("a")
-    castTest(values, DataTypes.createDecimalType(10, 2))
+  test("cast StringType to DecimalType(2,2)") {
+    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true") {
+      // TODO fix for Spark 4.0.0
+      assume(!isSpark40Plus)
+      val values = gen.generateStrings(dataSize, numericPattern, 12).toDF("a")
+      Seq(true, false).foreach(ansiEnabled =>
+        castTest(values, DataTypes.createDecimalType(2, 2), testAnsi = ansiEnabled))
+    }
   }
 
-  test("cast StringType to DecimalType(10,2) (partial support)") {
-    withSQLConf(
-      CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true",
-      SQLConf.ANSI_ENABLED.key -> "false") {
-      val values = gen
-        .generateStrings(dataSize, "0123456789.", 8)
-        .filter(_.exists(_.isDigit))
-        .toDF("a")
-      castTest(values, DataTypes.createDecimalType(10, 2), testAnsi = false)
+  test("cast StringType to DecimalType(38,10) high precision") {
+    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true") {
+      // TODO fix for Spark 4.0.0
+      assume(!isSpark40Plus)
+      val values = gen.generateStrings(dataSize, numericPattern, 38).toDF("a")
+      Seq(true, false).foreach(ansiEnabled =>
+        castTest(values, DataTypes.createDecimalType(38, 10), testAnsi = ansiEnabled))
+    }
+  }
+
+  test("cast StringType to DecimalType(10,2) basic values") {
+    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true") {
+      // TODO fix for Spark 4.0.0
+      assume(!isSpark40Plus)
+      val values = Seq(
+        "123.45",
+        "-67.89",
+        "-67.89",
+        "-67.895",
+        "67.895",
+        "0.001",
+        "999.99",
+        "123.456",
+        "123.45D",
+        ".5",
+        "5.",
+        "+123.45",
+        "  123.45  ",
+        "inf",
+        "",
+        "abc",
+        null).toDF("a")
+      Seq(true, false).foreach(ansiEnabled =>
+        castTest(values, DataTypes.createDecimalType(10, 2), testAnsi = ansiEnabled))
+    }
+  }
+
+  test("cast StringType to Decimal type scientific notation") {
+    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true") {
+      // TODO fix for Spark 4.0.0
+      assume(!isSpark40Plus)
+      val values = Seq(
+        "1.23E-5",
+        "1.23e10",
+        "1.23E+10",
+        "-1.23e-5",
+        "1e5",
+        "1E-2",
+        "-1.5e3",
+        "1.23E0",
+        "0e0",
+        "1.23e",
+        "e5",
+        null).toDF("a")
+      Seq(true, false).foreach(ansiEnabled =>
+        castTest(values, DataTypes.createDecimalType(23, 8), testAnsi = ansiEnabled))
     }
   }
 
diff --git a/spark/src/test/scala/org/apache/comet/CometFuzzTestBase.scala b/spark/src/test/scala/org/apache/comet/CometFuzzTestBase.scala
index 1c0636780e..74858ed614 100644
--- a/spark/src/test/scala/org/apache/comet/CometFuzzTestBase.scala
+++ b/spark/src/test/scala/org/apache/comet/CometFuzzTestBase.scala
@@ -35,12 +35,15 @@ import org.apache.spark.sql.execution.SparkPlan
 import org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanHelper
 import org.apache.spark.sql.internal.SQLConf
 
-import org.apache.comet.testing.{DataGenOptions, ParquetGenerator, SchemaGenOptions}
+import org.apache.comet.testing.{DataGenOptions, FuzzDataGenerator, ParquetGenerator, SchemaGenOptions}
 
 class CometFuzzTestBase extends CometTestBase with AdaptiveSparkPlanHelper {
 
   var filename: String = null
 
+  /** Filename for data file with deeply nested complex types */
+  var complexTypesFilename: String = null
+
   /**
    * We use Asia/Kathmandu because it has a non-zero number of minutes as the offset, so is an
    * interesting edge case. Also, this timezone tends to be different from the default system
@@ -53,18 +56,20 @@ class CometFuzzTestBase extends CometTestBase with AdaptiveSparkPlanHelper {
   override def beforeAll(): Unit = {
     super.beforeAll()
     val tempDir = System.getProperty("java.io.tmpdir")
-    filename = s"$tempDir/CometFuzzTestSuite_${System.currentTimeMillis()}.parquet"
     val random = new Random(42)
+    val dataGenOptions = DataGenOptions(
+      generateNegativeZero = false,
+      // override base date due to known issues with experimental scans
+      baseDate = new SimpleDateFormat("YYYY-MM-DD hh:mm:ss").parse("2024-05-25 12:34:56").getTime)
+
+    // generate Parquet file with primitives, structs, and arrays, but no maps
+    // and no nested complex types
+    filename = s"$tempDir/CometFuzzTestSuite_${System.currentTimeMillis()}.parquet"
     withSQLConf(
       CometConf.COMET_ENABLED.key -> "false",
       SQLConf.SESSION_LOCAL_TIMEZONE.key -> defaultTimezone) {
       val schemaGenOptions =
         SchemaGenOptions(generateArray = true, generateStruct = true)
-      val dataGenOptions = DataGenOptions(
-        generateNegativeZero = false,
-        // override base date due to known issues with experimental scans
-        baseDate =
-          new SimpleDateFormat("YYYY-MM-DD hh:mm:ss").parse("2024-05-25 12:34:56").getTime)
       ParquetGenerator.makeParquetFile(
         random,
         spark,
@@ -73,6 +78,30 @@ class CometFuzzTestBase extends CometTestBase with AdaptiveSparkPlanHelper {
         schemaGenOptions,
         dataGenOptions)
     }
+
+    // generate Parquet file with complex nested types
+    complexTypesFilename =
+      s"$tempDir/CometFuzzTestSuite_nested_${System.currentTimeMillis()}.parquet"
+    withSQLConf(
+      CometConf.COMET_ENABLED.key -> "false",
+      SQLConf.SESSION_LOCAL_TIMEZONE.key -> defaultTimezone) {
+      val schemaGenOptions =
+        SchemaGenOptions(generateArray = true, generateStruct = true, generateMap = true)
+      val schema = FuzzDataGenerator.generateNestedSchema(
+        random,
+        numCols = 10,
+        minDepth = 2,
+        maxDepth = 4,
+        options = schemaGenOptions)
+      ParquetGenerator.makeParquetFile(
+        random,
+        spark,
+        complexTypesFilename,
+        schema,
+        1000,
+        dataGenOptions)
+    }
+
   }
 
   protected override def afterAll(): Unit = {
@@ -84,6 +113,7 @@ class CometFuzzTestBase extends CometTestBase with AdaptiveSparkPlanHelper {
       pos: Position): Unit = {
     Seq("native", "jvm").foreach { shuffleMode =>
       Seq(
+        CometConf.SCAN_AUTO,
         CometConf.SCAN_NATIVE_COMET,
         CometConf.SCAN_NATIVE_DATAFUSION,
         CometConf.SCAN_NATIVE_ICEBERG_COMPAT).foreach { scanImpl =>
diff --git a/spark/src/test/scala/org/apache/comet/CometFuzzTestSuite.scala b/spark/src/test/scala/org/apache/comet/CometFuzzTestSuite.scala
index 59680bd6bc..833314a5c6 100644
--- a/spark/src/test/scala/org/apache/comet/CometFuzzTestSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometFuzzTestSuite.scala
@@ -28,7 +28,7 @@ import org.apache.spark.sql.internal.SQLConf.ParquetOutputTimestampType
 import org.apache.spark.sql.types._
 
 import org.apache.comet.DataTypeSupport.isComplexType
-import org.apache.comet.testing.{DataGenOptions, ParquetGenerator, SchemaGenOptions}
+import org.apache.comet.testing.{DataGenOptions, ParquetGenerator}
 import org.apache.comet.testing.FuzzDataGenerator.{doubleNaNLiteral, floatNaNLiteral}
 
 class CometFuzzTestSuite extends CometFuzzTestBase {
@@ -44,6 +44,17 @@ class CometFuzzTestSuite extends CometFuzzTestBase {
     }
   }
 
+  test("select * with deeply nested complex types") {
+    val df = spark.read.parquet(complexTypesFilename)
+    df.createOrReplaceTempView("t1")
+    val sql = "SELECT * FROM t1"
+    if (CometConf.COMET_NATIVE_SCAN_IMPL.get() != CometConf.SCAN_NATIVE_COMET) {
+      checkSparkAnswerAndOperator(sql)
+    } else {
+      checkSparkAnswer(sql)
+    }
+  }
+
   test("select * with limit") {
     val df = spark.read.parquet(filename)
     df.createOrReplaceTempView("t1")
@@ -179,7 +190,7 @@ class CometFuzzTestSuite extends CometFuzzTestBase {
         case CometConf.SCAN_NATIVE_COMET =>
           // native_comet does not support reading complex types
           0
-        case CometConf.SCAN_NATIVE_ICEBERG_COMPAT | CometConf.SCAN_NATIVE_DATAFUSION =>
+        case _ =>
           CometConf.COMET_SHUFFLE_MODE.get() match {
             case "jvm" =>
               1
@@ -202,7 +213,7 @@ class CometFuzzTestSuite extends CometFuzzTestBase {
         case CometConf.SCAN_NATIVE_COMET =>
           // native_comet does not support reading complex types
           0
-        case CometConf.SCAN_NATIVE_ICEBERG_COMPAT | CometConf.SCAN_NATIVE_DATAFUSION =>
+        case _ =>
           CometConf.COMET_SHUFFLE_MODE.get() match {
             case "jvm" =>
               1
@@ -272,12 +283,7 @@ class CometFuzzTestSuite extends CometFuzzTestBase {
   }
 
   private def testParquetTemporalTypes(
-      outputTimestampType: ParquetOutputTimestampType.Value,
-      generateArray: Boolean = true,
-      generateStruct: Boolean = true): Unit = {
-
-    val schemaGenOptions =
-      SchemaGenOptions(generateArray = generateArray, generateStruct = generateStruct)
+      outputTimestampType: ParquetOutputTimestampType.Value): Unit = {
 
     val dataGenOptions = DataGenOptions(generateNegativeZero = false)
 
@@ -287,12 +293,23 @@ class CometFuzzTestSuite extends CometFuzzTestBase {
         CometConf.COMET_ENABLED.key -> "false",
         SQLConf.PARQUET_OUTPUT_TIMESTAMP_TYPE.key -> outputTimestampType.toString,
         SQLConf.SESSION_LOCAL_TIMEZONE.key -> defaultTimezone) {
+
+        // TODO test with MapType
+        // https://github.com/apache/datafusion-comet/issues/2945
+        val schema = StructType(
+          Seq(
+            StructField("c0", DataTypes.DateType),
+            StructField("c1", DataTypes.createArrayType(DataTypes.DateType)),
+            StructField(
+              "c2",
+              DataTypes.createStructType(Array(StructField("c3", DataTypes.DateType))))))
+
         ParquetGenerator.makeParquetFile(
           random,
           spark,
           filename.toString,
+          schema,
           100,
-          schemaGenOptions,
           dataGenOptions)
       }
 
@@ -309,18 +326,10 @@ class CometFuzzTestSuite extends CometFuzzTestBase {
 
                 val df = spark.read.parquet(filename.toString)
                 df.createOrReplaceTempView("t1")
-
-                def hasTemporalType(t: DataType): Boolean = t match {
-                  case DataTypes.DateType | DataTypes.TimestampType |
-                      DataTypes.TimestampNTZType =>
-                    true
-                  case t: StructType => t.exists(f => hasTemporalType(f.dataType))
-                  case t: ArrayType => hasTemporalType(t.elementType)
-                  case _ => false
-                }
-
                 val columns =
-                  df.schema.fields.filter(f => hasTemporalType(f.dataType)).map(_.name)
+                  df.schema.fields
+                    .filter(f => DataTypeSupport.hasTemporalType(f.dataType))
+                    .map(_.name)
 
                 for (col <- columns) {
                   checkSparkAnswer(s"SELECT $col FROM t1 ORDER BY $col")
diff --git a/spark/src/test/scala/org/apache/comet/CometMapExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometMapExpressionSuite.scala
index 88c13391a6..9276a20348 100644
--- a/spark/src/test/scala/org/apache/comet/CometMapExpressionSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/CometMapExpressionSuite.scala
@@ -125,4 +125,36 @@ class CometMapExpressionSuite extends CometTestBase {
     }
   }
 
+  test("fallback for size with map input") {
+    withTempDir { dir =>
+      withTempView("t1") {
+        val path = new Path(dir.toURI.toString, "test.parquet")
+        makeParquetFileAllPrimitiveTypes(path, dictionaryEnabled = true, 100)
+        spark.read.parquet(path.toString).createOrReplaceTempView("t1")
+
+        // Use column references in maps to avoid constant folding
+        checkSparkAnswerAndFallbackReason(
+          sql("SELECT size(case when _2 < 0 then map(_8, _9) else map() end) from t1"),
+          "size does not support map inputs")
+      }
+    }
+  }
+
+  // fails with "map is not supported"
+  ignore("size with map input") {
+    withTempDir { dir =>
+      withTempView("t1") {
+        val path = new Path(dir.toURI.toString, "test.parquet")
+        makeParquetFileAllPrimitiveTypes(path, dictionaryEnabled = true, 100)
+        spark.read.parquet(path.toString).createOrReplaceTempView("t1")
+
+        // Use column references in maps to avoid constant folding
+        checkSparkAnswerAndOperator(
+          sql("SELECT size(map(_8, _9, _10, _11)) from t1 where _8 is not null"))
+        checkSparkAnswerAndOperator(
+          sql("SELECT size(case when _2 < 0 then map(_8, _9) else map() end) from t1"))
+      }
+    }
+  }
+
 }
diff --git a/spark/src/test/scala/org/apache/comet/exec/CometAggregateSuite.scala b/spark/src/test/scala/org/apache/comet/exec/CometAggregateSuite.scala
index 060579b2ba..9b2816c2fd 100644
--- a/spark/src/test/scala/org/apache/comet/exec/CometAggregateSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/exec/CometAggregateSuite.scala
@@ -24,7 +24,6 @@ import scala.util.Random
 import org.apache.hadoop.fs.Path
 import org.apache.spark.sql.{CometTestBase, DataFrame, Row}
 import org.apache.spark.sql.catalyst.expressions.Cast
-import org.apache.spark.sql.catalyst.expressions.aggregate.Sum
 import org.apache.spark.sql.catalyst.optimizer.EliminateSorts
 import org.apache.spark.sql.comet.CometHashAggregateExec
 import org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanHelper
@@ -1472,11 +1471,22 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     }
   }
 
+  test("ANSI support for sum - null test") {
+    Seq(true, false).foreach { ansiEnabled =>
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
+        withParquetTable(
+          Seq((null.asInstanceOf[java.lang.Long], "a"), (null.asInstanceOf[java.lang.Long], "b")),
+          "null_tbl") {
+          val res = sql("SELECT sum(_1) FROM null_tbl")
+          checkSparkAnswerAndOperator(res)
+        }
+      }
+    }
+  }
+
   test("ANSI support for decimal sum - null test") {
     Seq(true, false).foreach { ansiEnabled =>
-      withSQLConf(
-        SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString,
-        CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
         withParquetTable(
           Seq(
             (null.asInstanceOf[java.math.BigDecimal], "a"),
@@ -1490,11 +1500,22 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     }
   }
 
+  test("ANSI support for try_sum - null test") {
+    Seq(true, false).foreach { ansiEnabled =>
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
+        withParquetTable(
+          Seq((null.asInstanceOf[java.lang.Long], "a"), (null.asInstanceOf[java.lang.Long], "b")),
+          "null_tbl") {
+          val res = sql("SELECT try_sum(_1) FROM null_tbl")
+          checkSparkAnswerAndOperator(res)
+        }
+      }
+    }
+  }
+
   test("ANSI support for try_sum decimal - null test") {
     Seq(true, false).foreach { ansiEnabled =>
-      withSQLConf(
-        SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString,
-        CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
         withParquetTable(
           Seq(
             (null.asInstanceOf[java.math.BigDecimal], "a"),
@@ -1508,11 +1529,28 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     }
   }
 
+  test("ANSI support for sum - null test (group by)") {
+    Seq(true, false).foreach { ansiEnabled =>
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
+        withParquetTable(
+          Seq(
+            (null.asInstanceOf[java.lang.Long], "a"),
+            (null.asInstanceOf[java.lang.Long], "a"),
+            (null.asInstanceOf[java.lang.Long], "b"),
+            (null.asInstanceOf[java.lang.Long], "b"),
+            (null.asInstanceOf[java.lang.Long], "b")),
+          "tbl") {
+          val res = sql("SELECT _2, sum(_1) FROM tbl group by 1")
+          checkSparkAnswerAndOperator(res)
+          assert(res.orderBy(col("_2")).collect() === Array(Row("a", null), Row("b", null)))
+        }
+      }
+    }
+  }
+
   test("ANSI support for decimal sum - null test (group by)") {
     Seq(true, false).foreach { ansiEnabled =>
-      withSQLConf(
-        SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString,
-        CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
         withParquetTable(
           Seq(
             (null.asInstanceOf[java.math.BigDecimal], "a"),
@@ -1529,11 +1567,27 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     }
   }
 
+  test("ANSI support for try_sum - null test (group by)") {
+    Seq(true, false).foreach { ansiEnabled =>
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
+        withParquetTable(
+          Seq(
+            (null.asInstanceOf[java.lang.Long], "a"),
+            (null.asInstanceOf[java.lang.Long], "a"),
+            (null.asInstanceOf[java.lang.Long], "b"),
+            (null.asInstanceOf[java.lang.Long], "b"),
+            (null.asInstanceOf[java.lang.Long], "b")),
+          "tbl") {
+          val res = sql("SELECT _2, try_sum(_1) FROM tbl group by 1")
+          checkSparkAnswerAndOperator(res)
+        }
+      }
+    }
+  }
+
   test("ANSI support for try_sum decimal - null test (group by)") {
     Seq(true, false).foreach { ansiEnabled =>
-      withSQLConf(
-        SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString,
-        CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
         withParquetTable(
           Seq(
             (null.asInstanceOf[java.math.BigDecimal], "a"),
@@ -1544,7 +1598,6 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
           "tbl") {
           val res = sql("SELECT _2, try_sum(_1) FROM tbl group by 1")
           checkSparkAnswerAndOperator(res)
-          assert(res.orderBy(col("_2")).collect() === Array(Row("a", null), Row("b", null)))
         }
       }
     }
@@ -1555,11 +1608,64 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     (1 to 50).flatMap(_ => Seq((maxDec38_0, 1)))
   }
 
+  test("ANSI support - SUM function") {
+    Seq(true, false).foreach { ansiEnabled =>
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
+        // Test long overflow
+        withParquetTable(Seq((Long.MaxValue, 1L), (100L, 1L)), "tbl") {
+          val res = sql("SELECT SUM(_1) FROM tbl")
+          if (ansiEnabled) {
+            checkSparkAnswerMaybeThrows(res) match {
+              case (Some(sparkExc), Some(cometExc)) =>
+                // make sure that the error message throws overflow exception only
+                assert(sparkExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+                assert(cometExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+              case _ => fail("Exception should be thrown for Long overflow in ANSI mode")
+            }
+          } else {
+            checkSparkAnswerAndOperator(res)
+          }
+        }
+        // Test long underflow
+        withParquetTable(Seq((Long.MinValue, 1L), (-100L, 1L)), "tbl") {
+          val res = sql("SELECT SUM(_1) FROM tbl")
+          if (ansiEnabled) {
+            checkSparkAnswerMaybeThrows(res) match {
+              case (Some(sparkExc), Some(cometExc)) =>
+                assert(sparkExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+                assert(cometExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+              case _ => fail("Exception should be thrown for Long underflow in ANSI mode")
+            }
+          } else {
+            checkSparkAnswerAndOperator(res)
+          }
+        }
+        // Test Int SUM (should not overflow)
+        withParquetTable(Seq((Int.MaxValue, 1), (Int.MaxValue, 1), (100, 1)), "tbl") {
+          val res = sql("SELECT SUM(_1) FROM tbl")
+          checkSparkAnswerAndOperator(res)
+        }
+        // Test Short SUM (should not overflow)
+        withParquetTable(
+          Seq((Short.MaxValue, 1.toShort), (Short.MaxValue, 1.toShort), (100.toShort, 1.toShort)),
+          "tbl") {
+          val res = sql("SELECT SUM(_1) FROM tbl")
+          checkSparkAnswerAndOperator(res)
+        }
+        // Test Byte SUM (should not overflow)
+        withParquetTable(
+          Seq((Byte.MaxValue, 1.toByte), (Byte.MaxValue, 1.toByte), (10.toByte, 1.toByte)),
+          "tbl") {
+          val res = sql("SELECT SUM(_1) FROM tbl")
+          checkSparkAnswerAndOperator(res)
+        }
+      }
+    }
+  }
+
   test("ANSI support for decimal SUM function") {
     Seq(true, false).foreach { ansiEnabled =>
-      withSQLConf(
-        SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString,
-        CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
         withParquetTable(generateOverflowDecimalInputs, "tbl") {
           val res = sql("SELECT SUM(_1) FROM tbl")
           if (ansiEnabled) {
@@ -1578,11 +1684,68 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     }
   }
 
+  test("ANSI support for SUM - GROUP BY") {
+    Seq(true, false).foreach { ansiEnabled =>
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
+        withParquetTable(
+          Seq((Long.MaxValue, 1), (100L, 1), (Long.MaxValue, 2), (200L, 2)),
+          "tbl") {
+          val res = sql("SELECT _2, SUM(_1) FROM tbl GROUP BY _2").repartition(2)
+          if (ansiEnabled) {
+            checkSparkAnswerMaybeThrows(res) match {
+              case (Some(sparkExc), Some(cometExc)) =>
+                assert(sparkExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+                assert(cometExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+              case _ =>
+                fail("Exception should be thrown for Long overflow with GROUP BY in ANSI mode")
+            }
+          } else {
+            checkSparkAnswerAndOperator(res)
+          }
+        }
+
+        withParquetTable(
+          Seq((Long.MinValue, 1), (-100L, 1), (Long.MinValue, 2), (-200L, 2)),
+          "tbl") {
+          val res = sql("SELECT _2, SUM(_1) FROM tbl GROUP BY _2")
+          if (ansiEnabled) {
+            checkSparkAnswerMaybeThrows(res) match {
+              case (Some(sparkExc), Some(cometExc)) =>
+                assert(sparkExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+                assert(cometExc.getMessage.contains("ARITHMETIC_OVERFLOW"))
+              case _ =>
+                fail("Exception should be thrown for Long underflow with GROUP BY in ANSI mode")
+            }
+          } else {
+            checkSparkAnswerAndOperator(res)
+          }
+        }
+        // Test Int with GROUP BY
+        withParquetTable(Seq((Int.MaxValue, 1), (Int.MaxValue, 1), (100, 2), (200, 2)), "tbl") {
+          val res = sql("SELECT _2, SUM(_1) FROM tbl GROUP BY _2")
+          checkSparkAnswerAndOperator(res)
+        }
+        // Test Short with GROUP BY
+        withParquetTable(
+          Seq((Short.MaxValue, 1), (Short.MaxValue, 1), (100.toShort, 2), (200.toShort, 2)),
+          "tbl") {
+          val res = sql("SELECT _2, SUM(_1) FROM tbl GROUP BY _2")
+          checkSparkAnswerAndOperator(res)
+        }
+        // Test Byte with GROUP BY
+        withParquetTable(
+          Seq((Byte.MaxValue, 1), (Byte.MaxValue, 1), (10.toByte, 2), (20.toByte, 2)),
+          "tbl") {
+          val res = sql("SELECT _2, SUM(_1) FROM tbl GROUP BY _2")
+          checkSparkAnswerAndOperator(res)
+        }
+      }
+    }
+  }
+
   test("ANSI support for decimal SUM - GROUP BY") {
     Seq(true, false).foreach { ansiEnabled =>
-      withSQLConf(
-        SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString,
-        CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
+      withSQLConf(SQLConf.ANSI_ENABLED.key -> ansiEnabled.toString) {
         withParquetTable(generateOverflowDecimalInputs, "tbl") {
           val res =
             sql("SELECT _2, SUM(_1) FROM tbl GROUP BY _2").repartition(2)
@@ -1602,35 +1765,69 @@ class CometAggregateSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     }
   }
 
+  test("try_sum overflow - with GROUP BY") {
+    // Test Long overflow with GROUP BY - some groups overflow while some don't
+    withParquetTable(Seq((Long.MaxValue, 1), (100L, 1), (200L, 2), (300L, 2)), "tbl") {
+      // repartition to trigger merge batch and state checks
+      val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2").repartition(2, col("_2"))
+      // first group should return NULL (overflow) and group 2 should return 500
+      checkSparkAnswerAndOperator(res)
+    }
+
+    // Test Long underflow with GROUP BY
+    withParquetTable(Seq((Long.MinValue, 1), (-100L, 1), (-200L, 2), (-300L, 2)), "tbl") {
+      val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2").repartition(2, col("_2"))
+      // first group should return NULL (underflow), second group should return neg 500
+      checkSparkAnswerAndOperator(res)
+    }
+
+    // Test all groups overflow
+    withParquetTable(Seq((Long.MaxValue, 1), (100L, 1), (Long.MaxValue, 2), (100L, 2)), "tbl") {
+      val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2").repartition(2, col("_2"))
+      // Both groups should return NULL
+      checkSparkAnswerAndOperator(res)
+    }
+
+    // Test Short with GROUP BY (should NOT overflow)
+    withParquetTable(
+      Seq((Short.MaxValue, 1), (Short.MaxValue, 1), (100.toShort, 2), (200.toShort, 2)),
+      "tbl") {
+      val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2").repartition(2, col("_2"))
+      checkSparkAnswerAndOperator(res)
+    }
+
+    // Test Byte with GROUP BY (no overflow)
+    withParquetTable(
+      Seq((Byte.MaxValue, 1), (Byte.MaxValue, 1), (10.toByte, 2), (20.toByte, 2)),
+      "tbl") {
+      val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2").repartition(2, col("_2"))
+      checkSparkAnswerAndOperator(res)
+    }
+  }
+
   test("try_sum decimal overflow") {
-    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
-      withParquetTable(generateOverflowDecimalInputs, "tbl") {
-        val res = sql("SELECT try_sum(_1) FROM tbl")
-        checkSparkAnswerAndOperator(res)
-      }
+    withParquetTable(generateOverflowDecimalInputs, "tbl") {
+      val res = sql("SELECT try_sum(_1) FROM tbl")
+      checkSparkAnswerAndOperator(res)
     }
   }
 
   test("try_sum decimal overflow - with GROUP BY") {
-    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
-      withParquetTable(generateOverflowDecimalInputs, "tbl") {
-        val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2").repartition(2, col("_2"))
-        checkSparkAnswerAndOperator(res)
-      }
+    withParquetTable(generateOverflowDecimalInputs, "tbl") {
+      val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2").repartition(2, col("_2"))
+      checkSparkAnswerAndOperator(res)
     }
   }
 
   test("try_sum decimal partial overflow - with GROUP BY") {
-    withSQLConf(CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true") {
-      // Group 1 overflows, Group 2 succeeds
-      val data: Seq[(java.math.BigDecimal, Int)] = generateOverflowDecimalInputs ++ Seq(
-        (new java.math.BigDecimal(300), 2),
-        (new java.math.BigDecimal(200), 2))
-      withParquetTable(data, "tbl") {
-        val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2")
-        // Group 1 should be NULL, Group 2 should be 500
-        checkSparkAnswerAndOperator(res)
-      }
+    // Group 1 overflows, Group 2 succeeds
+    val data: Seq[(java.math.BigDecimal, Int)] = generateOverflowDecimalInputs ++ Seq(
+      (new java.math.BigDecimal(300), 2),
+      (new java.math.BigDecimal(200), 2))
+    withParquetTable(data, "tbl") {
+      val res = sql("SELECT _2, try_sum(_1) FROM tbl GROUP BY _2")
+      // Group 1 should be NULL, Group 2 should be 500
+      checkSparkAnswerAndOperator(res)
     }
   }
 
diff --git a/spark/src/test/scala/org/apache/comet/parquet/CometParquetWriterSuite.scala b/spark/src/test/scala/org/apache/comet/parquet/CometParquetWriterSuite.scala
index 2ea697fd4d..3ae7f949ab 100644
--- a/spark/src/test/scala/org/apache/comet/parquet/CometParquetWriterSuite.scala
+++ b/spark/src/test/scala/org/apache/comet/parquet/CometParquetWriterSuite.scala
@@ -54,7 +54,8 @@ class CometParquetWriterSuite extends CometTestBase {
 
   private def writeWithCometNativeWriteExec(
       inputPath: String,
-      outputPath: String): Option[QueryExecution] = {
+      outputPath: String,
+      num_partitions: Option[Int] = None): Option[QueryExecution] = {
     val df = spark.read.parquet(inputPath)
 
     // Use a listener to capture the execution plan during write
@@ -77,8 +78,8 @@ class CometParquetWriterSuite extends CometTestBase {
     spark.listenerManager.register(listener)
 
     try {
-      // Perform native write
-      df.write.parquet(outputPath)
+      // Perform native write with optional partitioning
+      num_partitions.fold(df)(n => df.repartition(n)).write.parquet(outputPath)
 
       // Wait for listener to be called with timeout
       val maxWaitTimeMs = 15000
@@ -97,20 +98,25 @@ class CometParquetWriterSuite extends CometTestBase {
         s"Listener was not called within ${maxWaitTimeMs}ms - no execution plan captured")
 
       capturedPlan.foreach { qe =>
-        val executedPlan = qe.executedPlan
-        val hasNativeWrite = executedPlan.exists {
-          case _: CometNativeWriteExec => true
+        val executedPlan = stripAQEPlan(qe.executedPlan)
+
+        // Count CometNativeWriteExec instances in the plan
+        var nativeWriteCount = 0
+        executedPlan.foreach {
+          case _: CometNativeWriteExec =>
+            nativeWriteCount += 1
           case d: DataWritingCommandExec =>
-            d.child.exists {
-              case _: CometNativeWriteExec => true
-              case _ => false
+            d.child.foreach {
+              case _: CometNativeWriteExec =>
+                nativeWriteCount += 1
+              case _ =>
             }
-          case _ => false
+          case _ =>
         }
 
         assert(
-          hasNativeWrite,
-          s"Expected CometNativeWriteExec in the plan, but got:\n${executedPlan.treeString}")
+          nativeWriteCount == 1,
+          s"Expected exactly one CometNativeWriteExec in the plan, but found $nativeWriteCount:\n${executedPlan.treeString}")
       }
     } finally {
       spark.listenerManager.unregister(listener)
@@ -197,4 +203,29 @@ class CometParquetWriterSuite extends CometTestBase {
       }
     }
   }
+
+  test("basic parquet write with repartition") {
+    withTempPath { dir =>
+      // Create test data and write it to a temp parquet file first
+      withTempPath { inputDir =>
+        val inputPath = createTestData(inputDir)
+        Seq(true, false).foreach(adaptive => {
+          // Create a new output path for each AQE value
+          val outputPath = new File(dir, s"output_aqe_$adaptive.parquet").getAbsolutePath
+
+          withSQLConf(
+            CometConf.COMET_NATIVE_PARQUET_WRITE_ENABLED.key -> "true",
+            "spark.sql.adaptive.enabled" -> adaptive.toString,
+            SQLConf.SESSION_LOCAL_TIMEZONE.key -> "America/Halifax",
+            CometConf.getOperatorAllowIncompatConfigKey(
+              classOf[DataWritingCommandExec]) -> "true",
+            CometConf.COMET_EXEC_ENABLED.key -> "true") {
+
+            writeWithCometNativeWriteExec(inputPath, outputPath, Some(10))
+            verifyWrittenFile(outputPath)
+          }
+        })
+      }
+    }
+  }
 }
diff --git a/spark/src/test/scala/org/apache/spark/sql/CometTestBase.scala b/spark/src/test/scala/org/apache/spark/sql/CometTestBase.scala
index bc9e521d38..7dba24bff7 100644
--- a/spark/src/test/scala/org/apache/spark/sql/CometTestBase.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/CometTestBase.scala
@@ -89,6 +89,14 @@ abstract class CometTestBase
     // this is an edge case, and we expect most users to allow sorts on floating point, so we
     // enable this for the tests
     conf.set(CometConf.getExprAllowIncompatConfigKey("SortOrder"), "true")
+    // For spark 4.0 tests, we need limit the thread threshold to avoid OOM, see:
+    //  https://github.com/apache/datafusion-comet/issues/2965
+    conf.set(
+      "spark.sql.shuffleExchange.maxThreadThreshold",
+      sys.env.getOrElse("SPARK_TEST_SQL_SHUFFLE_EXCHANGE_MAX_THREAD_THRESHOLD", "1024"))
+    conf.set(
+      "spark.sql.resultQueryStage.maxThreadThreshold",
+      sys.env.getOrElse("SPARK_TEST_SQL_RESULT_QUERY_STAGE_MAX_THREAD_THRESHOLD", "1024"))
     conf
   }
 
@@ -116,7 +124,6 @@ abstract class CometTestBase
       sparkPlan = dfSpark.queryExecution.executedPlan
     }
     val dfComet = datasetOfRows(spark, df.logicalPlan)
-
     if (withTol.isDefined) {
       checkAnswerWithTolerance(dfComet, expected, withTol.get)
     } else {
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometArithmeticBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometArithmeticBenchmark.scala
index c6fe55b56b..a513aa1a77 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometArithmeticBenchmark.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometArithmeticBenchmark.scala
@@ -19,11 +19,8 @@
 
 package org.apache.spark.sql.benchmark
 
-import org.apache.spark.benchmark.Benchmark
 import org.apache.spark.sql.types._
 
-import org.apache.comet.CometConf
-
 /**
  * Benchmark to measure Comet expression evaluation performance. To run this benchmark:
  * `SPARK_GENERATE_BENCHMARK_FILES=1 make
@@ -35,10 +32,6 @@ object CometArithmeticBenchmark extends CometBenchmarkBase {
 
   def integerArithmeticBenchmark(values: Int, op: BinaryOp, useDictionary: Boolean): Unit = {
     val dataType = IntegerType
-    val benchmark = new Benchmark(
-      s"Binary op ${dataType.sql}, dictionary = $useDictionary",
-      values,
-      output = output)
 
     withTempPath { dir =>
       withTempTable(table) {
@@ -48,25 +41,10 @@ object CometArithmeticBenchmark extends CometBenchmarkBase {
             s"SELECT CAST(value AS ${dataType.sql}) AS c1, " +
               s"CAST(value AS ${dataType.sql}) c2 FROM $tbl"))
 
-        benchmark.addCase(s"$op ($dataType) - Spark") { _ =>
-          spark.sql(s"SELECT c1 ${op.sig} c2 FROM $table").noop()
-        }
-
-        benchmark.addCase(s"$op ($dataType) - Comet (Scan)") { _ =>
-          withSQLConf(CometConf.COMET_ENABLED.key -> "true") {
-            spark.sql(s"SELECT c1 ${op.sig} c2 FROM $table").noop()
-          }
-        }
-
-        benchmark.addCase(s"$op ($dataType) - Comet (Scan, Exec)") { _ =>
-          withSQLConf(
-            CometConf.COMET_ENABLED.key -> "true",
-            CometConf.COMET_EXEC_ENABLED.key -> "true") {
-            spark.sql(s"SELECT c1 ${op.sig} c2 FROM $table").noop()
-          }
-        }
+        val name = s"Binary op ${dataType.sql}, dictionary = $useDictionary"
+        val query = s"SELECT c1 ${op.sig} c2 FROM $table"
 
-        benchmark.run()
+        runExpressionBenchmark(name, values, query)
       }
     }
   }
@@ -76,10 +54,6 @@ object CometArithmeticBenchmark extends CometBenchmarkBase {
       dataType: DecimalType,
       op: BinaryOp,
       useDictionary: Boolean): Unit = {
-    val benchmark = new Benchmark(
-      s"Binary op ${dataType.sql}, dictionary = $useDictionary",
-      values,
-      output = output)
     val df = makeDecimalDataFrame(values, dataType, useDictionary)
 
     withTempPath { dir =>
@@ -87,25 +61,10 @@ object CometArithmeticBenchmark extends CometBenchmarkBase {
         df.createOrReplaceTempView(tbl)
         prepareTable(dir, spark.sql(s"SELECT dec AS c1, dec AS c2 FROM $tbl"))
 
-        benchmark.addCase(s"$op ($dataType) - Spark") { _ =>
-          spark.sql(s"SELECT c1 ${op.sig} c2 FROM $table").noop()
-        }
-
-        benchmark.addCase(s"$op ($dataType) - Comet (Scan)") { _ =>
-          withSQLConf(CometConf.COMET_ENABLED.key -> "true") {
-            spark.sql(s"SELECT c1 ${op.sig} c2 FROM $table").noop()
-          }
-        }
-
-        benchmark.addCase(s"$op ($dataType) - Comet (Scan, Exec)") { _ =>
-          withSQLConf(
-            CometConf.COMET_ENABLED.key -> "true",
-            CometConf.COMET_EXEC_ENABLED.key -> "true") {
-            spark.sql(s"SELECT c1 ${op.sig} c2 FROM $table").noop()
-          }
-        }
+        val name = s"Binary op ${dataType.sql}, dictionary = $useDictionary"
+        val query = s"SELECT c1 ${op.sig} c2 FROM $table"
 
-        benchmark.run()
+        runExpressionBenchmark(name, values, query)
       }
     }
   }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometBenchmarkBase.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometBenchmarkBase.scala
index 5ee787ad97..8d56cefa05 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometBenchmarkBase.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometBenchmarkBase.scala
@@ -110,6 +110,54 @@ trait CometBenchmarkBase extends SqlBasedBenchmark {
     benchmark.run()
   }
 
+  /**
+   * Runs an expression benchmark with standard cases: Spark, Comet (Scan), Comet (Scan + Exec).
+   * This provides a consistent benchmark structure for expression evaluation.
+   *
+   * @param name
+   *   Benchmark name
+   * @param cardinality
+   *   Number of rows being processed
+   * @param query
+   *   SQL query to benchmark
+   * @param extraCometConfigs
+   *   Additional configurations to apply for Comet cases (optional)
+   */
+  final def runExpressionBenchmark(
+      name: String,
+      cardinality: Long,
+      query: String,
+      extraCometConfigs: Map[String, String] = Map.empty): Unit = {
+    val benchmark = new Benchmark(name, cardinality, output = output)
+
+    benchmark.addCase("Spark") { _ =>
+      withSQLConf(CometConf.COMET_ENABLED.key -> "false") {
+        spark.sql(query).noop()
+      }
+    }
+
+    benchmark.addCase("Comet (Scan)") { _ =>
+      withSQLConf(
+        CometConf.COMET_ENABLED.key -> "true",
+        CometConf.COMET_EXEC_ENABLED.key -> "false") {
+        spark.sql(query).noop()
+      }
+    }
+
+    val cometExecConfigs = Map(
+      CometConf.COMET_ENABLED.key -> "true",
+      CometConf.COMET_EXEC_ENABLED.key -> "true",
+      "spark.sql.optimizer.constantFolding.enabled" -> "false") ++ extraCometConfigs
+
+    benchmark.addCase("Comet (Scan + Exec)") { _ =>
+      withSQLConf(cometExecConfigs.toSeq: _*) {
+        spark.sql(query).noop()
+      }
+    }
+
+    benchmark.run()
+  }
+
   protected def prepareTable(dir: File, df: DataFrame, partition: Option[String] = None): Unit = {
     val testDf = if (partition.isDefined) {
       df.write.partitionBy(partition.get)
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastBenchmark.scala
index b2212dfd06..975abd632f 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastBenchmark.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastBenchmark.scala
@@ -19,14 +19,10 @@
 
 package org.apache.spark.sql.benchmark
 
-import scala.util.Try
-
-import org.apache.spark.benchmark.Benchmark
 import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.internal.SQLConf
 import org.apache.spark.sql.types.{DataType, LongType}
 
-import org.apache.comet.CometConf
 import org.apache.comet.expressions.{CometCast, CometEvalMode}
 import org.apache.comet.serde.{Compatible, Incompatible, Unsupported}
 
@@ -81,48 +77,20 @@ object CometCastBenchmark extends CometBenchmarkBase {
       toDataType: DataType,
       isAnsiMode: Boolean): Unit = {
 
-    val benchmark =
-      new Benchmark(
-        s"Cast function to : ${toDataType} , ansi mode enabled : ${isAnsiMode}",
-        values,
-        output = output)
-
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
         prepareTable(dir, spark.sql(s"SELECT value FROM $tbl"))
+
         val functionSQL = castExprSQL(toDataType, "value")
         val query = s"SELECT $functionSQL FROM parquetV1Table"
+        val name =
+          s"Cast function to : ${toDataType} , ansi mode enabled : ${isAnsiMode}"
 
-        benchmark.addCase(
-          s"SQL Parquet - Spark Cast expr from ${fromDataType.sql} to : ${toDataType.sql} , " +
-            s"ansi mode enabled : ${isAnsiMode}") { _ =>
-          withSQLConf(SQLConf.ANSI_ENABLED.key -> isAnsiMode.toString) {
-            if (isAnsiMode) {
-              Try { spark.sql(query).noop() }
-            } else {
-              spark.sql(query).noop()
-            }
-          }
-        }
+        val extraConfigs = Map(SQLConf.ANSI_ENABLED.key -> isAnsiMode.toString)
 
-        benchmark.addCase(
-          s"SQL Parquet - Comet Cast expr from ${fromDataType.sql} to : ${toDataType.sql} , " +
-            s"ansi mode enabled : ${isAnsiMode}") { _ =>
-          withSQLConf(
-            CometConf.COMET_ENABLED.key -> "true",
-            CometConf.COMET_EXEC_ENABLED.key -> "true",
-            SQLConf.ANSI_ENABLED.key -> isAnsiMode.toString) {
-            if (isAnsiMode) {
-              Try { spark.sql(query).noop() }
-            } else {
-              spark.sql(query).noop()
-            }
-          }
-        }
-        benchmark.run()
+        runExpressionBenchmark(name, values, query, extraConfigs)
       }
     }
-
   }
 
 }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastStringToTemporalBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastStringToTemporalBenchmark.scala
new file mode 100644
index 0000000000..39337be5c8
--- /dev/null
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometCastStringToTemporalBenchmark.scala
@@ -0,0 +1,101 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.spark.sql.benchmark
+
+case class CastStringToTemporalConfig(
+    name: String,
+    query: String,
+    extraCometConfigs: Map[String, String] = Map.empty)
+
+// spotless:off
+/**
+ * Benchmark to measure performance of Comet cast from String to temporal types. To run this
+ * benchmark:
+ * `SPARK_GENERATE_BENCHMARK_FILES=1 make benchmark-org.apache.spark.sql.benchmark.CometCastStringToTemporalBenchmark`
+ * Results will be written to "spark/benchmarks/CometCastStringToTemporalBenchmark-**results.txt".
+ */
+// spotless:on
+object CometCastStringToTemporalBenchmark extends CometBenchmarkBase {
+
+  // Configuration for String to temporal cast benchmarks
+  private val dateCastConfigs = List(
+    CastStringToTemporalConfig(
+      "Cast String to Date",
+      "SELECT CAST(c1 AS DATE) FROM parquetV1Table"),
+    CastStringToTemporalConfig(
+      "Try_Cast String to Date",
+      "SELECT TRY_CAST(c1 AS DATE) FROM parquetV1Table"))
+
+  private val timestampCastConfigs = List(
+    CastStringToTemporalConfig(
+      "Cast String to Timestamp",
+      "SELECT CAST(c1 AS TIMESTAMP) FROM parquetV1Table"),
+    CastStringToTemporalConfig(
+      "Try_Cast String to Timestamp",
+      "SELECT TRY_CAST(c1 AS TIMESTAMP) FROM parquetV1Table"))
+
+  override def runCometBenchmark(mainArgs: Array[String]): Unit = {
+    val values = 1024 * 1024 * 10 // 10M rows
+
+    // Generate date data once with ~10% invalid values
+    runBenchmarkWithTable("date data generation", values) { v =>
+      withTempPath { dateDir =>
+        withTempTable("parquetV1Table") {
+          prepareTable(
+            dateDir,
+            spark.sql(s"""
+              SELECT CASE
+                WHEN value % 10 = 0 THEN 'invalid-date'
+                ELSE CAST(DATE_ADD('2020-01-01', CAST(value % 3650 AS INT)) AS STRING)
+              END AS c1
+              FROM $tbl
+            """))
+
+          // Run date cast benchmarks with the same data
+          dateCastConfigs.foreach { config =>
+            runExpressionBenchmark(config.name, v, config.query, config.extraCometConfigs)
+          }
+        }
+      }
+    }
+
+    // Generate timestamp data once with ~10% invalid values
+    runBenchmarkWithTable("timestamp data generation", values) { v =>
+      withTempPath { timestampDir =>
+        withTempTable("parquetV1Table") {
+          prepareTable(
+            timestampDir,
+            spark.sql(s"""
+              SELECT CASE
+                WHEN value % 10 = 0 THEN 'not-a-timestamp'
+                ELSE CAST(TIMESTAMP_MICROS(value % 9999999999) AS STRING)
+              END AS c1
+              FROM $tbl
+            """))
+
+          // Run timestamp cast benchmarks with the same data
+          timestampCastConfigs.foreach { config =>
+            runExpressionBenchmark(config.name, v, config.query, config.extraCometConfigs)
+          }
+        }
+      }
+    }
+  }
+}
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometConditionalExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometConditionalExpressionBenchmark.scala
index 0dddfb36a5..c5eb9ea390 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometConditionalExpressionBenchmark.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometConditionalExpressionBenchmark.scala
@@ -19,10 +19,6 @@
 
 package org.apache.spark.sql.benchmark
 
-import org.apache.spark.benchmark.Benchmark
-
-import org.apache.comet.CometConf
-
 /**
  * Benchmark to measure Comet execution performance. To run this benchmark:
  * `SPARK_GENERATE_BENCHMARK_FILES=1 make
@@ -32,8 +28,6 @@ import org.apache.comet.CometConf
 object CometConditionalExpressionBenchmark extends CometBenchmarkBase {
 
   def caseWhenExprBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("Case When Expr", values, output = output)
-
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
         prepareTable(dir, spark.sql(s"SELECT value AS c1 FROM $tbl"))
@@ -41,56 +35,19 @@ object CometConditionalExpressionBenchmark extends CometBenchmarkBase {
         val query =
           "select CASE WHEN c1 < 0 THEN '<0' WHEN c1 = 0 THEN '=0' ELSE '>0' END from parquetV1Table"
 
-        benchmark.addCase("SQL Parquet - Spark") { _ =>
-          spark.sql(query).noop()
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan)") { _ =>
-          withSQLConf(CometConf.COMET_ENABLED.key -> "true") {
-            spark.sql(query).noop()
-          }
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan, Exec)") { _ =>
-          withSQLConf(
-            CometConf.COMET_ENABLED.key -> "true",
-            CometConf.COMET_EXEC_ENABLED.key -> "true") {
-            spark.sql(query).noop()
-          }
-        }
-
-        benchmark.run()
+        runExpressionBenchmark("Case When Expr", values, query)
       }
     }
   }
 
   def ifExprBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("If Expr", values, output = output)
-
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
         prepareTable(dir, spark.sql(s"SELECT value AS c1 FROM $tbl"))
-        val query = "select IF (c1 < 0, '<0', '>=0') from parquetV1Table"
-
-        benchmark.addCase("SQL Parquet - Spark") { _ =>
-          spark.sql(query).noop()
-        }
 
-        benchmark.addCase("SQL Parquet - Comet (Scan)") { _ =>
-          withSQLConf(CometConf.COMET_ENABLED.key -> "true") {
-            spark.sql(query).noop()
-          }
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan, Exec)") { _ =>
-          withSQLConf(
-            CometConf.COMET_ENABLED.key -> "true",
-            CometConf.COMET_EXEC_ENABLED.key -> "true") {
-            spark.sql(query).noop()
-          }
-        }
+        val query = "select IF (c1 < 0, '<0', '>=0') from parquetV1Table"
 
-        benchmark.run()
+        runExpressionBenchmark("If Expr", values, query)
       }
     }
   }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometDatetimeExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometDatetimeExpressionBenchmark.scala
index 0af1ecade5..47eff41bbd 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometDatetimeExpressionBenchmark.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometDatetimeExpressionBenchmark.scala
@@ -39,9 +39,9 @@ object CometDatetimeExpressionBenchmark extends CometBenchmarkBase {
             s"select cast(timestamp_micros(cast(value/100000 as integer)) as date) as dt FROM $tbl"))
         Seq("YEAR", "YYYY", "YY", "MON", "MONTH", "MM").foreach { level =>
           val isDictionary = if (useDictionary) "(Dictionary)" else ""
-          runWithComet(s"Date Truncate $isDictionary - $level", values) {
-            spark.sql(s"select trunc(dt, '$level') from parquetV1Table").noop()
-          }
+          val name = s"Date Truncate $isDictionary - $level"
+          val query = s"select trunc(dt, '$level') from parquetV1Table"
+          runExpressionBenchmark(name, values, query)
         }
       }
     }
@@ -68,9 +68,9 @@ object CometDatetimeExpressionBenchmark extends CometBenchmarkBase {
           "WEEK",
           "QUARTER").foreach { level =>
           val isDictionary = if (useDictionary) "(Dictionary)" else ""
-          runWithComet(s"Timestamp Truncate $isDictionary - $level", values) {
-            spark.sql(s"select date_trunc('$level', ts) from parquetV1Table").noop()
-          }
+          val name = s"Timestamp Truncate $isDictionary - $level"
+          val query = s"select date_trunc('$level', ts) from parquetV1Table"
+          runExpressionBenchmark(name, values, query)
         }
       }
     }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometJsonExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometJsonExpressionBenchmark.scala
index e8bd00bd9c..5b4741ba68 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometJsonExpressionBenchmark.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometJsonExpressionBenchmark.scala
@@ -19,7 +19,6 @@
 
 package org.apache.spark.sql.benchmark
 
-import org.apache.spark.benchmark.Benchmark
 import org.apache.spark.sql.catalyst.expressions.JsonToStructs
 
 import org.apache.comet.CometConf
@@ -54,8 +53,6 @@ object CometJsonExpressionBenchmark extends CometBenchmarkBase {
    * Generic method to run a JSON expression benchmark with the given configuration.
    */
   def runJsonExprBenchmark(config: JsonExprConfig, values: Int): Unit = {
-    val benchmark = new Benchmark(config.name, values, output = output)
-
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
         // Generate data with specified JSON patterns
@@ -119,31 +116,11 @@ object CometJsonExpressionBenchmark extends CometBenchmarkBase {
 
         prepareTable(dir, jsonData)
 
-        benchmark.addCase("SQL Parquet - Spark") { _ =>
-          spark.sql(config.query).noop()
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan)") { _ =>
-          withSQLConf(CometConf.COMET_ENABLED.key -> "true") {
-            spark.sql(config.query).noop()
-          }
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan, Exec)") { _ =>
-          val baseConfigs =
-            Map(
-              CometConf.COMET_ENABLED.key -> "true",
-              CometConf.COMET_EXEC_ENABLED.key -> "true",
-              CometConf.getExprAllowIncompatConfigKey(classOf[JsonToStructs]) -> "true",
-              "spark.sql.optimizer.constantFolding.enabled" -> "false")
-          val allConfigs = baseConfigs ++ config.extraCometConfigs
-
-          withSQLConf(allConfigs.toSeq: _*) {
-            spark.sql(config.query).noop()
-          }
-        }
+        val extraConfigs = Map(
+          CometConf.getExprAllowIncompatConfigKey(
+            classOf[JsonToStructs]) -> "true") ++ config.extraCometConfigs
 
-        benchmark.run()
+        runExpressionBenchmark(config.name, values, config.query, extraConfigs)
       }
     }
   }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometPredicateExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometPredicateExpressionBenchmark.scala
index 2ca924821c..6506c5665d 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometPredicateExpressionBenchmark.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometPredicateExpressionBenchmark.scala
@@ -19,10 +19,6 @@
 
 package org.apache.spark.sql.benchmark
 
-import org.apache.spark.benchmark.Benchmark
-
-import org.apache.comet.CometConf
-
 /**
  * Benchmark to measure Comet execution performance. To run this benchmark:
  * `SPARK_GENERATE_BENCHMARK_FILES=1 make
@@ -32,8 +28,6 @@ import org.apache.comet.CometConf
 object CometPredicateExpressionBenchmark extends CometBenchmarkBase {
 
   def inExprBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("in Expr", values, output = output)
-
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
         prepareTable(
@@ -41,27 +35,10 @@ object CometPredicateExpressionBenchmark extends CometBenchmarkBase {
           spark.sql(
             "select CASE WHEN value < 0 THEN 'negative'" +
               s" WHEN value = 0 THEN 'zero' ELSE 'positive' END c1 from $tbl"))
-        val query = "select * from parquetV1Table where c1 in ('positive', 'zero')"
 
-        benchmark.addCase("SQL Parquet - Spark") { _ =>
-          spark.sql(query).noop()
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan)") { _ =>
-          withSQLConf(CometConf.COMET_ENABLED.key -> "true") {
-            spark.sql(query).noop()
-          }
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan, Exec)") { _ =>
-          withSQLConf(
-            CometConf.COMET_ENABLED.key -> "true",
-            CometConf.COMET_EXEC_ENABLED.key -> "true") {
-            spark.sql(query).noop()
-          }
-        }
+        val query = "select * from parquetV1Table where c1 in ('positive', 'zero')"
 
-        benchmark.run()
+        runExpressionBenchmark("in Expr", values, query)
       }
     }
   }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometStringExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometStringExpressionBenchmark.scala
index d1ed8702a7..41eabb8513 100644
--- a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometStringExpressionBenchmark.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometStringExpressionBenchmark.scala
@@ -19,8 +19,6 @@
 
 package org.apache.spark.sql.benchmark
 
-import org.apache.spark.benchmark.Benchmark
-
 import org.apache.comet.CometConf
 
 /**
@@ -50,37 +48,14 @@ object CometStringExpressionBenchmark extends CometBenchmarkBase {
    * Generic method to run a string expression benchmark with the given configuration.
    */
   def runStringExprBenchmark(config: StringExprConfig, values: Int): Unit = {
-    val benchmark = new Benchmark(config.name, values, output = output)
-
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
         prepareTable(dir, spark.sql(s"SELECT REPEAT(CAST(value AS STRING), 100) AS c1 FROM $tbl"))
 
-        benchmark.addCase("SQL Parquet - Spark") { _ =>
-          spark.sql(config.query).noop()
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan)") { _ =>
-          withSQLConf(CometConf.COMET_ENABLED.key -> "true") {
-            spark.sql(config.query).noop()
-          }
-        }
-
-        benchmark.addCase("SQL Parquet - Comet (Scan, Exec)") { _ =>
-          val baseConfigs =
-            Map(
-              CometConf.COMET_ENABLED.key -> "true",
-              CometConf.COMET_EXEC_ENABLED.key -> "true",
-              CometConf.COMET_CASE_CONVERSION_ENABLED.key -> "true",
-              "spark.sql.optimizer.constantFolding.enabled" -> "false")
-          val allConfigs = baseConfigs ++ config.extraCometConfigs
-
-          withSQLConf(allConfigs.toSeq: _*) {
-            spark.sql(config.query).noop()
-          }
-        }
+        val extraConfigs =
+          Map(CometConf.COMET_CASE_CONVERSION_ENABLED.key -> "true") ++ config.extraCometConfigs
 
-        benchmark.run()
+        runExpressionBenchmark(config.name, values, config.query, extraConfigs)
       }
     }
   }
diff --git a/spark/src/test/scala/org/apache/spark/sql/comet/CometPlanStabilitySuite.scala b/spark/src/test/scala/org/apache/spark/sql/comet/CometPlanStabilitySuite.scala
index cf2b3dcdd7..b1848ff513 100644
--- a/spark/src/test/scala/org/apache/spark/sql/comet/CometPlanStabilitySuite.scala
+++ b/spark/src/test/scala/org/apache/spark/sql/comet/CometPlanStabilitySuite.scala
@@ -29,7 +29,7 @@ import org.apache.spark.SparkContext
 import org.apache.spark.internal.config.{MEMORY_OFFHEAP_ENABLED, MEMORY_OFFHEAP_SIZE}
 import org.apache.spark.sql.TPCDSBase
 import org.apache.spark.sql.catalyst.expressions.{AttributeSet, Cast}
-import org.apache.spark.sql.catalyst.expressions.aggregate.{Average, Sum}
+import org.apache.spark.sql.catalyst.expressions.aggregate.Average
 import org.apache.spark.sql.catalyst.util.resourceToString
 import org.apache.spark.sql.execution.{FormattedMode, ReusedSubqueryExec, SparkPlan, SubqueryBroadcastExec, SubqueryExec}
 import org.apache.spark.sql.execution.adaptive.DisableAdaptiveExecutionSuite
@@ -228,7 +228,6 @@ trait CometPlanStabilitySuite extends DisableAdaptiveExecutionSuite with TPCDSBa
       CometConf.COMET_EXEC_SORT_MERGE_JOIN_WITH_JOIN_FILTER_ENABLED.key -> "true",
       // Allow Incompatible is needed for Sum + Average for Spark 4.0.0 / ANSI support
       CometConf.getExprAllowIncompatConfigKey(classOf[Average]) -> "true",
-      CometConf.getExprAllowIncompatConfigKey(classOf[Sum]) -> "true",
       // as well as for v1.4/q9, v1.4/q44, v2.7.0/q6, v2.7.0/q64
       CometConf.getExprAllowIncompatConfigKey(classOf[Cast]) -> "true",
       SQLConf.AUTO_BROADCASTJOIN_THRESHOLD.key -> "10MB") {
diff --git a/spark/src/test/spark-3.5/org/apache/spark/sql/CometToPrettyStringSuite.scala b/spark/src/test/spark-3.5/org/apache/spark/sql/CometToPrettyStringSuite.scala
index 991d02014e..70119f44a7 100644
--- a/spark/src/test/spark-3.5/org/apache/spark/sql/CometToPrettyStringSuite.scala
+++ b/spark/src/test/spark-3.5/org/apache/spark/sql/CometToPrettyStringSuite.scala
@@ -19,8 +19,6 @@
 
 package org.apache.spark.sql
 
-import scala.collection.mutable.ListBuffer
-
 import org.apache.spark.sql.catalyst.TableIdentifier
 import org.apache.spark.sql.catalyst.analysis.UnresolvedAttribute
 import org.apache.spark.sql.catalyst.expressions.{Alias, ToPrettyString}
@@ -29,7 +27,6 @@ import org.apache.spark.sql.types.DataTypes
 
 import org.apache.comet.{CometConf, CometFuzzTestBase}
 import org.apache.comet.expressions.{CometCast, CometEvalMode}
-import org.apache.comet.rules.CometScanTypeChecker
 import org.apache.comet.serde.Compatible
 
 class CometToPrettyStringSuite extends CometFuzzTestBase {
@@ -45,14 +42,14 @@ class CometToPrettyStringSuite extends CometFuzzTestBase {
       val plan = Project(Seq(prettyExpr), table)
       val analyzed = spark.sessionState.analyzer.execute(plan)
       val result: DataFrame = Dataset.ofRows(spark, analyzed)
-      CometCast.isSupported(
+      val supportLevel = CometCast.isSupported(
         field.dataType,
         DataTypes.StringType,
         Some(spark.sessionState.conf.sessionLocalTimeZone),
-        CometEvalMode.TRY) match {
+        CometEvalMode.TRY)
+      supportLevel match {
         case _: Compatible
-            if CometScanTypeChecker(CometConf.COMET_NATIVE_SCAN_IMPL.get())
-              .isTypeSupported(field.dataType, field.name, ListBuffer.empty) =>
+            if CometConf.COMET_NATIVE_SCAN_IMPL.get() != CometConf.SCAN_NATIVE_COMET =>
           checkSparkAnswerAndOperator(result)
         case _ => checkSparkAnswer(result)
       }
diff --git a/spark/src/test/spark-4.0/org/apache/spark/sql/CometToPrettyStringSuite.scala b/spark/src/test/spark-4.0/org/apache/spark/sql/CometToPrettyStringSuite.scala
index f842e3f559..b0f40edf76 100644
--- a/spark/src/test/spark-4.0/org/apache/spark/sql/CometToPrettyStringSuite.scala
+++ b/spark/src/test/spark-4.0/org/apache/spark/sql/CometToPrettyStringSuite.scala
@@ -19,8 +19,6 @@
 
 package org.apache.spark.sql
 
-import scala.collection.mutable.ListBuffer
-
 import org.apache.spark.sql.catalyst.TableIdentifier
 import org.apache.spark.sql.catalyst.analysis.UnresolvedAttribute
 import org.apache.spark.sql.catalyst.expressions.{Alias, ToPrettyString}
@@ -32,7 +30,6 @@ import org.apache.spark.sql.types.DataTypes
 
 import org.apache.comet.{CometConf, CometFuzzTestBase}
 import org.apache.comet.expressions.{CometCast, CometEvalMode}
-import org.apache.comet.rules.CometScanTypeChecker
 import org.apache.comet.serde.Compatible
 
 class CometToPrettyStringSuite extends CometFuzzTestBase {
@@ -56,14 +53,14 @@ class CometToPrettyStringSuite extends CometFuzzTestBase {
           val plan = Project(Seq(prettyExpr), table)
           val analyzed = spark.sessionState.analyzer.execute(plan)
           val result: DataFrame = Dataset.ofRows(spark, analyzed)
-          CometCast.isSupported(
+          val supportLevel = CometCast.isSupported(
             field.dataType,
             DataTypes.StringType,
             Some(spark.sessionState.conf.sessionLocalTimeZone),
-            CometEvalMode.TRY) match {
+            CometEvalMode.TRY)
+          supportLevel match {
             case _: Compatible
-                if CometScanTypeChecker(CometConf.COMET_NATIVE_SCAN_IMPL.get())
-                  .isTypeSupported(field.dataType, field.name, ListBuffer.empty) =>
+                if CometConf.COMET_NATIVE_SCAN_IMPL.get() != CometConf.SCAN_NATIVE_COMET =>
               checkSparkAnswerAndOperator(result)
             case _ => checkSparkAnswer(result)
           }