add format conversion scripts to glue and spearman feature selection

drwoj · drwoj · commit 49d158674ce3 · 2025-01-26T20:22:34.000+01:00
diff --git a/scripts/cloud/etl/convert_features_to_csv.py b/scripts/cloud/etl/convert_features_to_csv.py
@@ -0,0 +1,66 @@
+import sys
+from awsglue.utils import getResolvedOptions
+from awsglue.context import GlueContext
+from awsglue.job import Job
+from pyspark.sql import SparkSession
+from pyspark.sql.functions import when, col
+import boto3
+
+
+def get_selected_columns():
+    bucket_name = "bdp-feature-selection"
+    file_key = "data/selected_columns.txt"
+
+    s3_client = boto3.client('s3')
+    response = s3_client.get_object(Bucket=bucket_name, Key=file_key)
+    file_content = response['Body'].read().decode('utf-8')
+    return file_content.splitlines()
+
+
+args = getResolvedOptions(sys.argv, ['JOB_NAME'])
+
+spark = (
+    SparkSession.builder
+        .appName("DataAggregations")
+        .config("spark.sql.parquet.enableVectorizedReader", "true")
+        .config("spark.sql.parquet.mergeSchema", "true")
+        .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
+        .config("spark.sql.catalog.glue_catalog", "org.apache.iceberg.spark.SparkCatalog")
+        .config("spark.sql.catalog.glue_catalog.warehouse", "s3://bdp-scaled-features/")
+        .config("spark.sql.catalog.glue_catalog.catalog-impl", "org.apache.iceberg.aws.glue.GlueCatalog")
+        .config("spark.sql.catalog.glue_catalog.io-impl", "org.apache.iceberg.aws.s3.S3FileIO")
+        .config("spark.sql.catalog.glue_catalog.glue.id", "982534349340")
+        .config("spark.sql.adaptive.enabled", "true")
+        .getOrCreate()
+)
+
+glueContext = GlueContext(spark)
+job = Job(glueContext)
+job.init(args['JOB_NAME'], args)
+
+
+columns_to_select = get_selected_columns()
+
+features_df = glueContext.create_data_frame.from_catalog(
+    database="bdp",
+    table_name="scaled_features",
+    additional_options = {
+        "useCatalogSchema": True,
+        "useSparkDataSource": True
+    }
+).select(*columns_to_select)
+
+#fraction = 1_000_000/features_df.count()
+#sampled_df = features_df.sample(withReplacement=False, fraction=fraction, seed=42)
+
+features_df = features_df.withColumn("network_name", when(col("network_name") == True, 1.0).otherwise(0.0))
+
+
+features_df.coalesce(1).write \
+    .format("csv") \
+    .option("header", "false") \
+    .mode("append") \
+    .save("s3://bdp-test-data/scaled/")
+
+job.commit()
+spark.stop()
diff --git a/scripts/cloud/etl/convert_features_to_recordio.py b/scripts/cloud/etl/convert_features_to_recordio.py
@@ -0,0 +1,81 @@
+import sys
+from awsglue.utils import getResolvedOptions
+from awsglue.context import GlueContext
+from awsglue.job import Job
+from pyspark.sql import SparkSession
+from pyspark.sql.functions import when, col
+from pyspark.ml.feature import VectorAssembler
+from pyspark.ml.functions import vector_to_array, array_to_vector
+import sagemaker_pyspark
+import boto3
+
+def get_selected_columns():
+    bucket_name = "bdp-feature-selection"
+    file_key = "data/selected_columns.txt"
+
+    s3_client = boto3.client('s3')
+    response = s3_client.get_object(Bucket=bucket_name, Key=file_key)
+    file_content = response['Body'].read().decode('utf-8')
+    return file_content.splitlines()
+    
+args = getResolvedOptions(sys.argv, ['JOB_NAME'])
+
+classpath = ":".join(sagemaker_pyspark.classpath_jars())
+
+spark = (
+    SparkSession.builder
+        .appName("DataAggregations")
+        .config("spark.sql.parquet.enableVectorizedReader", "true")
+        .config("spark.sql.parquet.mergeSchema", "true")
+        .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
+        .config("spark.sql.catalog.glue_catalog", "org.apache.iceberg.spark.SparkCatalog")
+        .config("spark.sql.catalog.glue_catalog.warehouse", "s3://bdp-scaled-features/")
+        .config("spark.sql.catalog.glue_catalog.catalog-impl", "org.apache.iceberg.aws.glue.GlueCatalog")
+        .config("spark.sql.catalog.glue_catalog.io-impl", "org.apache.iceberg.aws.s3.S3FileIO")
+        .config("spark.sql.catalog.glue_catalog.glue.id", "982534349340")
+        .config("spark.sql.adaptive.enabled", "true")
+        .config("spark.driver.extraClassPath", classpath)
+        .config("spark.executor.extraClassPath", classpath)
+        .getOrCreate()
+)
+
+glueContext = GlueContext(spark)
+job = Job(glueContext)
+job.init(args['JOB_NAME'], args)
+
+columns_to_select = get_selected_columns()
+
+features_df = glueContext.create_data_frame.from_catalog(
+    database="bdp",
+    table_name="scaled_features",
+    additional_options = {
+        "useCatalogSchema": True,
+        "useSparkDataSource": True
+    }
+).select(*columns_to_select)
+
+features_df = features_df.withColumn("network_name", when(col("network_name") == True, 1.0).otherwise(0.0))
+
+assembler = VectorAssembler(
+    inputCols=columns_to_select,
+    outputCol="features"
+)
+
+features_vector_df = assembler.transform(features_df)
+
+dense_features_df = features_vector_df.withColumn(
+    "features",
+    array_to_vector(vector_to_array(col("features")))
+)
+
+dense_features_df.select("features").write \
+    .format("sagemaker") \
+    .option("recordio-protobuf", "true") \
+    .option("featureDim", len(columns_to_select)) \
+    .mode("overwrite") \
+    .save("s3://bdp-recordio/train/")
+    
+
+
+job.commit()
+spark.stop()
diff --git a/scripts/cloud/etl/spearman.py b/scripts/cloud/etl/spearman.py
@@ -0,0 +1,104 @@
+from pyspark.sql import SparkSession
+from pyspark.ml.feature import VectorAssembler
+import pandas as pd
+import numpy as np
+import seaborn as sns
+import matplotlib.pyplot as plt
+from pyspark.ml.feature import VectorAssembler
+from pyspark.ml.stat import Correlation
+import sys
+from awsglue.utils import getResolvedOptions
+from awsglue.context import GlueContext
+from awsglue.job import Job
+import boto3
+import io
+
+
+args = getResolvedOptions(sys.argv, ['JOB_NAME'])
+
+spark = (
+    SparkSession.builder
+        .appName("FeatureSelection")
+        .config("spark.sql.parquet.enableVectorizedReader", "true")
+        .config("spark.sql.parquet.mergeSchema", "true")
+        .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
+        .config("spark.sql.catalog.glue_catalog", "org.apache.iceberg.spark.SparkCatalog")
+        .config("spark.sql.catalog.glue_catalog.warehouse", "s3://bdp-scaled-features/")
+        .config("spark.sql.catalog.glue_catalog.catalog-impl", "org.apache.iceberg.aws.glue.GlueCatalog")
+        .config("spark.sql.catalog.glue_catalog.io-impl", "org.apache.iceberg.aws.s3.S3FileIO")
+        .config("spark.sql.catalog.glue_catalog.glue.id", "982534349340")
+        .config("spark.sql.adaptive.enabled", "true")
+        .getOrCreate()
+)
+
+glueContext = GlueContext(spark)
+job = Job(glueContext)
+job.init(args['JOB_NAME'], args)
+
+
+features_df = glueContext.create_data_frame.from_catalog(
+    database="bdp",
+    table_name="scaled_features",
+    additional_options = {
+        "useCatalogSchema": True,
+        "useSparkDataSource": True
+    }
+)
+
+feature_cols = [col for col in features_df.columns]
+
+df_vectorized = VectorAssembler(inputCols=feature_cols, outputCol="features").transform(features_df)
+df_vectorized.cache()
+correlation_matrix = Correlation.corr(df_vectorized, "features", method="spearman").head()[0].toArray()
+correlation_matrix_np = np.array(correlation_matrix)
+correlation_matrix_df = pd.DataFrame(correlation_matrix_np, index=feature_cols, columns=feature_cols)
+df_vectorized.unpersist()
+
+output_bucket = "bdp-feature-selection"
+
+# Save correlation matrix to S3 as CSV
+s3_client = boto3.client('s3')
+correlation_csv_buffer = io.StringIO()
+correlation_matrix_df.to_csv(correlation_csv_buffer)
+s3_client.put_object(
+    Bucket=output_bucket,
+    Key="data/correlation_matrix.csv",
+    Body=correlation_csv_buffer.getvalue()
+)
+
+
+threshold = 0.9 
+to_remove = set()
+for i in range(len(correlation_matrix_np)):
+    for j in range(i+1, len(correlation_matrix_np)):
+        if abs(correlation_matrix_np[i, j]) > threshold:
+            to_remove.add(feature_cols[j])
+
+selected_columns = [col for col in feature_cols if col not in to_remove]
+
+# Save selected columns (only names) to S3 as a plain text file
+selected_columns_buffer = io.StringIO()
+selected_columns_buffer.write("\n".join(selected_columns))  # Write column names line by line
+s3_client.put_object(
+    Bucket=output_bucket,
+    Key="data/selected_columns.txt",
+    Body=selected_columns_buffer.getvalue(),
+    ContentType="text/plain"
+)
+
+# Generate and save the heatmap plot
+plt.figure(figsize=(12, 8))
+sns.heatmap(correlation_matrix_df, cmap="coolwarm", fmt=".2f", vmin=-1, vmax=1, annot=False)
+plt.title("Correlation Heatmap")
+heatmap_buffer = io.BytesIO()
+plt.savefig(heatmap_buffer, format='png', bbox_inches='tight')
+heatmap_buffer.seek(0)
+s3_client.put_object(
+    Bucket=output_bucket,
+    Key="data/correlation_heatmap.png",
+    Body=heatmap_buffer,
+    ContentType='image/png'
+)
+
+job.commit()
+spark.stop()