pycoder49
diff --git a/‎Artifacts/10_15_2025_16_06_42/data_ingestion/feature_store/phishingData.csv‎
Lines changed: 0 additions & 11056 deletions b/‎Artifacts/10_15_2025_16_06_42/data_ingestion/feature_store/phishingData.csv‎
Lines changed: 0 additions & 11056 deletions
diff --git a/‎Artifacts/10_15_2025_16_06_42/data_ingestion/ingested/test.csv‎
Lines changed: 0 additions & 2212 deletions b/‎Artifacts/10_15_2025_16_06_42/data_ingestion/ingested/test.csv‎
Lines changed: 0 additions & 2212 deletions
diff --git a/‎Artifacts/10_15_2025_16_06_42/data_ingestion/ingested/train.csv‎
Lines changed: 0 additions & 8845 deletions b/‎Artifacts/10_15_2025_16_06_42/data_ingestion/ingested/train.csv‎
Lines changed: 0 additions & 8845 deletions
diff --git a/‎data_schema/schema.yaml‎
Lines changed: 66 additions & 0 deletions b/‎data_schema/schema.yaml‎
Lines changed: 66 additions & 0 deletions
diff --git a/‎main.py‎
Lines changed: 19 additions & 2 deletions b/‎main.py‎
Lines changed: 19 additions & 2 deletions
diff --git a/‎network_security/components/data_validation.py‎
Lines changed: 147 additions & 0 deletions b/‎network_security/components/data_validation.py‎
Lines changed: 147 additions & 0 deletions
diff --git a/‎network_security/constants/training_pipeline/__init__.py‎
Lines changed: 22 additions & 8 deletions b/‎network_security/constants/training_pipeline/__init__.py‎
Lines changed: 22 additions & 8 deletions
diff --git a/‎network_security/entity/artifact_entity.py‎
Lines changed: 10 additions & 1 deletion b/‎network_security/entity/artifact_entity.py‎
Lines changed: 10 additions & 1 deletion
diff --git a/‎network_security/entity/config_entity.py‎
Lines changed: 38 additions & 1 deletion b/‎network_security/entity/config_entity.py‎
Lines changed: 38 additions & 1 deletion
diff --git a/‎network_security/utils/main_utils/__init__.py‎ b/‎network_security/utils/main_utils/__init__.py‎
@@ -0,0 +1,66 @@
+columns:
+  - having_IP_Address: int64
+  - URL_Length: int64
+  - Shortining_Service: int64
+  - having_At_Symbol: int64
+  - double_slash_redirecting: int64
+  - Prefix_Suffix: int64
+  - having_Sub_Domain: int64
+  - SSLfinal_State: int64
+  - Domain_registeration_length: int64
+  - Favicon: int64
+  - port: int64
+  - HTTPS_token: int64
+  - Request_URL: int64
+  - URL_of_Anchor: int64
+  - Links_in_tags: int64
+  - SFH: int64
+  - Submitting_to_email: int64
+  - Abnormal_URL: int64
+  - Redirect: int64
+  - on_mouseover: int64
+  - RightClick: int64
+  - popUpWidnow: int64
+  - Iframe: int64
+  - age_of_domain: int64
+  - DNSRecord: int64 
+  - web_traffic: int64
+  - Page_Rank: int64
+  - Google_Index: int64
+  - Links_pointing_to_page: int64
+  - Statistical_report: int64
+  - Result: int64
+
+
+numerical_columns:
+  - having_IP_Address
+  - URL_Length
+  - Shortining_Service
+  - having_At_Symbol
+  - double_slash_redirecting
+  - Prefix_Suffix
+  - having_Sub_Domain
+  - SSLfinal_State
+  - Domain_registeration_length
+  - Favicon
+  - port
+  - HTTPS_token
+  - Request_URL
+  - URL_of_Anchor
+  - Links_in_tags 
+  - SFH
+  - Submitting_to_email
+  - Abnormal_URL
+  - Redirect
+  - on_mouseover
+  - RightClick
+  - popUpWidnow
+  - Iframe
+  - age_of_domain
+  - DNSRecord 
+  - web_traffic
+  - Page_Rank
+  - Google_Index
+  - Links_pointing_to_page
+  - Statistical_report
+  - Result
@@ -1,7 +1,8 @@
 from network_security.components.data_ingestion import DataIngestion
+from network_security.components.data_validation import DataValidation
 from network_security.exceptions.exception import NetworkSecurityException
 from network_security.logging.logger import logging
-from network_security.entity.config_entity import DataIngestionConfig, TrainingPipelineConfig
+from network_security.entity.config_entity import DataIngestionConfig, DataValidationConfig, TrainingPipelineConfig
 import sys
 
 
@@ -11,12 +12,28 @@
         logging.info("Started data ingestion")
 
         training_pipeline_config = TrainingPipelineConfig()
+
+        # data ingestion configuration
         data_ingestion_config = DataIngestionConfig(training_pipeline_config=training_pipeline_config)
         data_ingestion = DataIngestion(data_ingestion_config=data_ingestion_config)
 
         # initiating the data ingestion process
         logging.info("Initiating data ingestion")
         data_ingestion_artifact = data_ingestion.initiate_data_ingestion()
-        print(data_ingestion_artifact)
+        print(f"Data Ingestion Artifact: \n{data_ingestion_artifact} \n")
+        logging.info("Data ingestion completed")
+
+        # data validation configuration
+        data_validation_config = DataValidationConfig(training_pipeline_config=training_pipeline_config)
+        data_validation = DataValidation(
+            data_ingestion_artifact = data_ingestion_artifact,
+            data_validation_config = data_validation_config
+        )
+
+        # initiating data validation
+        logging.info("Initiating data validation")
+        
+        data_validation_artifact = data_validation.initiate_data_validation()
+        print(f"Data Validation Artifact: \n{data_validation_artifact} \n")
     except Exception as e:
         raise NetworkSecurityException(e, sys)
@@ -0,0 +1,147 @@
+from network_security.entity.artifact_entity import DataIngestionArtifact, DataValidationArtifact
+from network_security.entity.config_entity import DataValidationConfig
+from network_security.exceptions.exception import NetworkSecurityException
+from network_security.logging.logger import logging
+from network_security.utils.main_utils.utils import read_yaml_file, write_yaml_file
+from network_security.constants.training_pipeline import SCHEMA_FILE_PATH
+
+from scipy.stats import ks_2samp    # helps with detecting drifting in data
+import pandas as pd
+import numpy as np
+import os, sys
+
+
+class DataValidation:
+    """
+    Static methods
+    """
+    @staticmethod
+    def read_data(file_path: str) -> pd.DataFrame:
+        try:
+            return pd.read_csv(file_path)
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+
+    """
+    Class methods start here
+    """
+    def __init__(self, 
+                data_ingestion_artifact: DataIngestionArtifact, 
+                data_validation_config: DataValidationConfig ):
+        try:
+            self.data_ingestion_artifact = data_ingestion_artifact
+            self.data_validation_config = data_validation_config
+            self._schema_config = read_yaml_file(SCHEMA_FILE_PATH)
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+        
+    def initiate_data_validation(self) -> DataValidationArtifact:
+        try:
+            train_file_path = self.data_ingestion_artifact.train_file_path
+            test_file_path = self.data_ingestion_artifact.test_file_path
+            logging.info("Reading train and test data for validation")
+
+            # reading train and test data
+            train_df = DataValidation.read_data(train_file_path)
+            test_df = DataValidation.read_data(test_file_path)
+
+            # validating number of columns in train dataframe
+            status = self.validate_number_of_columns(train_df)
+            if not status:
+                logging.info("Number of columns in train dataframe are not as per schema")
+
+            # validating number of columns in test dataframe
+            status = self.validate_number_of_columns(test_df)
+            if not status:
+                logging.info("Number of columns in test dataframe are not as per schema")
+
+            # checking for data drift
+            status = self.detect_data_drift(base_df=train_df, current_df=test_df)
+            dir_path = os.path.dirname(self.data_validation_config.valid_train_file_path)
+            os.makedirs(dir_path, exist_ok=True)
+
+            # saving the validated train and test data in their respective paths
+            train_df.to_csv(self.data_validation_config.valid_train_file_path, index=False, header=True)
+            test_df.to_csv(self.data_validation_config.valid_test_file_path, index=False, header=True)
+
+            data_validation_artifact = DataValidationArtifact(
+                validation_status = status,
+                valid_train_file_path = self.data_ingestion_artifact.train_file_path,
+                valid_test_file_path = self.data_ingestion_artifact.test_file_path,
+                invalid_train_file_path = None,
+                invalid_test_file_path = None,
+                drift_report_file_path = self.data_validation_config.drift_report_file_path
+            )
+
+            return data_validation_artifact
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+        
+    def validate_number_of_columns(self, dataframe: pd.DataFrame) -> bool:
+        try:
+            num_of_cols = len(self._schema_config['columns'])
+            logging.info(f"Required number of columns: {num_of_cols}")
+            logging.info(f"Dataframe has columns: {dataframe.shape[1]}")
+            return True if dataframe.shape[1] == num_of_cols else False
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+
+    def validate_number_of_numeric_columns(self, dataframe: pd.DataFrame) -> bool:
+        try:
+            # Get expected numerical columns from schema
+            numerical_columns = self._schema_config['numerical_columns']
+            dataframe_columns = dataframe.columns.tolist()
+            
+            # Check which numerical columns are present in the dataframe
+            present_numerical_cols = [col for col in numerical_columns if col in dataframe_columns]
+            missing_numerical_cols = [col for col in numerical_columns if col not in dataframe_columns]
+            
+            logging.info(f"Required number of numerical columns: {len(numerical_columns)}")
+            logging.info(f"Dataframe has numerical columns: {len(present_numerical_cols)}")
+            
+            if missing_numerical_cols:
+                logging.warning(f"Missing numerical columns: {missing_numerical_cols}")
+                return False
+            
+            return True
+            
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+        
+    def detect_data_drift(self, 
+                          base_df: pd.DataFrame,
+                          current_df: pd.DataFrame,
+                          threshold: float = 0.05) -> bool:
+         try:
+            status = True
+            report = {}
+            for col in base_df.columns:
+                d1 = base_df[col]
+                d2 = current_df[col]
+
+                is_sample_distribution = ks_2samp(d1, d2)
+                if threshold <= is_sample_distribution.pvalue:
+                    is_found = False
+                else:
+                    is_found = True
+                    status = False
+
+                report.update({
+                    col: {
+                        "p_value": float(is_sample_distribution.pvalue),
+                        "drift_status": is_found
+                    }
+                })
+
+                # creating directory for drift report file path
+                drift_report_file_path = self.data_validation_config.drift_report_file_path
+                dir_path = os.path.dirname(drift_report_file_path)
+                os.makedirs(dir_path, exist_ok=True)
+
+                # writing to the yaml file
+                write_yaml_file(
+                    file_path=drift_report_file_path,
+                    content=report
+                )
+         except Exception as e:
+             raise NetworkSecurityException(e, sys)
@@ -1,10 +1,26 @@
+import os, sys
+
 """
 Training Pipeline Constants
 
 This module contains all constants used throughout the training pipeline.
 Constants are organized by functionality with descriptive prefixes.
 """
 
+
+"""
+Defining common constant variables for training pipeline
+"""
+TARGET_COLUMN: str = "Result"
+PIPELINE_NAME: str = "NetworkSecurity"
+ARTIFACT_DIR: str = "Artifacts"
+FILE_NAME: str = "phishingData.csv"
+
+TRAIN_FILE_NAME: str = "train.csv"
+TEST_FILE_NAME: str = "test.csv"
+
+SCHEMA_FILE_PATH:str = os.path.join("data_schema", "schema.yaml")
+
 
 """
 Data Ingestion related constants start with DATA_INGESTION_* prefix
@@ -18,12 +34,10 @@
 
 
 """
-Defining common constant variables for training pipeline
+Defining constants for data validation
 """
-TARGET_COLUMN: str = "Result"
-PIPELINE_NAME: str = "NetworkSecurity"
-ARTIFACT_DIR: str = "Artifacts"
-FILE_NAME: str = "phishingData.csv"
-
-TRAIN_FILE_NAME: str = "train.csv"
-TEST_FILE_NAME: str = "test.csv" 
+DATA_VALIDATION_DIR_NAME: str = "data_validation"
+DATA_VALIDATION_VALID_DIR: str = "validated"
+DATA_VALIDATION_INVALID_DIR: str = "invalid"
+DATA_VALIDATION_DRIFT_REPORT_DIR: str = "drift_report"
+DATA_VALIDATION_DRIFT_REPORT_FILE_NAME: str = "report.yaml"
@@ -5,4 +5,13 @@
 @dataclass
 class DataIngestionArtifact:
     train_file_path: str
-    test_file_path: str
+    test_file_path: str
+
+@dataclass
+class DataValidationArtifact:
+    validation_status: bool
+    valid_train_file_path: str
+    valid_test_file_path: str
+    invalid_train_file_path: str
+    invalid_test_file_path: str
+    drift_report_file_path: str
@@ -36,4 +36,41 @@ def __init__(self, training_pipeline_config:TrainingPipelineConfig):
         )
         self.train_test_split_ratio: float = training_pipeline.DATA_INGESTION_TRAIN_TEST_SPLIT_RATION
         self.collection_name: str = training_pipeline.DATA_INGESTION_COLLECTION_NAME
-        self.db_name: str = training_pipeline.DATA_INGESTION_DATABASE_NAME
+        self.db_name: str = training_pipeline.DATA_INGESTION_DATABASE_NAME
+
+
+class DataValidationConfig:
+    def __init__(self, training_pipeline_config:TrainingPipelineConfig):
+        self.data_validation_dir: str = os.path.join(
+            training_pipeline_config.artifact_dir,
+            training_pipeline.DATA_VALIDATION_DIR_NAME,
+        )
+        self.valid_data_dir: str = os.path.join(
+            self.data_validation_dir,
+            training_pipeline.DATA_VALIDATION_VALID_DIR,
+        )
+        self.invalid_data_dir: str = os.path.join(
+            self.data_validation_dir,
+            training_pipeline.DATA_VALIDATION_INVALID_DIR,
+        )
+        self.valid_train_file_path: str = os.path.join(
+            self.data_validation_dir,
+            training_pipeline.TRAIN_FILE_NAME,
+        )
+        self.valid_test_file_path: str = os.path.join(
+            self.data_validation_dir,
+            training_pipeline.TEST_FILE_NAME,
+        )
+        self.invalid_train_file_path: str = os.path.join(
+            self.data_validation_dir,
+            self.invalid_data_dir, training_pipeline.TRAIN_FILE_NAME,
+        )
+        self.invalid_test_file_path: str = os.path.join(
+            self.data_validation_dir,
+            self.invalid_data_dir, training_pipeline.TEST_FILE_NAME,
+        )
+        self.drift_report_file_path: str = os.path.join(
+            self.data_validation_dir,
+            training_pipeline.DATA_VALIDATION_DRIFT_REPORT_DIR,
+            training_pipeline.DATA_VALIDATION_DRIFT_REPORT_FILE_NAME,
+        )