awsdocs
diff --git a/‎.github/workflows/KB_Updater.yml‎
Lines changed: 31 additions & 0 deletions b/‎.github/workflows/KB_Updater.yml‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎.github/workflows/sync-S3-KB.yml‎
Lines changed: 45 additions & 3 deletions b/‎.github/workflows/sync-S3-KB.yml‎
Lines changed: 45 additions & 3 deletions
diff --git a/‎.tools/lambda/KB_Updater.py‎
Lines changed: 149 additions & 0 deletions b/‎.tools/lambda/KB_Updater.py‎
Lines changed: 149 additions & 0 deletions
diff --git a/‎steering_docs/dotnet-tech/basics.md‎ ‎…ring_docs/dotnet-tech/basics_scenario.md‎steering_docs/dotnet-tech/basics.md renamed to steering_docs/dotnet-tech/basics_scenario.md b/‎steering_docs/dotnet-tech/basics.md‎ ‎…ring_docs/dotnet-tech/basics_scenario.md‎steering_docs/dotnet-tech/basics.md renamed to steering_docs/dotnet-tech/basics_scenario.md
diff --git a/‎steering_docs/go-tech/basics.md‎ ‎steering_docs/go-tech/basics_scenario.md‎steering_docs/go-tech/basics.md renamed to steering_docs/go-tech/basics_scenario.md b/‎steering_docs/go-tech/basics.md‎ ‎steering_docs/go-tech/basics_scenario.md‎steering_docs/go-tech/basics.md renamed to steering_docs/go-tech/basics_scenario.md
diff --git a/‎steering_docs/java-tech/basics.md‎ ‎…eering_docs/java-tech/basics_scenario.md‎steering_docs/java-tech/basics.md renamed to steering_docs/java-tech/basics_scenario.md b/‎steering_docs/java-tech/basics.md‎ ‎…eering_docs/java-tech/basics_scenario.md‎steering_docs/java-tech/basics.md renamed to steering_docs/java-tech/basics_scenario.md
diff --git a/‎steering_docs/kotlin-tech/basics.md‎ ‎…ring_docs/kotlin-tech/basics_scenario.md‎steering_docs/kotlin-tech/basics.md renamed to steering_docs/kotlin-tech/basics_scenario.md b/‎steering_docs/kotlin-tech/basics.md‎ ‎…ring_docs/kotlin-tech/basics_scenario.md‎steering_docs/kotlin-tech/basics.md renamed to steering_docs/kotlin-tech/basics_scenario.md
diff --git a/‎steering_docs/php-tech/basics.md‎ ‎steering_docs/php-tech/basics_scenario.md‎steering_docs/php-tech/basics.md renamed to steering_docs/php-tech/basics_scenario.md b/‎steering_docs/php-tech/basics.md‎ ‎steering_docs/php-tech/basics_scenario.md‎steering_docs/php-tech/basics.md renamed to steering_docs/php-tech/basics_scenario.md
diff --git a/‎steering_docs/python-tech/basics.md‎ ‎…ring_docs/python-tech/basics_scenario.md‎steering_docs/python-tech/basics.md renamed to steering_docs/python-tech/basics_scenario.md b/‎steering_docs/python-tech/basics.md‎ ‎…ring_docs/python-tech/basics_scenario.md‎steering_docs/python-tech/basics.md renamed to steering_docs/python-tech/basics_scenario.md
@@ -0,0 +1,31 @@
+name: Deploy KB_Updater Lambda Function
+on:
+  push:
+    branches: ["main"]
+    paths:
+      - '.tools/lambda/KB_Updater.py'
+  workflow_dispatch:
+
+permissions:
+  id-token: write
+
+jobs:
+  deploy:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Checkout
+        uses: actions/checkout@v4
+
+      - name: Configure AWS Credentials
+        uses: aws-actions/configure-aws-credentials@v5
+        with:
+          role-to-assume: ${{ secrets.AWS_ASSUME_ROLE }}
+          aws-region: us-west-2
+
+      - name: Deploy Lambda
+        run: |
+          cd .tools/lambda
+          zip function.zip KB_Updater.py
+          aws lambda update-function-code \
+            --function-name KB_Updater \
+            --zip-file fileb://function.zip
@@ -21,15 +21,21 @@ on:
           - php
           - cpp
           - kotlin
+          - steering_docs
+          - specs
+          - coding-standards
 
 permissions:
   id-token: write
 
 jobs:
   run_job_with_aws:
     runs-on: ubuntu-latest
+    strategy:
+      matrix:
+        sdk_name: ${{ github.event_name == 'push' && fromJSON('["javascriptv3","dotnetv4","javav2","rustv1","gov2","swift","python","ruby","php","cpp","kotlin","steering_docs","specs","coding-standards"]') || fromJSON(format('["{0}"]', github.event.inputs.sdk_name)) }}
     env:
-      sdk_name: ${{ github.event.inputs.sdk_name || 'python' }}
+      sdk_name: ${{ matrix.sdk_name }}
 
     steps:
       - name: Checkout
@@ -53,11 +59,35 @@ jobs:
               echo "S3_LANGUAGE=rust" >> $GITHUB_ENV
           elif [ "$sdk_name" == "gov2" ]; then
               echo "S3_LANGUAGE=go" >> $GITHUB_ENV
+          elif [ "$sdk_name" == "steering_docs" ]; then
+              echo "S3_LANGUAGE=steering-docs" >> $GITHUB_ENV
+          elif [ "$sdk_name" == "coding-standards" ]; then
+              echo "S3_LANGUAGE=coding-standards" >> $GITHUB_ENV
+          elif [ "$sdk_name" == "specs" ]; then
+              echo "S3_LANGUAGE=final-specs" >> $GITHUB_ENV
           else
               echo "S3_LANGUAGE=$sdk_name" >> $GITHUB_ENV
           fi
-
+    
+      - name: Filter SPECIFICATION.md files for specs
+        if: ${{ github.event.inputs.sdk_name == 'specs' }}
+        run: |
+          find ./scenarios -name "SPECIFICATION.md" | while read file; do
+            mkdir -p "./filtered_specs/$(dirname "$file")"
+            cp "$file" "./filtered_specs/$file"
+          done
+      
+      - name: Clone and filter for coding standards
+        if: ${{ github.event.inputs.sdk_name == 'coding-standards' }}
+        run: |
+          git clone https://x-access-token:${{ secrets.GITHUB_TOKEN }}@github.com/${{ github.repository }}.wiki.git wiki-repo
+          mkdir -p ./filtered-wiki
+          find ./wiki-repo -type f -name "*[Gg]uidelines*.md" -o -name "*[Ss]tandards*.md" | while read file; do
+            cp "$file" ./filtered-wiki/
+          done
+      
       - name: Extract and copy premium examples in temp. dir.
+        if: ${{ contains(fromJSON('["javascriptv3","dotnetv4","javav2","rustv1","gov2","swift","python","ruby","php","cpp","kotlin"]'), github.event.inputs.sdk_name) }}
         run: |
           MARKDOWN_FILE="./$sdk_name/premium-ex.md"
           
@@ -99,14 +129,26 @@ jobs:
             fi
           done
 
-      - name: Upload/Sync to S3
+      - name: Upload/Sync to S3 (SDK languages)
+        if: ${{ contains(fromJSON('["javascriptv3","dotnetv4","javav2","rustv1","gov2","swift","python","ruby","php","cpp","kotlin"]'), github.event.inputs.sdk_name) }}
         run: |
           for level in "basics" "feature-scenario" "complex-feature-scenario"; do
             if [ -d "./extracted_snippets/$level" ]; then
               aws s3 sync "./extracted_snippets/$level/" "s3://$S3_LANGUAGE-premium-bucket/$level/" --delete
               echo "Uploaded $level examples to S3"
             fi
           done
+      
+      - name: Upload/Sync to S3 (Other directories)
+        if: ${{ contains(fromJSON('["steering_docs","coding-standards","specs"]'), github.event.inputs.sdk_name) }}
+        run: |
+          if [ "$sdk_name" == "steering_docs" ]; then
+            aws s3 sync "./$sdk_name/" "s3://$S3_LANGUAGE-bucket/" --delete
+          elif [ "$sdk_name" == "coding-standards" ]; then
+            aws s3 sync "./filtered-wiki/" "s3://$S3_LANGUAGE-bucket/" --delete
+          else
+            aws s3 sync "./filtered_specs/" "s3://$S3_LANGUAGE-bucket/" --delete
+          fi
 
       - name: Sync Knowledge Base Data Source
         run: |
 
@@ -0,0 +1,149 @@
+# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
+# SPDX-License-Identifier: Apache-2.0
+
+import boto3
+import json
+import datetime
+import time
+
+class DateTimeEncoder(json.JSONEncoder):
+    def default(self, obj):
+        if isinstance(obj, datetime.datetime):
+            return obj.isoformat()
+        return super().default(obj)
+
+def get_knowledge_base_id(knowledge_base_name, region_name, bedrock_agent):
+    response = bedrock_agent.list_knowledge_bases()
+    for kb in response['knowledgeBaseSummaries']:
+        if kb['name'] == knowledge_base_name:
+            return kb['knowledgeBaseId']
+    raise ValueError(f"Knowledge base '{knowledge_base_name}' not found")
+
+def get_or_create_data_source(knowledge_base_id, language, region_name, bedrock_agent):
+    # List existing data sources
+    response = bedrock_agent.list_data_sources(knowledgeBaseId=knowledge_base_id)
+    data_sources = response['dataSourceSummaries']
+    
+    # Look for existing data source for this SDK
+    for ds in data_sources:
+        if language in ds['name'] and ds['name'] != "default":
+            return ds['dataSourceId'], ds['name'], False  # Found existing
+    if language in ["steering-docs", "final-specs"]:
+        ds_name=f"{language}-data-source"
+        bucket_name = f"{language}-bucket"
+    else:
+        ds_name=f"{language}-premium-data-source"
+        bucket_name = f"{language}-premium-bucket"
+    # Create new data source if none found
+    response = bedrock_agent.create_data_source(
+        knowledgeBaseId=knowledge_base_id,
+        name=ds_name,
+        dataSourceConfiguration={
+            "type": "S3",
+            "s3Configuration": {
+                "bucketArn": f"arn:aws:s3:::{bucket_name}"
+            }
+        },
+        vectorIngestionConfiguration = { 
+            "chunkingConfiguration": { 
+                "chunkingStrategy": "HIERARCHICAL",
+                "hierarchicalChunkingConfiguration": { 
+                    "levelConfigurations": [ 
+                    { 
+                        "maxTokens": 1500
+                    },
+                    { 
+                        "maxTokens": 300
+                    }
+                    ],
+                    "overlapTokens": 75
+                }
+            }
+        }
+    )
+    return response['dataSource']['dataSourceId'], response['dataSource']['name'], True  # Created new
+
+def sync_data_source(knowledge_base_id, data_source_id, region_name, bedrock_agent):
+    response = bedrock_agent.start_ingestion_job(
+        knowledgeBaseId=knowledge_base_id,
+        dataSourceId=data_source_id
+    )
+    return response
+
+def monitor_ingestion_job(knowledge_base_id, data_source_id, ingestion_job_id, region_name, bedrock_agent):
+    max_attempts = 100
+    attempts = 0
+    
+    while attempts < max_attempts:
+        job_status = bedrock_agent.get_ingestion_job(
+            knowledgeBaseId=knowledge_base_id,
+            dataSourceId=data_source_id,
+            ingestionJobId=ingestion_job_id
+        )
+        
+        status = job_status['ingestionJob']['status']
+        print(f"Current status: {status} - {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
+        
+        if status in ['COMPLETE', 'FAILED', 'STOPPED']:
+            return job_status
+            
+        attempts += 1
+        time.sleep(5)
+    
+    return {"status": "TIMEOUT", "message": "Job monitoring timed out after 5 minutes"}
+
+def lambda_handler(event, context):
+    language = event.get('language', 'python')
+    region_name = event.get('region_name', 'us-west-2')
+    if language in ["steering-docs", "final-specs","coding-standards"]:
+        knowledge_base_name = f"{language}-KB"
+    else:
+        knowledge_base_name = f"{language}-premium-KB"
+    
+    bedrock_agent = boto3.client('bedrock-agent', region_name=region_name)
+    
+    knowledge_base_id = get_knowledge_base_id(knowledge_base_name, region_name, bedrock_agent)
+    
+    # Get or create data source
+    data_source_id, data_source_name, is_new = get_or_create_data_source(
+        knowledge_base_id, language, region_name, bedrock_agent
+    )
+    
+    results = {
+        "data_source": {
+            "id": data_source_id,
+            "name": data_source_name,
+            "is_new": is_new
+        },
+        "ingestion_job": {},
+        "statistics": None
+    }
+    
+    # Sync the data source
+    print(f"Syncing data source {data_source_name}...")
+    sync_result = sync_data_source(knowledge_base_id, data_source_id, region_name, bedrock_agent)
+    
+    ingestion_job_id = sync_result['ingestionJob']['ingestionJobId']
+    results["ingestion_job"] = {"id": ingestion_job_id, "status": "STARTED"}
+    
+    # Monitor the ingestion job
+    final_status = monitor_ingestion_job(
+        knowledge_base_id, data_source_id, ingestion_job_id, region_name, bedrock_agent
+    )
+    
+    results["ingestion_job"]["status"] = final_status.get('ingestionJob', {}).get('status', 'UNKNOWN')
+    
+    # Get statistics
+    if 'statistics' in final_status.get('ingestionJob', {}):
+        stats = final_status['ingestionJob']['statistics']
+        results["statistics"] = {
+            "documents_processed": stats.get('numberOfDocumentsScanned', 0),
+            "documents_failed": stats.get('numberOfDocumentsFailed', 0),
+            "documents_indexed": stats.get('numberOfNewDocumentsIndexed', 0),
+            "documents_modified_indexed": stats.get('numberOfModifiedDocumentsIndexed',0)
+        }
+    
+    return {
+        'statusCode': 200,
+        'body': json.dumps(results, cls=DateTimeEncoder)
+    }