sourcegraph
diff --git a/‎benchmarks/csb_sdlc_debug/tidb-query-plan-regression-debug-001/tests/test.sh‎
Lines changed: 120 additions & 3 deletions b/‎benchmarks/csb_sdlc_debug/tidb-query-plan-regression-debug-001/tests/test.sh‎
Lines changed: 120 additions & 3 deletions
diff --git a/‎benchmarks/csb_sdlc_design/django-pre-validate-signal-design-001/tests/test.sh‎
Lines changed: 115 additions & 2 deletions b/‎benchmarks/csb_sdlc_design/django-pre-validate-signal-design-001/tests/test.sh‎
Lines changed: 115 additions & 2 deletions
diff --git a/‎benchmarks/csb_sdlc_design/django-rate-limit-design-001/tests/test.sh‎
Lines changed: 114 additions & 1 deletion b/‎benchmarks/csb_sdlc_design/django-rate-limit-design-001/tests/test.sh‎
Lines changed: 114 additions & 1 deletion
@@ -11,8 +11,125 @@ SCORE=0
 TOTAL=6
 WORKSPACE="${VERIFY_REPO:-/workspace}"
 
+TASK_OUTPUT="${TASK_OUTPUT:-/workspace/answer.json}"
+PASS_THRESHOLD="0.6"
+OUTPUT_CONTRACT_MODE="answer_json_bridge"
+OUTPUT_PRIMARY_PATH="$TASK_OUTPUT"
+ARTIFACT_REQUIRED=false
+if [ "$OUTPUT_CONTRACT_MODE" = "repo_state" ]; then
+    OUTPUT_PRIMARY_PATH=""
+elif [ "${ARTIFACT_ONLY:-false}" = "true" ]; then
+    ARTIFACT_REQUIRED=true
+fi
+
+write_invalid_output() {
+    local code="$1"
+    local message="$2"
+    python3 - "$code" "$message" "$OUTPUT_CONTRACT_MODE" "$OUTPUT_PRIMARY_PATH" "$ARTIFACT_REQUIRED" "$PASS_THRESHOLD" <<'PYEOF'
+import json
+import sys
+
+code, message, mode, primary_path, required_artifact, pass_threshold = sys.argv[1:7]
+payload = {
+    "schema_version": "validation_result.v1alpha1",
+    "status": "invalid_output",
+    "scorable": False,
+    "scorer_family": "repo_state_heuristic",
+    "reward": 0.0,
+    "pass_threshold": float(pass_threshold),
+    "passed": False,
+    "output_contract": {
+        "mode": mode,
+        "primary_path": primary_path or None,
+        "required_artifact": required_artifact == "true",
+    },
+    "sub_scores": {},
+    "failure": {
+        "code": code,
+        "message": message,
+        "stage": "output_validation",
+    },
+}
+with open("/logs/verifier/validation_result.json", "w") as f:
+    json.dump(payload, f, indent=2)
+PYEOF
+    echo "0.0" > /logs/verifier/reward.txt
+}
+
+write_scored_result() {
+    local score="$1"
+    local reason="${2:-}"
+    local passed_checks="${3:-}"
+    local total_checks="${4:-}"
+    env         VALIDATION_SCORE="$score"         VALIDATION_REASON="$reason"         VALIDATION_PASSED_CHECKS="$passed_checks"         VALIDATION_TOTAL_CHECKS="$total_checks"         CHANGE_UNSTAGED="${UNSTAGED_COUNT:-${UNSTAGED:-0}}"         CHANGE_STAGED="${STAGED_COUNT:-${STAGED:-0}}"         CHANGE_UNTRACKED="${UNTRACKED_COUNT:-${UNTRACKED:-0}}"         CHANGE_COMMITS="${COMMIT_COUNT:-${COMMITS:-0}}"         VALIDATION_OUTPUT_PATH="${VALIDATION_OUTPUT_PATH:-}"         python3 - "$OUTPUT_CONTRACT_MODE" "$OUTPUT_PRIMARY_PATH" "$ARTIFACT_REQUIRED" "$PASS_THRESHOLD" <<'PYEOF'
+import json
+import os
+import sys
+
+mode, primary_path, required_artifact, pass_threshold = sys.argv[1:5]
+reward = float(os.environ.get("VALIDATION_SCORE", "0.0") or 0.0)
+threshold = float(pass_threshold)
+checks = {"heuristic_score": reward}
+details = {}
+reason = os.environ.get("VALIDATION_REASON")
+if reason:
+    details["reason"] = reason
+passed_checks_raw = os.environ.get("VALIDATION_PASSED_CHECKS", "")
+total_checks_raw = os.environ.get("VALIDATION_TOTAL_CHECKS", "")
+if passed_checks_raw and total_checks_raw:
+    try:
+        passed_checks = float(passed_checks_raw)
+        total_checks = float(total_checks_raw)
+    except ValueError:
+        passed_checks = None
+        total_checks = None
+    if passed_checks is not None and total_checks and total_checks > 0:
+        checks["passed_checks_ratio"] = round(passed_checks / total_checks, 4)
+        details["passed_checks"] = int(passed_checks) if passed_checks.is_integer() else passed_checks
+        details["total_checks"] = int(total_checks) if total_checks.is_integer() else total_checks
+change_detection = {
+    "unstaged": int(os.environ.get("CHANGE_UNSTAGED", "0") or 0),
+    "staged": int(os.environ.get("CHANGE_STAGED", "0") or 0),
+    "untracked": int(os.environ.get("CHANGE_UNTRACKED", "0") or 0),
+    "commits": int(os.environ.get("CHANGE_COMMITS", "0") or 0),
+}
+if any(change_detection.values()):
+    checks["change_detected"] = 1.0
+    details["change_detection"] = change_detection
+output_path = os.environ.get("VALIDATION_OUTPUT_PATH")
+if output_path:
+    details["output_path"] = output_path
+payload = {
+    "schema_version": "validation_result.v1alpha1",
+    "status": "scored",
+    "scorable": True,
+    "scorer_family": "repo_state_heuristic",
+    "reward": reward,
+    "pass_threshold": threshold,
+    "passed": reward >= threshold,
+    "output_contract": {
+        "mode": mode,
+        "primary_path": primary_path or None,
+        "required_artifact": required_artifact == "true",
+    },
+    "sub_scores": {"checks": checks},
+    "failure": None,
+}
+if details:
+    payload["details"] = details
+with open("/logs/verifier/validation_result.json", "w") as f:
+    json.dump(payload, f, indent=2)
+PYEOF
+    echo "$score" > /logs/verifier/reward.txt
+}
+
+
+if [ "${ARTIFACT_ONLY:-false}" = "true" ] && [ "${ANSWER_JSON_MISSING:-false}" = "true" ]; then
+    write_invalid_output "missing_required_output" \
+        "answer.json not found at ${ANSWER_JSON:-$TASK_OUTPUT}"
+    exit 0
+fi
 if [ "${ARTIFACT_ONLY:-false}" = "true" ]; then
-    answer_json_fail_closed_if_missing
     answer_json_copy_analysis_text "$WORKSPACE/debug_report.md"
 fi
 
@@ -67,5 +184,5 @@ fi
 echo ""
 echo "Score: $SCORE / $TOTAL"
 
-mkdir -p /logs/verifier
-python3 -c "print($SCORE / $TOTAL)" > /logs/verifier/reward.txt
+FINAL_SCORE=$(python3 -c "print($SCORE / $TOTAL)")
+write_scored_result "$FINAL_SCORE" "" "$SCORE" "$TOTAL"
@@ -8,6 +8,119 @@ TASK_WORKDIR="${TASK_WORKDIR:-/workspace}"
 TASK_REPO_ROOT="${TASK_REPO_ROOT:-${VERIFY_REPO:-$TASK_WORKDIR}}"
 VERIFY_REPO="${VERIFY_REPO:-$TASK_REPO_ROOT}"
 
+TASK_OUTPUT="${TASK_OUTPUT:-/workspace/answer.json}"
+PASS_THRESHOLD="0.6"
+OUTPUT_CONTRACT_MODE="repo_state"
+OUTPUT_PRIMARY_PATH="$TASK_OUTPUT"
+ARTIFACT_REQUIRED=false
+if [ "$OUTPUT_CONTRACT_MODE" = "repo_state" ]; then
+    OUTPUT_PRIMARY_PATH=""
+elif [ "${ARTIFACT_ONLY:-false}" = "true" ]; then
+    ARTIFACT_REQUIRED=true
+fi
+
+write_invalid_output() {
+    local code="$1"
+    local message="$2"
+    python3 - "$code" "$message" "$OUTPUT_CONTRACT_MODE" "$OUTPUT_PRIMARY_PATH" "$ARTIFACT_REQUIRED" "$PASS_THRESHOLD" <<'PYEOF'
+import json
+import sys
+
+code, message, mode, primary_path, required_artifact, pass_threshold = sys.argv[1:7]
+payload = {
+    "schema_version": "validation_result.v1alpha1",
+    "status": "invalid_output",
+    "scorable": False,
+    "scorer_family": "repo_state_heuristic",
+    "reward": 0.0,
+    "pass_threshold": float(pass_threshold),
+    "passed": False,
+    "output_contract": {
+        "mode": mode,
+        "primary_path": primary_path or None,
+        "required_artifact": required_artifact == "true",
+    },
+    "sub_scores": {},
+    "failure": {
+        "code": code,
+        "message": message,
+        "stage": "output_validation",
+    },
+}
+with open("/logs/verifier/validation_result.json", "w") as f:
+    json.dump(payload, f, indent=2)
+PYEOF
+    echo "0.0" > /logs/verifier/reward.txt
+}
+
+write_scored_result() {
+    local score="$1"
+    local reason="${2:-}"
+    local passed_checks="${3:-}"
+    local total_checks="${4:-}"
+    env         VALIDATION_SCORE="$score"         VALIDATION_REASON="$reason"         VALIDATION_PASSED_CHECKS="$passed_checks"         VALIDATION_TOTAL_CHECKS="$total_checks"         CHANGE_UNSTAGED="${UNSTAGED_COUNT:-${UNSTAGED:-0}}"         CHANGE_STAGED="${STAGED_COUNT:-${STAGED:-0}}"         CHANGE_UNTRACKED="${UNTRACKED_COUNT:-${UNTRACKED:-0}}"         CHANGE_COMMITS="${COMMIT_COUNT:-${COMMITS:-0}}"         VALIDATION_OUTPUT_PATH="${VALIDATION_OUTPUT_PATH:-}"         python3 - "$OUTPUT_CONTRACT_MODE" "$OUTPUT_PRIMARY_PATH" "$ARTIFACT_REQUIRED" "$PASS_THRESHOLD" <<'PYEOF'
+import json
+import os
+import sys
+
+mode, primary_path, required_artifact, pass_threshold = sys.argv[1:5]
+reward = float(os.environ.get("VALIDATION_SCORE", "0.0") or 0.0)
+threshold = float(pass_threshold)
+checks = {"heuristic_score": reward}
+details = {}
+reason = os.environ.get("VALIDATION_REASON")
+if reason:
+    details["reason"] = reason
+passed_checks_raw = os.environ.get("VALIDATION_PASSED_CHECKS", "")
+total_checks_raw = os.environ.get("VALIDATION_TOTAL_CHECKS", "")
+if passed_checks_raw and total_checks_raw:
+    try:
+        passed_checks = float(passed_checks_raw)
+        total_checks = float(total_checks_raw)
+    except ValueError:
+        passed_checks = None
+        total_checks = None
+    if passed_checks is not None and total_checks and total_checks > 0:
+        checks["passed_checks_ratio"] = round(passed_checks / total_checks, 4)
+        details["passed_checks"] = int(passed_checks) if passed_checks.is_integer() else passed_checks
+        details["total_checks"] = int(total_checks) if total_checks.is_integer() else total_checks
+change_detection = {
+    "unstaged": int(os.environ.get("CHANGE_UNSTAGED", "0") or 0),
+    "staged": int(os.environ.get("CHANGE_STAGED", "0") or 0),
+    "untracked": int(os.environ.get("CHANGE_UNTRACKED", "0") or 0),
+    "commits": int(os.environ.get("CHANGE_COMMITS", "0") or 0),
+}
+if any(change_detection.values()):
+    checks["change_detected"] = 1.0
+    details["change_detection"] = change_detection
+output_path = os.environ.get("VALIDATION_OUTPUT_PATH")
+if output_path:
+    details["output_path"] = output_path
+payload = {
+    "schema_version": "validation_result.v1alpha1",
+    "status": "scored",
+    "scorable": True,
+    "scorer_family": "repo_state_heuristic",
+    "reward": reward,
+    "pass_threshold": threshold,
+    "passed": reward >= threshold,
+    "output_contract": {
+        "mode": mode,
+        "primary_path": primary_path or None,
+        "required_artifact": required_artifact == "true",
+    },
+    "sub_scores": {"checks": checks},
+    "failure": None,
+}
+if details:
+    payload["details"] = details
+with open("/logs/verifier/validation_result.json", "w") as f:
+    json.dump(payload, f, indent=2)
+PYEOF
+    echo "$score" > /logs/verifier/reward.txt
+}
+
+
 cd "$TASK_REPO_ROOT"
 mkdir -p /logs/verifier
 git config --global --add safe.directory "$TASK_REPO_ROOT" 2>/dev/null || true
@@ -27,7 +140,7 @@ for ref in origin/master origin/main origin/HEAD; do
 done
 if [ "$UNSTAGED" -eq 0 ] && [ "$STAGED" -eq 0 ] && [ "$UNTRACKED" -eq 0 ] && [ "$COMMITS" -eq 0 ]; then
     echo "No code changes detected"
-    echo "0.0" > /logs/verifier/reward.txt
+    write_scored_result "0.0" "no_code_changes"
     exit 0
 fi
 
@@ -117,6 +230,6 @@ elif [ "$SCOPE_OK" = true ]; then
 fi
 
 REWARD=$(awk "BEGIN {printf \"%.2f\", $SCORE / 100}")
-echo "$REWARD" > /logs/verifier/reward.txt
+write_scored_result "$REWARD"
 echo ""
 echo "Score: $REWARD"
@@ -12,6 +12,119 @@ TASK_WORKDIR="${TASK_WORKDIR:-/workspace}"
 TASK_REPO_ROOT="${TASK_REPO_ROOT:-${VERIFY_REPO:-$TASK_WORKDIR}}"
 VERIFY_REPO="${VERIFY_REPO:-$TASK_REPO_ROOT}"
 
+TASK_OUTPUT="${TASK_OUTPUT:-/workspace/answer.json}"
+PASS_THRESHOLD="0.6"
+OUTPUT_CONTRACT_MODE="repo_state"
+OUTPUT_PRIMARY_PATH="$TASK_OUTPUT"
+ARTIFACT_REQUIRED=false
+if [ "$OUTPUT_CONTRACT_MODE" = "repo_state" ]; then
+    OUTPUT_PRIMARY_PATH=""
+elif [ "${ARTIFACT_ONLY:-false}" = "true" ]; then
+    ARTIFACT_REQUIRED=true
+fi
+
+write_invalid_output() {
+    local code="$1"
+    local message="$2"
+    python3 - "$code" "$message" "$OUTPUT_CONTRACT_MODE" "$OUTPUT_PRIMARY_PATH" "$ARTIFACT_REQUIRED" "$PASS_THRESHOLD" <<'PYEOF'
+import json
+import sys
+
+code, message, mode, primary_path, required_artifact, pass_threshold = sys.argv[1:7]
+payload = {
+    "schema_version": "validation_result.v1alpha1",
+    "status": "invalid_output",
+    "scorable": False,
+    "scorer_family": "repo_state_heuristic",
+    "reward": 0.0,
+    "pass_threshold": float(pass_threshold),
+    "passed": False,
+    "output_contract": {
+        "mode": mode,
+        "primary_path": primary_path or None,
+        "required_artifact": required_artifact == "true",
+    },
+    "sub_scores": {},
+    "failure": {
+        "code": code,
+        "message": message,
+        "stage": "output_validation",
+    },
+}
+with open("/logs/verifier/validation_result.json", "w") as f:
+    json.dump(payload, f, indent=2)
+PYEOF
+    echo "0.0" > /logs/verifier/reward.txt
+}
+
+write_scored_result() {
+    local score="$1"
+    local reason="${2:-}"
+    local passed_checks="${3:-}"
+    local total_checks="${4:-}"
+    env         VALIDATION_SCORE="$score"         VALIDATION_REASON="$reason"         VALIDATION_PASSED_CHECKS="$passed_checks"         VALIDATION_TOTAL_CHECKS="$total_checks"         CHANGE_UNSTAGED="${UNSTAGED_COUNT:-${UNSTAGED:-0}}"         CHANGE_STAGED="${STAGED_COUNT:-${STAGED:-0}}"         CHANGE_UNTRACKED="${UNTRACKED_COUNT:-${UNTRACKED:-0}}"         CHANGE_COMMITS="${COMMIT_COUNT:-${COMMITS:-0}}"         VALIDATION_OUTPUT_PATH="${VALIDATION_OUTPUT_PATH:-}"         python3 - "$OUTPUT_CONTRACT_MODE" "$OUTPUT_PRIMARY_PATH" "$ARTIFACT_REQUIRED" "$PASS_THRESHOLD" <<'PYEOF'
+import json
+import os
+import sys
+
+mode, primary_path, required_artifact, pass_threshold = sys.argv[1:5]
+reward = float(os.environ.get("VALIDATION_SCORE", "0.0") or 0.0)
+threshold = float(pass_threshold)
+checks = {"heuristic_score": reward}
+details = {}
+reason = os.environ.get("VALIDATION_REASON")
+if reason:
+    details["reason"] = reason
+passed_checks_raw = os.environ.get("VALIDATION_PASSED_CHECKS", "")
+total_checks_raw = os.environ.get("VALIDATION_TOTAL_CHECKS", "")
+if passed_checks_raw and total_checks_raw:
+    try:
+        passed_checks = float(passed_checks_raw)
+        total_checks = float(total_checks_raw)
+    except ValueError:
+        passed_checks = None
+        total_checks = None
+    if passed_checks is not None and total_checks and total_checks > 0:
+        checks["passed_checks_ratio"] = round(passed_checks / total_checks, 4)
+        details["passed_checks"] = int(passed_checks) if passed_checks.is_integer() else passed_checks
+        details["total_checks"] = int(total_checks) if total_checks.is_integer() else total_checks
+change_detection = {
+    "unstaged": int(os.environ.get("CHANGE_UNSTAGED", "0") or 0),
+    "staged": int(os.environ.get("CHANGE_STAGED", "0") or 0),
+    "untracked": int(os.environ.get("CHANGE_UNTRACKED", "0") or 0),
+    "commits": int(os.environ.get("CHANGE_COMMITS", "0") or 0),
+}
+if any(change_detection.values()):
+    checks["change_detected"] = 1.0
+    details["change_detection"] = change_detection
+output_path = os.environ.get("VALIDATION_OUTPUT_PATH")
+if output_path:
+    details["output_path"] = output_path
+payload = {
+    "schema_version": "validation_result.v1alpha1",
+    "status": "scored",
+    "scorable": True,
+    "scorer_family": "repo_state_heuristic",
+    "reward": reward,
+    "pass_threshold": threshold,
+    "passed": reward >= threshold,
+    "output_contract": {
+        "mode": mode,
+        "primary_path": primary_path or None,
+        "required_artifact": required_artifact == "true",
+    },
+    "sub_scores": {"checks": checks},
+    "failure": None,
+}
+if details:
+    payload["details"] = details
+with open("/logs/verifier/validation_result.json", "w") as f:
+    json.dump(payload, f, indent=2)
+PYEOF
+    echo "$score" > /logs/verifier/reward.txt
+}
+
+
 cd "$TASK_REPO_ROOT"
 
 mkdir -p /logs/verifier
@@ -161,6 +274,6 @@ elif [ "$SCOPE_OK" = true ]; then
 fi
 
 SCORE=$(awk "BEGIN {printf \"%.2f\", $SCORE_NUMERATOR / 100}")
-echo "$SCORE" > /logs/verifier/reward.txt
+write_scored_result "$SCORE"
 echo ""
 echo "[x] Tests completed - Score: $SCORE"