DocSpring
diff --git a/‎knip.json‎
Lines changed: 6 additions & 1 deletion b/‎knip.json‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎package.json‎
Lines changed: 1 addition & 1 deletion b/‎package.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎scripts/check-query-embeddings.ts‎
Lines changed: 52 additions & 43 deletions b/‎scripts/check-query-embeddings.ts‎
Lines changed: 52 additions & 43 deletions
diff --git a/‎scripts/generate-query-embeddings.ts‎
Lines changed: 93 additions & 84 deletions b/‎scripts/generate-query-embeddings.ts‎
Lines changed: 93 additions & 84 deletions
@@ -1,5 +1,10 @@
 {
-  "entry": ["src/cli/steps/index.ts", "src/test-support/index.ts"],
+  "entry": [
+    "src/cli/steps/index.ts",
+    "src/test-support/index.ts",
+    "src/search/index.ts",
+    "src/scraper/index.ts"
+  ],
   "project": ["src/**/*.ts"],
   "ignore": [
     "src/**/*.test.ts",
 
@@ -112,4 +112,4 @@
   "engines": {
     "node": ">=18.0.0"
   }
-}
+}
@@ -6,68 +6,77 @@
  * Usage: bun scripts/check-query-embeddings.ts
  */
 
-import { readFileSync } from 'node:fs'
-import { join } from 'node:path'
-import { gunzipSync } from 'node:zlib'
+import { readFileSync } from "node:fs";
+import { join } from "node:path";
+import { gunzipSync } from "node:zlib";
 
-import activityTypes from '../src/extraction/embeddings/queries/activity-types.json'
-import agreementQueries from '../src/extraction/embeddings/queries/agreement.json'
-import suggestionQueries from '../src/extraction/embeddings/queries/suggestions.json'
+import activityTypes from "../src/extraction/embeddings/queries/activity-types.json";
+import agreementQueries from "../src/extraction/embeddings/queries/agreement.json";
+import suggestionQueries from "../src/extraction/embeddings/queries/suggestions.json";
 
 // Load compressed embeddings
-const embeddingsPath = join(import.meta.dir, '../src/extraction/embeddings/queries/query-embeddings.json.gz')
-const compressed = readFileSync(embeddingsPath)
-const jsonData = gunzipSync(compressed).toString()
-const queryEmbeddings = JSON.parse(jsonData) as { queries: Array<{ text: string }> }
+const embeddingsPath = join(
+	import.meta.dir,
+	"../src/extraction/embeddings/queries/query-embeddings.json.gz",
+);
+const compressed = readFileSync(embeddingsPath);
+const jsonData = gunzipSync(compressed).toString();
+const queryEmbeddings = JSON.parse(jsonData) as {
+	queries: Array<{ text: string }>;
+};
 
 // Get all queries from source files
-const allActivityTypes = Object.values(activityTypes).flat()
-const allQueries = new Set([...suggestionQueries, ...agreementQueries, ...allActivityTypes])
+const allActivityTypes = Object.values(activityTypes).flat();
+const allQueries = new Set([
+	...suggestionQueries,
+	...agreementQueries,
+	...allActivityTypes,
+]);
 
 // Get queries that have embeddings
-const embeddedQueries = new Set(queryEmbeddings.queries.map((q) => q.text))
+const embeddedQueries = new Set(queryEmbeddings.queries.map((q) => q.text));
 
 // Find missing
-const missing: string[] = []
+const missing: string[] = [];
 for (const query of allQueries) {
-  if (!embeddedQueries.has(query)) {
-    missing.push(query)
-  }
+	if (!embeddedQueries.has(query)) {
+		missing.push(query);
+	}
 }
 
 // Find stale (in embeddings but not in source)
-const stale: string[] = []
+const stale: string[] = [];
 for (const query of embeddedQueries) {
-  if (!allQueries.has(query)) {
-    stale.push(query)
-  }
+	if (!allQueries.has(query)) {
+		stale.push(query);
+	}
 }
 
 if (missing.length > 0 || stale.length > 0) {
-  console.error('❌ Query embeddings are out of sync!\n')
+	console.error("❌ Query embeddings are out of sync!\n");
 
-  if (missing.length > 0) {
-    console.error(`Missing embeddings for ${missing.length} queries:`)
-    for (const q of missing.slice(0, 10)) {
-      console.error(`  - "${q}"`)
-    }
-    if (missing.length > 10) {
-      console.error(`  ... and ${missing.length - 10} more`)
-    }
-  }
+	if (missing.length > 0) {
+		console.error(`Missing embeddings for ${missing.length} queries:`);
+		for (const q of missing.slice(0, 10)) {
+			console.error(`  - "${q}"`);
+		}
+		if (missing.length > 10) {
+			console.error(`  ... and ${missing.length - 10} more`);
+		}
+	}
 
-  if (stale.length > 0) {
-    console.error(`\nStale embeddings for ${stale.length} removed queries:`)
-    for (const q of stale.slice(0, 10)) {
-      console.error(`  - "${q}"`)
-    }
-    if (stale.length > 10) {
-      console.error(`  ... and ${stale.length - 10} more`)
-    }
-  }
+	if (stale.length > 0) {
+		console.error(`\nStale embeddings for ${stale.length} removed queries:`);
+		for (const q of stale.slice(0, 10)) {
+			console.error(`  - "${q}"`);
+		}
+		if (stale.length > 10) {
+			console.error(`  ... and ${stale.length - 10} more`);
+		}
+	}
 
-  console.error('\nRun: bun scripts/generate-query-embeddings.ts')
-  process.exit(1)
+	console.error("\nRun: bun scripts/generate-query-embeddings.ts");
+	process.exit(1);
 }
 
-console.log(`✓ All ${allQueries.size} queries have embeddings`)
+console.log(`✓ All ${allQueries.size} queries have embeddings`);
@@ -6,103 +6,112 @@
  * Usage: bun scripts/generate-query-embeddings.ts
  */
 
-import { writeFileSync } from 'node:fs'
-import { join } from 'node:path'
-import { gzipSync } from 'node:zlib'
+import { writeFileSync } from "node:fs";
+import { join } from "node:path";
+import { gzipSync } from "node:zlib";
 
 // Load queries
-import activityTypes from '../src/extraction/embeddings/queries/activity-types.json'
-import agreementQueries from '../src/extraction/embeddings/queries/agreement.json'
-import suggestionQueries from '../src/extraction/embeddings/queries/suggestions.json'
+import activityTypes from "../src/extraction/embeddings/queries/activity-types.json";
+import agreementQueries from "../src/extraction/embeddings/queries/agreement.json";
+import suggestionQueries from "../src/extraction/embeddings/queries/suggestions.json";
 
-const OPENAI_API_KEY = process.env.OPENAI_API_KEY
+const OPENAI_API_KEY = process.env.OPENAI_API_KEY;
 if (!OPENAI_API_KEY) {
-  console.error('Error: OPENAI_API_KEY environment variable required')
-  console.error('Set it in .env or export it')
-  process.exit(1)
+	console.error("Error: OPENAI_API_KEY environment variable required");
+	console.error("Set it in .env or export it");
+	process.exit(1);
 }
 
-const MODEL = 'text-embedding-3-large'
+const MODEL = "text-embedding-3-large";
 
 interface OpenAIEmbeddingResponse {
-  data: Array<{ embedding: number[]; index: number }>
-  model: string
-  usage: { prompt_tokens: number; total_tokens: number }
+	data: Array<{ embedding: number[]; index: number }>;
+	model: string;
+	usage: { prompt_tokens: number; total_tokens: number };
 }
 
 async function embedBatch(texts: string[]): Promise<number[][]> {
-  const response = await fetch('https://api.openai.com/v1/embeddings', {
-    method: 'POST',
-    headers: {
-      'Content-Type': 'application/json',
-      Authorization: `Bearer ${OPENAI_API_KEY}`
-    },
-    body: JSON.stringify({ model: MODEL, input: texts })
-  })
-
-  if (!response.ok) {
-    const error = await response.text()
-    throw new Error(`OpenAI API error: ${response.status} ${error}`)
-  }
-
-  const data = (await response.json()) as OpenAIEmbeddingResponse
-  
-  // Sort by index and return embeddings
-  const embeddings: number[][] = new Array(texts.length)
-  for (const item of data.data) {
-    embeddings[item.index] = item.embedding
-  }
-  
-  return embeddings
+	const response = await fetch("https://api.openai.com/v1/embeddings", {
+		method: "POST",
+		headers: {
+			"Content-Type": "application/json",
+			Authorization: `Bearer ${OPENAI_API_KEY}`,
+		},
+		body: JSON.stringify({ model: MODEL, input: texts }),
+	});
+
+	if (!response.ok) {
+		const error = await response.text();
+		throw new Error(`OpenAI API error: ${response.status} ${error}`);
+	}
+
+	const data = (await response.json()) as OpenAIEmbeddingResponse;
+
+	// Sort by index and return embeddings
+	const embeddings: number[][] = new Array(texts.length);
+	for (const item of data.data) {
+		embeddings[item.index] = item.embedding;
+	}
+
+	return embeddings;
 }
 
 async function main() {
-  console.log('Generating query embeddings...\n')
-
-  // Flatten all queries
-  const allActivityTypes = Object.values(activityTypes).flat()
-  const allQueries = [...suggestionQueries, ...agreementQueries, ...allActivityTypes]
-
-  console.log(`Suggestion queries: ${suggestionQueries.length}`)
-  console.log(`Agreement queries: ${agreementQueries.length}`)
-  console.log(`Activity types: ${allActivityTypes.length}`)
-  console.log(`Total queries: ${allQueries.length}\n`)
-
-  // Embed in batches of 100
-  const BATCH_SIZE = 100
-  const allEmbeddings: number[][] = []
-  
-  for (let i = 0; i < allQueries.length; i += BATCH_SIZE) {
-    const batch = allQueries.slice(i, i + BATCH_SIZE)
-    console.log(`Embedding batch ${Math.floor(i / BATCH_SIZE) + 1}/${Math.ceil(allQueries.length / BATCH_SIZE)}...`)
-    
-    const embeddings = await embedBatch(batch)
-    allEmbeddings.push(...embeddings)
-  }
-
-  // Build output structure
-  const output = {
-    model: MODEL,
-    generatedAt: new Date().toISOString(),
-    queryCount: allQueries.length,
-    dimensions: allEmbeddings[0]?.length ?? 0,
-    queries: allQueries.map((query, i) => ({
-      text: query,
-      embedding: allEmbeddings[i]
-    }))
-  }
-
-  // Write compressed file
-  const outputPath = join(import.meta.dir, '../src/extraction/embeddings/queries/query-embeddings.json.gz')
-  const jsonData = JSON.stringify(output)
-  const compressed = gzipSync(jsonData)
-  writeFileSync(outputPath, compressed)
-
-  const sizeMB = (compressed.length / 1024 / 1024).toFixed(1)
-  console.log(`\nWritten ${allQueries.length} embeddings to:`)
-  console.log(outputPath)
-  console.log(`\nDimensions: ${output.dimensions}`)
-  console.log(`Compressed size: ${sizeMB}MB`)
+	console.log("Generating query embeddings...\n");
+
+	// Flatten all queries
+	const allActivityTypes = Object.values(activityTypes).flat();
+	const allQueries = [
+		...suggestionQueries,
+		...agreementQueries,
+		...allActivityTypes,
+	];
+
+	console.log(`Suggestion queries: ${suggestionQueries.length}`);
+	console.log(`Agreement queries: ${agreementQueries.length}`);
+	console.log(`Activity types: ${allActivityTypes.length}`);
+	console.log(`Total queries: ${allQueries.length}\n`);
+
+	// Embed in batches of 100
+	const BATCH_SIZE = 100;
+	const allEmbeddings: number[][] = [];
+
+	for (let i = 0; i < allQueries.length; i += BATCH_SIZE) {
+		const batch = allQueries.slice(i, i + BATCH_SIZE);
+		console.log(
+			`Embedding batch ${Math.floor(i / BATCH_SIZE) + 1}/${Math.ceil(allQueries.length / BATCH_SIZE)}...`,
+		);
+
+		const embeddings = await embedBatch(batch);
+		allEmbeddings.push(...embeddings);
+	}
+
+	// Build output structure
+	const output = {
+		model: MODEL,
+		generatedAt: new Date().toISOString(),
+		queryCount: allQueries.length,
+		dimensions: allEmbeddings[0]?.length ?? 0,
+		queries: allQueries.map((query, i) => ({
+			text: query,
+			embedding: allEmbeddings[i],
+		})),
+	};
+
+	// Write compressed file
+	const outputPath = join(
+		import.meta.dir,
+		"../src/extraction/embeddings/queries/query-embeddings.json.gz",
+	);
+	const jsonData = JSON.stringify(output);
+	const compressed = gzipSync(jsonData);
+	writeFileSync(outputPath, compressed);
+
+	const sizeMB = (compressed.length / 1024 / 1024).toFixed(1);
+	console.log(`\nWritten ${allQueries.length} embeddings to:`);
+	console.log(outputPath);
+	console.log(`\nDimensions: ${output.dimensions}`);
+	console.log(`Compressed size: ${sizeMB}MB`);
 }
 
-main().catch(console.error)
+main().catch(console.error);
Original file line number	Diff line number	Diff line change
`@@ -112,4 +112,4 @@`
`112`	`112`	`"engines": {`
`113`	`113`	`"node": ">=18.0.0"`
`114`	`114`	`}`
`115`		`-}`
	`115`	`+}`