bashbaug
diff --git a/‎samples/20_matrixexperiments-bf16/main.cpp‎
Lines changed: 52 additions & 11 deletions b/‎samples/20_matrixexperiments-bf16/main.cpp‎
Lines changed: 52 additions & 11 deletions
diff --git a/‎samples/20_matrixexperiments-bf16/matrix_helpers_bf16.cl‎
Lines changed: 16 additions & 16 deletions b/‎samples/20_matrixexperiments-bf16/matrix_helpers_bf16.cl‎
Lines changed: 16 additions & 16 deletions
diff --git a/‎samples/20_matrixexperiments-bf16/matrix_kernel_tiled_bf16.cl‎
Lines changed: 2 additions & 2 deletions b/‎samples/20_matrixexperiments-bf16/matrix_kernel_tiled_bf16.cl‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎samples/20_matrixexperiments-bf16/matrix_kernels_bf16.cl‎
Lines changed: 7 additions & 7 deletions b/‎samples/20_matrixexperiments-bf16/matrix_kernels_bf16.cl‎
Lines changed: 7 additions & 7 deletions
@@ -76,6 +76,12 @@ static size_t findMinSubGroupSize(cl::Device& device)
     return 0;
 }
 
+static bool supportsSubgroupSize(cl::Device& device, size_t subgroupSize)
+{
+    auto s = device.getInfo<CL_DEVICE_SUB_GROUP_SIZES_INTEL>();
+    return std::find(std::begin(s), std::end(s), subgroupSize) != std::end(s);
+}
+
 static void setRoundRobin(cl::Kernel& kernel)
 {
     constexpr cl_kernel_exec_info CL_KERNEL_EXEC_INFO_THREAD_ARBITRATION_POLICY_INTEL = 0x10025;
@@ -175,6 +181,23 @@ static float hw_time(cl::Event& event)
     return ns / 1e9f;
 }
 
+static cl::NDRange getRequiredLocalWorkSize(cl::Kernel& kernel, cl::CommandQueue queue)
+{
+    // Note: This shouldn't be necessary, and the OpenCL implementation should
+    // automatically choose the required local work-group size when the local
+    // work-group size is `nullptr`.  This is not working for some OpenCL
+    // implementations, though, so we will just query and use the required local
+    // work-group size explicitly.
+    auto device = queue.getInfo<CL_QUEUE_DEVICE>();
+    auto reqd_wgs = kernel.getWorkGroupInfo<CL_KERNEL_COMPILE_WORK_GROUP_SIZE>(device);
+
+    if (reqd_wgs[0] > 0 && reqd_wgs[1] > 0 && reqd_wgs[2] > 0) {
+        return cl::NDRange(reqd_wgs[0], reqd_wgs[1], reqd_wgs[2]);
+    }
+
+    return cl::NullRange;
+}
+
 static void bfloat16_naive(
     cl::Context& context, cl::Program& program, cl::CommandQueue& queue,
     cl::Buffer& C, cl::Buffer& A, cl::Buffer& B,
@@ -187,6 +210,8 @@ static void bfloat16_naive(
     if (kernel() == nullptr) {
         printf("unsupported.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -201,7 +226,7 @@ static void bfloat16_naive(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N, M}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N, M}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -237,6 +262,8 @@ static void bfloat16_dpas_rowmajor(
     if (kernel() == nullptr) {
         printf("unsupported.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -251,7 +278,7 @@ static void bfloat16_dpas_rowmajor(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N, M/tM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N, M/tM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -293,6 +320,8 @@ static void bfloat16_dpas_rowmajor_tiled(
     } else if (tN * NN > N) {
         printf("N is too small.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -307,7 +336,7 @@ static void bfloat16_dpas_rowmajor_tiled(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N/NN, M/tM/MM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N/NN, M/tM/MM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -343,6 +372,8 @@ static void bfloat16_dpas_vnni(
     if (kernel() == nullptr) {
         printf("unsupported.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -357,7 +388,7 @@ static void bfloat16_dpas_vnni(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N, M/tM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N, M/tM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -399,6 +430,8 @@ static void bfloat16_dpas_vnni_tiled(
     } else if (tN * NN > N) {
         printf("N is too small.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -413,7 +446,7 @@ static void bfloat16_dpas_vnni_tiled(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N/NN, M/tM/MM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N/NN, M/tM/MM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -449,6 +482,8 @@ static void bfloat16_dpas_blockread_rowmajor(
     if (kernel() == nullptr) {
         printf("unsupported.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -466,7 +501,7 @@ static void bfloat16_dpas_blockread_rowmajor(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N, M/tM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N, M/tM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -508,6 +543,8 @@ static void bfloat16_dpas_blockread_rowmajor_tiled(
     } else if (tN * NN > N) {
         printf("N is too small.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -525,7 +562,7 @@ static void bfloat16_dpas_blockread_rowmajor_tiled(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N/NN, M/tM/MM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N/NN, M/tM/MM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -561,6 +598,8 @@ static void bfloat16_dpas_blockread_vnni(
     if (kernel() == nullptr) {
         printf("unsupported.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -578,7 +617,7 @@ static void bfloat16_dpas_blockread_vnni(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N, M/tM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N, M/tM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -620,6 +659,8 @@ static void bfloat16_dpas_blockread_vnni_tiled(
     } else if (tN * NN > N) {
         printf("N is too small.\n");
     } else {
+        const cl::NDRange localWorkSize = getRequiredLocalWorkSize(kernel, queue);
+
         kernel.setArg(0, C);
         kernel.setArg(1, A);
         kernel.setArg(2, B);
@@ -637,7 +678,7 @@ static void bfloat16_dpas_blockread_vnni_tiled(
             cl::Event event;
             auto start = test_clock::now();
             queue.enqueueNDRangeKernel(kernel, cl::NullRange,
-                cl::NDRange{N/NN, M/tM/MM}, cl::NullRange, nullptr, &event);
+                cl::NDRange{N/NN, M/tM/MM}, localWorkSize, nullptr, &event);
             queue.finish();
             auto end = test_clock::now();
             std::chrono::duration<float> sw_time = end - start;
@@ -729,7 +770,7 @@ int main(int argc, char** argv)
 
     auto minSubGroupSize = findMinSubGroupSize(device);
 
-    bool has_simd8 = minSubGroupSize == 8;
+    bool has_sg8 = supportsSubgroupSize(device, 8);
     bool emulate_tN8 = true;
     bool emulate_tN16 = true;
     if (!emulate && checkDeviceForExtension(device, "cl_intel_subgroup_matrix_multiply_accumulate")) {
@@ -741,7 +782,7 @@ int main(int argc, char** argv)
         }
     }
 
-    buildOptions += " -DHAS_SIMD8=" + std::to_string(has_simd8);
+    buildOptions += " -DHAS_SG8=" + std::to_string(has_sg8);
     buildOptions += " -DEMULATE_tN8=" + std::to_string(emulate_tN8);
     buildOptions += " -DEMULATE_tN16=" + std::to_string(emulate_tN16);
 
 
@@ -155,22 +155,22 @@ float  emu_sub_group_bf16_bf16_matrix_mad_k16(short  a, int8 b, float  acc)
 {
     float res = acc;
 
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  0)), bf16_to_fp32(as_ushort2(b.s0).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  1)), bf16_to_fp32(as_ushort2(b.s0).y), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  2)), bf16_to_fp32(as_ushort2(b.s1).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  3)), bf16_to_fp32(as_ushort2(b.s1).y), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  4)), bf16_to_fp32(as_ushort2(b.s2).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  5)), bf16_to_fp32(as_ushort2(b.s2).y), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  6)), bf16_to_fp32(as_ushort2(b.s3).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  7)), bf16_to_fp32(as_ushort2(b.s3).y), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  8)), bf16_to_fp32(as_ushort2(b.s4).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a,  9)), bf16_to_fp32(as_ushort2(b.s4).y), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a, 10)), bf16_to_fp32(as_ushort2(b.s5).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a, 11)), bf16_to_fp32(as_ushort2(b.s5).y), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a, 12)), bf16_to_fp32(as_ushort2(b.s6).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a, 13)), bf16_to_fp32(as_ushort2(b.s6).y), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a, 14)), bf16_to_fp32(as_ushort2(b.s7).x), res);
-    res = fma(bf16_to_fp32(sub_group_broadcast(a, 15)), bf16_to_fp32(as_ushort2(b.s7).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  0)), bf16_to_fp32(as_ushort2(b.s0).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  1)), bf16_to_fp32(as_ushort2(b.s0).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  2)), bf16_to_fp32(as_ushort2(b.s1).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  3)), bf16_to_fp32(as_ushort2(b.s1).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  4)), bf16_to_fp32(as_ushort2(b.s2).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  5)), bf16_to_fp32(as_ushort2(b.s2).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  6)), bf16_to_fp32(as_ushort2(b.s3).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  7)), bf16_to_fp32(as_ushort2(b.s3).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  8)), bf16_to_fp32(as_ushort2(b.s4).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a,  9)), bf16_to_fp32(as_ushort2(b.s4).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a, 10)), bf16_to_fp32(as_ushort2(b.s5).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a, 11)), bf16_to_fp32(as_ushort2(b.s5).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a, 12)), bf16_to_fp32(as_ushort2(b.s6).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a, 13)), bf16_to_fp32(as_ushort2(b.s6).y), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a, 14)), bf16_to_fp32(as_ushort2(b.s7).x), res);
+    res = fma(bf16_to_fp32(intel_sub_group_broadcast(a, 15)), bf16_to_fp32(as_ushort2(b.s7).y), res);
 
     return res;
 }
 
@@ -64,7 +64,7 @@ void HELPER_NAME(btile_load_packed, MM, NN)(global ushort* B, int tN, int N, int
     }
 }
 
-#if HAS_SIMD8
+#if HAS_SG8
 
 void HELPER_NAME(atile_prefetch_rowmajor_sg8, MM, NN)(global ushort* A, int tM, int K, int m, int prefetch_k)
 {
@@ -236,7 +236,7 @@ kernel void MM_KERNEL_NAME(bfloat16_dpas_vnni_tiled, 8, 8, MM, NN)(global float*
     }
 }
 
-#endif // HAS_SIMD8
+#endif // HAS_SG8
 
 void HELPER_NAME(atile_prefetch_rowmajor, MM, NN)(global ushort* A, int tM, int K, int m, int prefetch_k)
 {
 
@@ -38,7 +38,7 @@ kernel void bfloat16_naive(global float* C, global ushort* A, global ushort* B,
 
 #if defined(cl_intel_subgroups) && defined(cl_intel_subgroups_short) && defined(cl_intel_required_subgroup_size)
 
-#if HAS_SIMD8
+#if HAS_SG8
 
 // rowmajor kernels:
 
@@ -212,9 +212,9 @@ kernel void bfloat16_dpas_vnni_m8_n8(global float* C, global ushort* A, global u
     store_c_rowmajor_fp32_8rNc(C, sum, m, n, N);
 }
 
-#endif // HAS_SIMD8
+#endif // HAS_SG8
 
-// rowmajor krenels:
+// rowmajor kernels:
 
 __attribute__((intel_reqd_sub_group_size(16))) __attribute__((reqd_work_group_size(16, 1, 1)))
 kernel void bfloat16_dpas_rowmajor_m1_n16(global float* C, global ushort* A, global ushort* B, int K)
@@ -224,7 +224,7 @@ kernel void bfloat16_dpas_rowmajor_m1_n16(global float* C, global ushort* A, glo
     const int tN = 16;
     const int N = get_global_size(0);
     const int m = get_group_id(1) * tM;
-    const int n = get_group_id(0) * get_local_size(0);
+    const int n = get_group_id(0) * tN;
 
     float sum = 0;
     for (int k = 0; k < K; k += tK) {
@@ -245,7 +245,7 @@ kernel void bfloat16_dpas_rowmajor_m2_n16(global float* C, global ushort* A, glo
     const int tN = 16;
     const int N = get_global_size(0);
     const int m = get_group_id(1) * tM;
-    const int n = get_group_id(0) * get_local_size(0);
+    const int n = get_group_id(0) * tN;
 
     float2 sum = 0;
     for (int k = 0; k < K; k += tK) {
@@ -266,7 +266,7 @@ kernel void bfloat16_dpas_rowmajor_m4_n16(global float* C, global ushort* A, glo
     const int tN = 16;
     const int N = get_global_size(0);
     const int m = get_group_id(1) * tM;
-    const int n = get_group_id(0) * get_local_size(0);
+    const int n = get_group_id(0) * tN;
 
     float4 sum = 0;
     for (int k = 0; k < K; k += tK) {
@@ -287,7 +287,7 @@ kernel void bfloat16_dpas_rowmajor_m8_n16(global float* C, global ushort* A, glo
     const int tN = 16;
     const int N = get_global_size(0);
     const int m = get_group_id(1) * tM;
-    const int n = get_group_id(0) * get_local_size(0);
+    const int n = get_group_id(0) * tN;
 
     float8 sum = 0;
     for (int k = 0; k < K; k += tK) {
Original file line number	Diff line number	Diff line change
`@@ -64,7 +64,7 @@ void HELPER_NAME(btile_load_packed, MM, NN)(global ushort* B, int tN, int N, int`
`64`	`64`	`}`
`65`	`65`	`}`
`66`	`66`
`67`		`-#if HAS_SIMD8`
	`67`	`+#if HAS_SG8`
`68`	`68`
`69`	`69`	`void HELPER_NAME(atile_prefetch_rowmajor_sg8, MM, NN)(global ushort* A, int tM, int K, int m, int prefetch_k)`
`70`	`70`	`{`
`@@ -236,7 +236,7 @@ kernel void MM_KERNEL_NAME(bfloat16_dpas_vnni_tiled, 8, 8, MM, NN)(global float*`
`236`	`236`	`}`
`237`	`237`	`}`
`238`	`238`
`239`		`-#endif // HAS_SIMD8`
	`239`	`+#endif // HAS_SG8`
`240`	`240`
`241`	`241`	`void HELPER_NAME(atile_prefetch_rowmajor, MM, NN)(global ushort* A, int tM, int K, int m, int prefetch_k)`
`242`	`242`	`{`