Metal: faster Q4_0 and Q4_1 matrix x vector kernels (#2212)

* 3-5% faster Q4_0 on Metal * 7-25% faster Q4_1 on Metal * Oops, forgot to delete the original Q4_1 kernel --------- Co-authored-by: Iwan Kawrakow <iwan.kawrakow@gmail.com>
author: Kawrakow <48489457+ikawrakow@users.noreply.github.com> 2023-07-14 12:46:21 +0300
committer: GitHub <noreply@github.com> 2023-07-14 11:46:21 +0200
commit: 27ad57a69b85bf12420a27e9945e580cc280be57 (patch)
tree: f73b384b82088c94526a80a0eef1544eee2b1df7 /ggml-metal.m
parent: 32c54116318929c90fd7ae814cf9b5232cd44c36 (diff)
1 files changed, 2 insertions, 6 deletions
diff --git a/ggml-metal.m b/ggml-metal.m
index 02dc9be..c795ee2 100644
--- a/ggml-metal.m
+++ b/ggml-metal.m
@@ -739,12 +739,8 @@ void ggml_metal_graph_compute(
                                 [encoder setBytes:&ne0  length:sizeof(ne0)  atIndex:13];
                                 [encoder setBytes:&ne1  length:sizeof(ne1)  atIndex:14];
 
-                                if (src0t == GGML_TYPE_Q4_0) {
-                                    [encoder dispatchThreadgroups:MTLSizeMake(ne01 / 8+((ne01 % 8) & 0x01), ne11, 1) threadsPerThreadgroup:MTLSizeMake(nth0, nth1, 1)];
-                                }
-                                else if (src0t == GGML_TYPE_Q4_1) {
-                                    [encoder setThreadgroupMemoryLength:nth0*nth1*sizeof(float) atIndex:0];
-                                    [encoder dispatchThreadgroups:MTLSizeMake(ne01, ne11, 1) threadsPerThreadgroup:MTLSizeMake(nth0, nth1, 1)];
+                                if (src0t == GGML_TYPE_Q4_0 || src0t == GGML_TYPE_Q4_1) {
+                                    [encoder dispatchThreadgroups:MTLSizeMake((ne01 + 7) / 8, ne11, 1) threadsPerThreadgroup:MTLSizeMake(nth0, nth1, 1)];
                                 }
                                 else if (src0t == GGML_TYPE_Q2_K ||
                                          src0t == GGML_TYPE_Q3_K ||
author	Kawrakow <48489457+ikawrakow@users.noreply.github.com>	2023-07-14 12:46:21 +0300
committer	GitHub <noreply@github.com>	2023-07-14 11:46:21 +0200
commit	27ad57a69b85bf12420a27e9945e580cc280be57 (patch)
tree	f73b384b82088c94526a80a0eef1544eee2b1df7 /ggml-metal.m
parent	32c54116318929c90fd7ae814cf9b5232cd44c36 (diff)