metal : disable graph concurrency optimization due to bug (#2413)

author: Georgi Gerganov <ggerganov@gmail.com> 2023-07-27 11:00:54 +0300
committer: Georgi Gerganov <ggerganov@gmail.com> 2023-07-27 11:00:54 +0300
commit: 1a941869cbef8e9cc351a6c6987e4ae3b0f021f7 (patch)
tree: 6152089801c80810412f441a73604802265b8e4f /llama.cpp
parent: b5472ea0ada081a6e1c06998ebbc9a24aa2cd4a4 (diff)
1 files changed, 4 insertions, 3 deletions
diff --git a/llama.cpp b/llama.cpp
index 024af99..9a8ecdc 100644
--- a/llama.cpp
+++ b/llama.cpp
@@ -1722,9 +1722,10 @@ static bool llama_eval_internal(
 
 #ifdef GGML_USE_METAL
     if (lctx.ctx_metal && N == 1) {
-        if (!ggml_metal_if_optimized(lctx.ctx_metal)) {
-            ggml_metal_graph_find_concurrency(lctx.ctx_metal, gf);
-        }
+        // TODO: disabled until #2413 is resolved
+        //if (!ggml_metal_if_optimized(lctx.ctx_metal)) {
+        //    ggml_metal_graph_find_concurrency(lctx.ctx_metal, gf);
+        //}
         ggml_metal_set_n_cb     (lctx.ctx_metal, n_threads);
         ggml_metal_graph_compute(lctx.ctx_metal, gf);
         ggml_metal_get_tensor   (lctx.ctx_metal, cur);
author	Georgi Gerganov <ggerganov@gmail.com>	2023-07-27 11:00:54 +0300
committer	Georgi Gerganov <ggerganov@gmail.com>	2023-07-27 11:00:54 +0300
commit	1a941869cbef8e9cc351a6c6987e4ae3b0f021f7 (patch)
tree	6152089801c80810412f441a73604802265b8e4f /llama.cpp
parent	b5472ea0ada081a6e1c06998ebbc9a24aa2cd4a4 (diff)