llama : fix embd when offloading non-repeating layers (#1891)

author: Johannes Gäßler <johannesg@5d6.de> 2023-06-16 20:25:51 +0200
committer: GitHub <noreply@github.com> 2023-06-16 21:25:51 +0300
commit: ac3b8869538c7fbdb48ff141d78c4dea091789f0 (patch)
tree: 52e34249166e4925a67ac3ddd43472a523749cfc
parent: 5b9ccaf104cc1054d4f8f17bc8a4b8dc949e5527 (diff)
1 files changed, 1 insertions, 1 deletions
diff --git a/llama.cpp b/llama.cpp
index a904388..81f047e 100644
--- a/llama.cpp
+++ b/llama.cpp
@@ -1658,7 +1658,7 @@ static bool llama_eval_internal(
 
         // cur = cur*norm(broadcasted)
         cur = ggml_mul(ctx0, cur, model.norm);
-        offload_func_nr(cur);
+        // offload_func_nr(cur); // TODO CPU + GPU mirrored backend
         ggml_set_name(cur, "result_norm");
 
         embeddings = cur;
author	Johannes Gäßler <johannesg@5d6.de>	2023-06-16 20:25:51 +0200
committer	GitHub <noreply@github.com>	2023-06-16 21:25:51 +0300
commit	ac3b8869538c7fbdb48ff141d78c4dea091789f0 (patch)
tree	52e34249166e4925a67ac3ddd43472a523749cfc
parent	5b9ccaf104cc1054d4f8f17bc8a4b8dc949e5527 (diff)