Convert vector to f16 for dequantize mul mat vec (#1913)

* Convert vector to f16 for dmmv * compile option * Added compilation option description to README * Changed cmake CUDA_ARCHITECTURES from "OFF" to "native"
author: Johannes Gäßler <johannesg@5d6.de> 2023-06-19 10:23:56 +0200
committer: GitHub <noreply@github.com> 2023-06-19 10:23:56 +0200
commit: 16b9cd193965769089881bb8ec012fccca7b37b6 (patch)
tree: 2ee329793e782f253966fd81f89ea05f5a1a2495 /llama.cpp
parent: b24c3049d96557c24782e4d32feaae65f47277af (diff)
1 files changed, 1 insertions, 1 deletions
diff --git a/llama.cpp b/llama.cpp
index 2105e32..5401db0 100644
--- a/llama.cpp
+++ b/llama.cpp
@@ -1620,7 +1620,7 @@ static bool llama_eval_internal(
                     model.layers[il].w1,
                     cur);
             offload_func(cur);
-            ggml_set_name(cur, "result_w2");
+            ggml_set_name(cur, "result_w1");
 
             // SILU activation
             cur = ggml_silu(ctx0, cur);
author	Johannes Gäßler <johannesg@5d6.de>	2023-06-19 10:23:56 +0200
committer	GitHub <noreply@github.com>	2023-06-19 10:23:56 +0200
commit	16b9cd193965769089881bb8ec012fccca7b37b6 (patch)
tree	2ee329793e782f253966fd81f89ea05f5a1a2495 /llama.cpp
parent	b24c3049d96557c24782e4d32feaae65f47277af (diff)