ollama migrates to 100% cpu

From mlt, 13 Hours ago, written in Logcat.

Embed

Download Paste or View Raw
Hits: 2

time=2025-06-23T14:18:35.139-05:00 level=INFO source=routes.go:1235 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:8192 OLLAMA_DEBUG:INFO OLLAMA_FLASH_ATTENTION:true OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:C:\\\\Users\\\\mlt\\\\.ollama\\\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:]"

time=2025-06-23T14:18:35.154-05:00 level=INFO source=images.go:476 msg="total blobs: 30"

time=2025-06-23T14:18:35.159-05:00 level=INFO source=images.go:483 msg="total unused blobs removed: 0"

time=2025-06-23T14:18:35.163-05:00 level=INFO source=routes.go:1288 msg="Listening on 127.0.0.1:11434 (version 0.9.2-8-g2bb69b4-dirty)"

time=2025-06-23T14:18:35.163-05:00 level=INFO source=gpu.go:217 msg="looking for compatible GPUs"

time=2025-06-23T14:18:35.163-05:00 level=INFO source=gpu_windows.go:167 msg=packages count=1

time=2025-06-23T14:18:35.163-05:00 level=INFO source=gpu_windows.go:214 msg="" package=0 cores=4 efficiency=0 threads=8

time=2025-06-23T14:18:36.259-05:00 level=INFO source=types.go:130 msg="inference compute" id=0 library=rocm variant="" compute=gfx1034 driver=6.4 name="AMD Radeon RX 6400" total="4.0 GiB" available="3.8 GiB"

[GIN] 2025/06/23 - 14:19:13 | 200 | 1.0858ms | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/23 - 14:19:13 | 200 | 185.6844ms | 127.0.0.1 | POST "/api/show"

time=2025-06-23T14:19:14.877-05:00 level=INFO source=sched.go:189 msg="one or more GPUs detected that are unable to accurately report free memory - disabling default concurrency"

time=2025-06-23T14:19:15.836-05:00 level=INFO source=sched.go:788 msg="new model will fit in available VRAM in single GPU, loading" model=C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 gpu=0 parallel=2 available=3983867904 required="3.4 GiB"

time=2025-06-23T14:19:16.811-05:00 level=INFO source=server.go:135 msg="system memory" total="24.0 GiB" free="10.5 GiB" free_swap="19.7 GiB"

time=2025-06-23T14:19:17.785-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=37 layers.offload=37 layers.split="" memory.available="[3.7 GiB]" memory.gpu_overhead="0 B" memory.required.full="3.4 GiB" memory.required.partial="3.4 GiB" memory.required.kv="576.0 MiB" memory.required.allocations="[3.4 GiB]" memory.weights.total="1.8 GiB" memory.weights.repeating="1.6 GiB" memory.weights.nonrepeating="243.4 MiB" memory.graph.full="552.0 MiB" memory.graph.partial="680.0 MiB"

time=2025-06-23T14:19:17.786-05:00 level=INFO source=server.go:211 msg="enabling flash attention"

time=2025-06-23T14:19:17.786-05:00 level=WARN source=server.go:219 msg="kv cache type not supported by model" type=""

llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = qwen2

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Qwen2.5 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Qwen2.5

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.license str = other

llama_model_loader: - kv 7: general.license.name str = qwen-research

llama_model_loader: - kv 8: general.license.link str = https://huggingface.co/Qwen/Qwen2.5-3...

llama_model_loader: - kv 9: general.base_model.count u32 = 1

llama_model_loader: - kv 10: general.base_model.0.name str = Qwen2.5 3B

llama_model_loader: - kv 11: general.base_model.0.organization str = Qwen

llama_model_loader: - kv 12: general.base_model.0.repo_url str = https://huggingface.co/Qwen/Qwen2.5-3B

llama_model_loader: - kv 13: general.tags arr[str,2] = ["chat", "text-generation"]

llama_model_loader: - kv 14: general.languages arr[str,1] = ["en"]

llama_model_loader: - kv 15: qwen2.block_count u32 = 36

llama_model_loader: - kv 16: qwen2.context_length u32 = 32768

llama_model_loader: - kv 17: qwen2.embedding_length u32 = 2048

llama_model_loader: - kv 18: qwen2.feed_forward_length u32 = 11008

llama_model_loader: - kv 19: qwen2.attention.head_count u32 = 16

llama_model_loader: - kv 20: qwen2.attention.head_count_kv u32 = 2

llama_model_loader: - kv 21: qwen2.rope.freq_base f32 = 1000000.000000

llama_model_loader: - kv 22: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001

llama_model_loader: - kv 23: general.file_type u32 = 15

llama_model_loader: - kv 24: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 25: tokenizer.ggml.pre str = qwen2

llama_model_loader: - kv 26: tokenizer.ggml.tokens arr[str,151936] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 27: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 28: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...

llama_model_loader: - kv 29: tokenizer.ggml.eos_token_id u32 = 151645

llama_model_loader: - kv 30: tokenizer.ggml.padding_token_id u32 = 151643

llama_model_loader: - kv 31: tokenizer.ggml.bos_token_id u32 = 151643

llama_model_loader: - kv 32: tokenizer.ggml.add_bos_token bool = false

llama_model_loader: - kv 33: tokenizer.chat_template str = {%- if tools %}\n {{- '<|im_start|>...

llama_model_loader: - kv 34: general.quantization_version u32 = 2

llama_model_loader: - type f32: 181 tensors

llama_model_loader: - type q4_K: 216 tensors

llama_model_loader: - type q6_K: 37 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.79 GiB (4.99 BPW)

load: special tokens cache size = 22

load: token to piece cache size = 0.9310 MB

print_info: arch = qwen2

print_info: vocab_only = 1

print_info: model type = ?B

print_info: model params = 3.09 B

print_info: general.name = Qwen2.5 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 151936

print_info: n_merges = 151387

print_info: BOS token = 151643 '<|endoftext|>'

print_info: EOS token = 151645 '<|im_end|>'

print_info: EOT token = 151645 '<|im_end|>'

print_info: PAD token = 151643 '<|endoftext|>'

print_info: LF token = 198 'Ċ'

print_info: FIM PRE token = 151659 '<|fim_prefix|>'

print_info: FIM SUF token = 151661 '<|fim_suffix|>'

print_info: FIM MID token = 151660 '<|fim_middle|>'

print_info: FIM PAD token = 151662 '<|fim_pad|>'

print_info: FIM REP token = 151663 '<|repo_name|>'

print_info: FIM SEP token = 151664 '<|file_sep|>'

print_info: EOG token = 151643 '<|endoftext|>'

print_info: EOG token = 151645 '<|im_end|>'

print_info: EOG token = 151662 '<|fim_pad|>'

print_info: EOG token = 151663 '<|repo_name|>'

print_info: EOG token = 151664 '<|file_sep|>'

print_info: max token length = 256

llama_model_load: vocab only - skipping tensors

time=2025-06-23T14:19:18.263-05:00 level=INFO source=server.go:431 msg="starting llama server" cmd="C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 --ctx-size 16384 --batch-size 512 --n-gpu-layers 37 --threads 4 --flash-attn --parallel 2 --port 50349"

time=2025-06-23T14:19:18.273-05:00 level=INFO source=sched.go:483 msg="loaded runners" count=1

time=2025-06-23T14:19:18.273-05:00 level=INFO source=server.go:591 msg="waiting for llama runner to start responding"

time=2025-06-23T14:19:18.275-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"

time=2025-06-23T14:19:18.368-05:00 level=INFO source=runner.go:815 msg="starting go runner"

ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no

ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no

ggml_cuda_init: found 1 ROCm devices:

Device 0: AMD Radeon RX 6400, gfx1034 (0x1034), VMM: no, Wave Size: 32

load_backend: loaded ROCm backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-hip.dll

load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll

time=2025-06-23T14:19:18.749-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 ROCm.0.NO_VMM=1 ROCm.0.NO_PEER_COPY=1 ROCm.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(gcc)

time=2025-06-23T14:19:18.753-05:00 level=INFO source=runner.go:874 msg="Server listening on 127.0.0.1:50349"

time=2025-06-23T14:19:18.778-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model"

llama_model_load_from_file_impl: using device ROCm0 (AMD Radeon RX 6400) - 3939 MiB free

llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = qwen2

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Qwen2.5 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Qwen2.5

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.license str = other

llama_model_loader: - kv 7: general.license.name str = qwen-research

llama_model_loader: - kv 8: general.license.link str = https://huggingface.co/Qwen/Qwen2.5-3...

llama_model_loader: - kv 9: general.base_model.count u32 = 1

llama_model_loader: - kv 10: general.base_model.0.name str = Qwen2.5 3B

llama_model_loader: - kv 11: general.base_model.0.organization str = Qwen

llama_model_loader: - kv 12: general.base_model.0.repo_url str = https://huggingface.co/Qwen/Qwen2.5-3B

llama_model_loader: - kv 13: general.tags arr[str,2] = ["chat", "text-generation"]

llama_model_loader: - kv 14: general.languages arr[str,1] = ["en"]

llama_model_loader: - kv 15: qwen2.block_count u32 = 36

llama_model_loader: - kv 16: qwen2.context_length u32 = 32768

llama_model_loader: - kv 17: qwen2.embedding_length u32 = 2048

llama_model_loader: - kv 18: qwen2.feed_forward_length u32 = 11008

llama_model_loader: - kv 19: qwen2.attention.head_count u32 = 16

llama_model_loader: - kv 20: qwen2.attention.head_count_kv u32 = 2

llama_model_loader: - kv 21: qwen2.rope.freq_base f32 = 1000000.000000

llama_model_loader: - kv 22: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001

llama_model_loader: - kv 23: general.file_type u32 = 15

llama_model_loader: - kv 24: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 25: tokenizer.ggml.pre str = qwen2

llama_model_loader: - kv 26: tokenizer.ggml.tokens arr[str,151936] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 27: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 28: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...

llama_model_loader: - kv 29: tokenizer.ggml.eos_token_id u32 = 151645

llama_model_loader: - kv 30: tokenizer.ggml.padding_token_id u32 = 151643

llama_model_loader: - kv 31: tokenizer.ggml.bos_token_id u32 = 151643

llama_model_loader: - kv 32: tokenizer.ggml.add_bos_token bool = false

llama_model_loader: - kv 33: tokenizer.chat_template str = {%- if tools %}\n {{- '<|im_start|>...

llama_model_loader: - kv 34: general.quantization_version u32 = 2

llama_model_loader: - type f32: 181 tensors

llama_model_loader: - type q4_K: 216 tensors

llama_model_loader: - type q6_K: 37 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.79 GiB (4.99 BPW)

load: special tokens cache size = 22

load: token to piece cache size = 0.9310 MB

print_info: arch = qwen2

print_info: vocab_only = 0

print_info: n_ctx_train = 32768

print_info: n_embd = 2048

print_info: n_layer = 36

print_info: n_head = 16

print_info: n_head_kv = 2

print_info: n_rot = 128

print_info: n_swa = 0

print_info: n_swa_pattern = 1

print_info: n_embd_head_k = 128

print_info: n_embd_head_v = 128

print_info: n_gqa = 8

print_info: n_embd_k_gqa = 256

print_info: n_embd_v_gqa = 256

print_info: f_norm_eps = 0.0e+00

print_info: f_norm_rms_eps = 1.0e-06

print_info: f_clamp_kqv = 0.0e+00

print_info: f_max_alibi_bias = 0.0e+00

print_info: f_logit_scale = 0.0e+00

print_info: f_attn_scale = 0.0e+00

print_info: n_ff = 11008

print_info: n_expert = 0

print_info: n_expert_used = 0

print_info: causal attn = 1

print_info: pooling type = -1

print_info: rope type = 2

print_info: rope scaling = linear

print_info: freq_base_train = 1000000.0

print_info: freq_scale_train = 1

print_info: n_ctx_orig_yarn = 32768

print_info: rope_finetuned = unknown

print_info: ssm_d_conv = 0

print_info: ssm_d_inner = 0

print_info: ssm_d_state = 0

print_info: ssm_dt_rank = 0

print_info: ssm_dt_b_c_rms = 0

print_info: model type = 3B

print_info: model params = 3.09 B

print_info: general.name = Qwen2.5 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 151936

print_info: n_merges = 151387

print_info: BOS token = 151643 '<|endoftext|>'

print_info: EOS token = 151645 '<|im_end|>'

print_info: EOT token = 151645 '<|im_end|>'

print_info: PAD token = 151643 '<|endoftext|>'

print_info: LF token = 198 'Ċ'

print_info: FIM PRE token = 151659 '<|fim_prefix|>'

print_info: FIM SUF token = 151661 '<|fim_suffix|>'

print_info: FIM MID token = 151660 '<|fim_middle|>'

print_info: FIM PAD token = 151662 '<|fim_pad|>'

print_info: FIM REP token = 151663 '<|repo_name|>'

print_info: FIM SEP token = 151664 '<|file_sep|>'

print_info: EOG token = 151643 '<|endoftext|>'

print_info: EOG token = 151645 '<|im_end|>'

print_info: EOG token = 151662 '<|fim_pad|>'

print_info: EOG token = 151663 '<|repo_name|>'

print_info: EOG token = 151664 '<|file_sep|>'

print_info: max token length = 256

load_tensors: loading model tensors, this can take a while... (mmap = true)

load_tensors: offloading 36 repeating layers to GPU

load_tensors: offloading output layer to GPU

load_tensors: offloaded 37/37 layers to GPU

load_tensors: CPU_Mapped model buffer size = 243.43 MiB

load_tensors: ROCm0 model buffer size = 1834.83 MiB

llama_context: constructing llama_context

llama_context: n_seq_max = 2

llama_context: n_ctx = 16384

llama_context: n_ctx_per_seq = 8192

llama_context: n_batch = 1024

llama_context: n_ubatch = 512

llama_context: causal_attn = 1

llama_context: flash_attn = 1

llama_context: freq_base = 1000000.0

llama_context: freq_scale = 1

llama_context: n_ctx_per_seq (8192) < n_ctx_train (32768) -- the full capacity of the model will not be utilized

llama_context: ROCm_Host output buffer size = 1.17 MiB

llama_kv_cache_unified: kv_size = 16384, type_k = 'f16', type_v = 'f16', n_layer = 36, can_shift = 1, padding = 256

llama_kv_cache_unified: ROCm0 KV buffer size = 576.00 MiB

llama_kv_cache_unified: KV self size = 576.00 MiB, K (f16): 288.00 MiB, V (f16): 288.00 MiB

llama_context: ROCm0 compute buffer size = 300.75 MiB

llama_context: ROCm_Host compute buffer size = 36.01 MiB

llama_context: graph nodes = 1195

llama_context: graph splits = 2

time=2025-06-23T14:19:28.566-05:00 level=INFO source=server.go:630 msg="llama runner started in 10.29 seconds"

[GIN] 2025/06/23 - 14:19:28 | 200 | 14.6728392s | 127.0.0.1 | POST "/api/generate"

[GIN] 2025/06/23 - 14:20:32 | 200 | 42.1578579s | 127.0.0.1 | POST "/api/chat"

[GIN] 2025/06/23 - 14:22:15 | 200 | 567.5µs | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/23 - 14:22:15 | 200 | 0s | 127.0.0.1 | GET "/api/ps"

[GIN] 2025/06/23 - 14:22:17 | 200 | 1m13s | 127.0.0.1 | POST "/api/chat"

time=2025-06-27T13:09:15.701-05:00 level=INFO source=server.go:135 msg="system memory" total="24.0 GiB" free="7.0 GiB" free_swap="13.3 GiB"

time=2025-06-27T13:09:16.700-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=29 layers.offload=23 layers.split="" memory.available="[3.2 GiB]" memory.gpu_overhead="0 B" memory.required.full="3.8 GiB" memory.required.partial="3.1 GiB" memory.required.kv="896.0 MiB" memory.required.allocati GiB]" memory.weights.total="1.9 GiB" memory.weights.repeating="1.6 GiB" memory.weights.n MiB" memory.graph.full="424.0 MiB" memory.graph.partial="570.7 MiB"

time=2025-06-27T13:09:16.701-05:00 level=INFO source=server.go:211 msg="enabling flash attention"

time=2025-06-27T13:09:16.701-05:00 level=WARN source=server.go:219 msg="kv cache type not supported by model" type=""

llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = llama

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Llama 3.2 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Llama-3.2

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam...

llama_model_loader: - kv 7: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ...

llama_model_loader: - kv 8: llama.block_count u32 = 28

llama_model_loader: - kv 9: llama.context_length u32 = 131072

llama_model_loader: - kv 10: llama.embedding_length u32 = 3072

llama_model_loader: - kv 11: llama.feed_forward_length u32 = 8192

llama_model_loader: - kv 12: llama.attention.head_count u32 = 24

llama_model_loader: - kv 13: llama.attention.head_count_kv u32 = 8

llama_model_loader: - kv 14: llama.rope.freq_base f32 = 500000.000000

llama_model_loader: - kv 15: llama.attention.layer_norm_rms_epsilon f32 = 0.000010

llama_model_loader: - kv 16: llama.attention.key_length u32 = 128

llama_model_loader: - kv 17: llama.attention.value_length u32 = 128

llama_model_loader: - kv 18: general.file_type u32 = 15

llama_model_loader: - kv 19: llama.vocab_size u32 = 128256

llama_model_loader: - kv 20: llama.rope.dimension_count u32 = 128

llama_model_loader: - kv 21: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 22: tokenizer.ggml.pre str = llama-bpe

llama_model_loader: - kv 23: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 24: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 25: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...

llama_model_loader: - kv 26: tokenizer.ggml.bos_token_id u32 = 128000

llama_model_loader: - kv 27: tokenizer.ggml.eos_token_id u32 = 128009

llama_model_loader: - kv 28: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ...

llama_model_loader: - kv 29: general.quantization_version u32 = 2

llama_model_loader: - type f32: 58 tensors

llama_model_loader: - type q4_K: 168 tensors

llama_model_loader: - type q6_K: 29 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.87 GiB (5.01 BPW)

load: special tokens cache size = 256

load: token to piece cache size = 0.7999 MB

print_info: arch = llama

print_info: vocab_

print_info: model type = ?B

print_info: model params = 3.21 B

print_info: general.name = Llama 3.2 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 128256

print_info: n_merges = 280147

print_info: BOS token = 128000 '<|begin_of_text|>'

print_info: EOS token = 128009 '<|eot_id|>'

print_info: EOT token = 128009 '<|eot_id|>'

print_info: EOM token = 128008 '<|eom_id|>'

print_info: LF token = 198 'Ċ'

print_info: EOG token = 128008 '<|eom_id|>'

print_info: EOG token = 128009 '<|eot_id|>'

print_info: max token length = 256

llama_model_load: vocab only - skipping tensors

time=2025-06-27T13:09:17.256-05:00 level=INFO source=server.go:431 msg="starting llama server" cmd="C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff --ctx-size 8192 --batch-size 512 --n-gpu-layers 23 --threads 4 --flash-attn --parallel 1 --port 58003"

time=2025-06-27T13:09:17.322-05:00 level=INFO source=sched.go:483 msg="loaded runners" count=1

time=2025-06-27T13:09:17.323-05:00 level=INFO source=server.go:591 msg="waiting for llama runner to start responding"

time=2025-06-27T13:09:17.329-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"

time=2025-06-27T13:09:17.479-05:00 level=INFO source=runner.go:815 msg="starting go runner"

ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no

ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no

ggml_cuda_init: found 1 ROCm devices:

Device 0: AMD Radeon RX 6400, gfx1034 (0x1034), VMM: no, Wave Size: 32

load_backend: loaded ROCm backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-hip.dll

load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll

time=2025-06-27T13:09:18.040-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 ROCm.0.NO_VMM=1 ROCm.0.NO_PEER_COPY=1 ROCm.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(gcc)

time=2025-06-27T13:09:18.045-05:00 level=INFO source=runner.go:874 msg="Server listening on 127.0.0.1:58003"

time=2025-06-27T13:09:18.087-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model"

llama_model_load_from_file_impl: using device ROCm0 (AMD Radeon RX 6400) - 3939 MiB free

llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = llama

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Llama 3.2 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Llama-3.2

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam...

llama_model_loader: - kv 7: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ...

llama_model_loader: - kv 8: llama.block_count u32 = 28

llama_model_loader: - kv 9: llama.context_length u32 = 131072

llama_model_loader: - kv 10: llama.embedding_length u32 = 3072

llama_model_loader: - kv 11: llama.feed_forward_length u32 = 8192

llama_model_loader: - kv 12: llama.attention.head_count u32 = 24

llama_model_loader: - kv 13: llama.attention.head_count_kv u32 = 8

llama_model_loader: - kv 14: llama.rope.freq_base f32 = 500000.000000

llama_model_loader: - kv 15: llama.attention.layer_norm_rms_epsilon f32 = 0.000010

llama_model_loader: - kv 16: llama.attention.key_length u32 = 128

llama_model_loader: - kv 17: llama.attention.value_length u32 = 128

llama_model_loader: - kv 18: general.file_type u32 = 15

llama_model_loader: - kv 19: llama.vocab_size u32 = 128256

llama_model_loader: - kv 20: llama.rope.dimension_count u32 = 128

llama_model_loader: - kv 21: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 22: tokenizer.ggml.pre str = llama-bpe

llama_model_loader: - kv 23: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 24: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 25: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...

llama_model_loader: - kv 26: tokenizer.ggml.bos_token_id u32 = 128000

llama_model_loader: - kv 27: tokenizer.ggml.eos_token_id u32 = 128009

llama_model_loader: - kv 28: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ...

llama_model_loader: - kv 29: general.quantization_version u32 = 2

llama_model_loader: - type f32: 58 tensors

llama_model_loader: - type q4_K: 168 tensors

llama_model_loader: - type q6_K: 29 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.87 GiB (5.01 BPW)

load: special tokens cache size = 256

load: token to piece cache size = 0.7999 MB

print_info: arch = llama

print_info: vocab_only = 0

print_info: n_ctx_train = 131072

print_info: n_embd = 3072

print_info: n_layer = 28

print_info: n_head = 24

print_info: n_head_kv = 8

print_info: n_rot = 128

print_info: n_swa = 0

print_info: n_swa_pattern = 1

print_info: n_embd_head_k = 128

print_info: n_embd_head_v = 128

print_info: n_gqa = 3

print_info: n_embd_k_gqa = 1024

print_info: n_embd_v_gqa = 1024

print_info: f_norm_eps = 0.0e+00

print_info: f_norm_rms_eps = 1.0e-05

print_info: f_clamp_kqv = 0.0e+00

print_info: f_max_alibi_bias = 0.0e+00

print_info: f_logit_scale = 0.0e+00

print_info: f_attn_scale = 0.0e+00

print_info: n_ff = 8192

print_info: n_expert = 0

print_info: n_expert_used = 0

print_info: causal attn = 1

print_info: pooling type = 0

print_info: rope type = 0

print_info: rope scaling = linear

print_info: freq_base_train = 500000.0

print_info: freq_scale_train = 1

print_info: n_ctx_orig_yarn = 131072

print_info: rope_finetuned = unknown

print_info: ssm_d_conv = 0

print_info: ssm_d_inner = 0

print_info: ssm_d_state = 0

print_info: ssm_dt_rank = 0

print_info: ssm_dt_b_c_rms = 0

print_info: model type = 3B

print_info: model params = 3.21 B

print_info: general.name = Llama 3.2 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 128256

print_info: n_merges = 280147

print_info: BOS token = 128000 '<|begin_of_text|>'

print_info: EOS token = 128009 '<|eot_id|>'

print_info: EOT token = 128009 '<|eot_id|>'

print_info: EOM token = 128008 '<|eom_id|>'

print_info: LF token = 198 'Ċ'

print_info: EOG token = 128008 '<|eom_id|>'

print_info: EOG token = 128009 '<|eot_id|>'

print_info: max token length = 256

load_tensors: loading model tensors, this can take a while... (mmap = true)

load_tensors: offloading 23 repeating layers to GPU

load_tensors: offloaded 23/29 layers to GPU

load_tensors: ROCm0 model buffer size = 1319.11 MiB

load_tensors: CPU_Mapped model buffer size = 1918.35 MiB

llama_context: constructing llama_context

llama_context: n_seq_max = 1

llama_context: n_ctx = 8192

llama_context: n_ctx_per_seq = 8192

llama_context: n_batch = 512

llama_context: n_ubatch = 512

llama_context: causal_attn = 1

llama_context: flash_attn = 1

llama_context: freq_base = 500000.0

llama_context: freq_scale = 1

llama_context: n_ctx_per_seq (8192) < n_ctx_train (131072) -- the full capacity of the model will not be utilized

llama_context: CPU output buffer size = 0.50 MiB

llama_kv_cache_unified: kv_size = 8192, type_k = 'f16', type_v = 'f16', n_layer = 28, can_shift = 1, padding = 256

llama_kv_cache_unified: ROCm0 KV buffer size = 736.00 MiB

llama_kv_cache_unified: CPU KV buffer size = 160.00 MiB

llama_kv_cache_unified: KV self size = 896.00 MiB, K (f16): 448.00 MiB, V (f16): 448.00 MiB

llama_context: ROCm0 compute buffer size = 564.73 MiB

llama_context: ROCm_Host compute buffer size = 22.01 MiB

llama_context: graph nodes = 847

llama_context: graph splits = 60 (with bs=512), 3 (with bs=1)

time=2025-06-27T13:09:28.121-05:00 level=INFO source=server.go:630 msg="llama runner started in 10.80 seconds"

time=2025-06-27T13:09:28.178-05:00 level=WARN source=runner.go:128 msg="truncating input prompt" limit=8192 prompt=30805 keep=5 new=8192

[GIN] 2025/06/27 - 13:10:07 | 200 | 2.2901ms | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/27 - 13:10:07 | 200 | 546.3µs | 127.0.0.1 | GET "/api/ps"

[GIN] 2025/06/27 - 13:18:55 | 200 | 9m49s | 127.0.0.1 | POST "/api/chat"

[GIN] 2025/06/27 - 13:19:07 | 200 | 0s | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/27 - 13:19:07 | 200 | 0s | 127.0.0.1 | GET "/api/ps"

[GIN] 2025/06/27 - 13:20:06 | 200 | 0s | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/27 - 13:20:06 | 200 | 0s | 127.0.0.1 | GET "/api/ps"

[GIN] 2025/06/27 - 13:20:15 | 200 | 551.1µs | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/27 - 13:20:15 | 200 | 8.5213ms | 127.0.0.1 | POST "/api/generate"

[GIN] 2025/06/27 - 13:20:19 | 200 | 0s | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/27 - 13:20:19 | 200 | 0s | 127.0.0.1 | GET "/api/ps"

time=2025-06-27T13:22:38.384-05:00 level=INFO source=server.go:135 msg="system memory" total="24.0 GiB" free="7.6 GiB" free_swap="12.2 GiB"

time=2025-06-27T13:22:39.446-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=29 layers.offload=12 layers.split="" memory.available="[2.2 GiB]" memory.gpu_overhead="0 B" memory.required.full="3.8 GiB" memory.required.partial="2.2 GiB" memory.required.kv="896.0 MiB" memory.required.allocati GiB]" memory.weights.total="1.9 GiB" memory.weights.repeating="1.6 GiB" memory.weights.n MiB" memory.graph.full="424.0 MiB" memory.graph.partial="570.7 MiB"

time=2025-06-27T13:22:39.446-05:00 level=INFO source=server.go:211 msg="enabling flash attention"

time=2025-06-27T13:22:39.446-05:00 level=WARN source=server.go:219 msg="kv cache type not supported by model" type=""

llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = llama

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Llama 3.2 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Llama-3.2

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam...

llama_model_loader: - kv 7: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ...

llama_model_loader: - kv 8: llama.block_count u32 = 28

llama_model_loader: - kv 9: llama.context_length u32 = 131072

llama_model_loader: - kv 10: llama.embedding_length u32 = 3072

llama_model_loader: - kv 11: llama.feed_forward_length u32 = 8192

llama_model_loader: - kv 12: llama.attention.head_count u32 = 24

llama_model_loader: - kv 13: llama.attention.head_count_kv u32 = 8

llama_model_loader: - kv 14: llama.rope.freq_base f32 = 500000.000000

llama_model_loader: - kv 15: llama.attention.layer_norm_rms_epsilon f32 = 0.000010

llama_model_loader: - kv 16: llama.attention.key_length u32 = 128

llama_model_loader: - kv 17: llama.attention.value_length u32 = 128

llama_model_loader: - kv 18: general.file_type u32 = 15

llama_model_loader: - kv 19: llama.vocab_size u32 = 128256

llama_model_loader: - kv 20: llama.rope.dimension_count u32 = 128

llama_model_loader: - kv 21: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 22: tokenizer.ggml.pre str = llama-bpe

llama_model_loader: - kv 23: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 24: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 25: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...

llama_model_loader: - kv 26: tokenizer.ggml.bos_token_id u32 = 128000

llama_model_loader: - kv 27: tokenizer.ggml.eos_token_id u32 = 128009

llama_model_loader: - kv 28: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ...

llama_model_loader: - kv 29: general.quantization_version u32 = 2

llama_model_loader: - type f32: 58 tensors

llama_model_loader: - type q4_K: 168 tensors

llama_model_loader: - type q6_K: 29 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.87 GiB (5.01 BPW)

load: special tokens cache size = 256

load: token to piece cache size = 0.7999 MB

print_info: arch = llama

print_info: vocab_

print_info: model type = ?B

print_info: model params = 3.21 B

print_info: general.name = Llama 3.2 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 128256

print_info: n_merges = 280147

print_info: BOS token = 128000 '<|begin_of_text|>'

print_info: EOS token = 128009 '<|eot_id|>'

print_info: EOT token = 128009 '<|eot_id|>'

print_info: EOM token = 128008 '<|eom_id|>'

print_info: LF token = 198 'Ċ'

print_info: EOG token = 128008 '<|eom_id|>'

print_info: EOG token = 128009 '<|eot_id|>'

print_info: max token length = 256

llama_model_load: vocab only - skipping tensors

time=2025-06-27T13:22:39.927-05:00 level=INFO source=server.go:431 msg="starting llama server" cmd="C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff --ctx-size 8192 --batch-size 512 --n-gpu-layers 12 --threads 4 --flash-attn --parallel 1 --port 58424"

time=2025-06-27T13:22:39.936-05:00 level=INFO source=sched.go:483 msg="loaded runners" count=1

time=2025-06-27T13:22:39.936-05:00 level=INFO source=server.go:591 msg="waiting for llama runner to start responding"

time=2025-06-27T13:22:39.937-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"

time=2025-06-27T13:22:40.027-05:00 level=INFO source=runner.go:815 msg="starting go runner"

ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no

ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no

ggml_cuda_init: found 1 ROCm devices:

Device 0: AMD Radeon RX 6400, gfx1034 (0x1034), VMM: no, Wave Size: 32

load_backend: loaded ROCm backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-hip.dll

load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll

time=2025-06-27T13:22:40.132-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 ROCm.0.NO_VMM=1 ROCm.0.NO_PEER_COPY=1 ROCm.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(gcc)

time=2025-06-27T13:22:40.134-05:00 level=INFO source=runner.go:874 msg="Server listening on 127.0.0.1:58424"

time=2025-06-27T13:22:40.190-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model"

llama_model_load_from_file_impl: using device ROCm0 (AMD Radeon RX 6400) - 3939 MiB free

llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = llama

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Llama 3.2 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Llama-3.2

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam...

llama_model_loader: - kv 7: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ...

llama_model_loader: - kv 8: llama.block_count u32 = 28

llama_model_loader: - kv 9: llama.context_length u32 = 131072

llama_model_loader: - kv 10: llama.embedding_length u32 = 3072

llama_model_loader: - kv 11: llama.feed_forward_length u32 = 8192

llama_model_loader: - kv 12: llama.attention.head_count u32 = 24

llama_model_loader: - kv 13: llama.attention.head_count_kv u32 = 8

llama_model_loader: - kv 14: llama.rope.freq_base f32 = 500000.000000

llama_model_loader: - kv 15: llama.attention.layer_norm_rms_epsilon f32 = 0.000010

llama_model_loader: - kv 16: llama.attention.key_length u32 = 128

llama_model_loader: - kv 17: llama.attention.value_length u32 = 128

llama_model_loader: - kv 18: general.file_type u32 = 15

llama_model_loader: - kv 19: llama.vocab_size u32 = 128256

llama_model_loader: - kv 20: llama.rope.dimension_count u32 = 128

llama_model_loader: - kv 21: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 22: tokenizer.ggml.pre str = llama-bpe

llama_model_loader: - kv 23: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 24: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 25: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...

llama_model_loader: - kv 26: tokenizer.ggml.bos_token_id u32 = 128000

llama_model_loader: - kv 27: tokenizer.ggml.eos_token_id u32 = 128009

llama_model_loader: - kv 28: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ...

llama_model_loader: - kv 29: general.quantization_version u32 = 2

llama_model_loader: - type f32: 58 tensors

llama_model_loader: - type q4_K: 168 tensors

llama_model_loader: - type q6_K: 29 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.87 GiB (5.01 BPW)

load: special tokens cache size = 256

load: token to piece cache size = 0.7999 MB

print_info: arch = llama

print_info: vocab_only = 0

print_info: n_ctx_train = 131072

print_info: n_embd = 3072

print_info: n_layer = 28

print_info: n_head = 24

print_info: n_head_kv = 8

print_info: n_rot = 128

print_info: n_swa = 0

print_info: n_swa_pattern = 1

print_info: n_embd_head_k = 128

print_info: n_embd_head_v = 128

print_info: n_gqa = 3

print_info: n_embd_k_gqa = 1024

print_info: n_embd_v_gqa = 1024

print_info: f_norm_eps = 0.0e+00

print_info: f_norm_rms_eps = 1.0e-05

print_info: f_clamp_kqv = 0.0e+00

print_info: f_max_alibi_bias = 0.0e+00

print_info: f_logit_scale = 0.0e+00

print_info: f_attn_scale = 0.0e+00

print_info: n_ff = 8192

print_info: n_expert = 0

print_info: n_expert_used = 0

print_info: causal attn = 1

print_info: pooling type = 0

print_info: rope type = 0

print_info: rope scaling = linear

print_info: freq_base_train = 500000.0

print_info: freq_scale_train = 1

print_info: n_ctx_orig_yarn = 131072

print_info: rope_finetuned = unknown

print_info: ssm_d_conv = 0

print_info: ssm_d_inner = 0

print_info: ssm_d_state = 0

print_info: ssm_dt_rank = 0

print_info: ssm_dt_b_c_rms = 0

print_info: model type = 3B

print_info: model params = 3.21 B

print_info: general.name = Llama 3.2 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 128256

print_info: n_merges = 280147

print_info: BOS token = 128000 '<|begin_of_text|>'

print_info: EOS token = 128009 '<|eot_id|>'

print_info: EOT token = 128009 '<|eot_id|>'

print_info: EOM token = 128008 '<|eom_id|>'

print_info: LF token = 198 'Ċ'

print_info: EOG token = 128008 '<|eom_id|>'

print_info: EOG token = 128009 '<|eot_id|>'

print_info: max token length = 256

load_tensors: loading model tensors, this can take a while... (mmap = true)

load_tensors: offloading 12 repeating layers to GPU

load_tensors: offloaded 12/29 layers to GPU

load_tensors: CPU_Mapped model buffer size = 1918.35 MiB

load_tensors: ROCm0 model buffer size = 703.20 MiB

llama_context: constructing llama_context

llama_context: n_seq_max = 1

llama_context: n_ctx = 8192

llama_context: n_ctx_per_seq = 8192

llama_context: n_batch = 512

llama_context: n_ubatch = 512

llama_context: causal_attn = 1

llama_context: flash_attn = 1

llama_context: freq_base = 500000.0

llama_context: freq_scale = 1

llama_context: n_ctx_per_seq (8192) < n_ctx_train (131072) -- the full capacity of the model will not be utilized

llama_context: CPU output buffer size = 0.50 MiB

llama_kv_cache_unified: kv_size = 8192, type_k = 'f16', type_v = 'f16', n_layer = 28, can_shift = 1, padding = 256

llama_kv_cache_unified: CPU KV buffer size = 512.00 MiB

llama_kv_cache_unified: ROCm0 KV buffer size = 384.00 MiB

llama_kv_cache_unified: KV self size = 896.00 MiB, K (f16): 448.00 MiB, V (f16): 448.00 MiB

llama_context: ROCm0 compute buffer size = 564.73 MiB

llama_context: ROCm_Host compute buffer size = 22.01 MiB

llama_context: graph nodes = 847

llama_context: graph splits = 181 (with bs=512), 3 (with bs=1)

time=2025-06-27T13:22:47.212-05:00 level=INFO source=server.go:630 msg="llama runner started in 7.28 seconds"

[GIN] 2025/06/27 - 13:30:58 | 200 | 8m26s | 127.0.0.1 | POST "/api/chat"

time=2025-06-27T13:31:08.737-05:00 level=INFO source=server.go:135 msg="system memory" total="24.0 GiB" free="7.6 GiB" free_swap="10.7 GiB"

time=2025-06-27T13:31:10.166-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=37 layers.offload=0 layers.split="" memory.available="[1.2 GiB]" memory.gpu_overhead="0 B" memory.required.full="2.9 GiB" memory.required.partial="0 B" memory.required.kv="1.1 GiB" memory.required.allocati B]" memory.weights.total="1.8 GiB" memory.weights.repeating="1.6 GiB" memory.weights.n MiB" memory.graph.full="1.1 GiB" memory.graph.partial="1.3 GiB"

time=2025-06-27T13:31:10.166-05:00 level=WARN source=server.go:199 msg="flash attention enabled but not supported by gpu"

llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = qwen2

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Qwen2.5 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Qwen2.5

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.license str = other

llama_model_loader: - kv 7: general.license.name str = qwen-research

llama_model_loader: - kv 8: general.license.link str = https://huggingface.co/Qwen/Qwen2.5-3...

llama_model_loader: - kv 9: general.base_model.count u32 = 1

llama_model_loader: - kv 10: general.base_model.0.name str = Qwen2.5 3B

llama_model_loader: - kv 11: general.base_model.0.organization str = Qwen

llama_model_loader: - kv 12: general.base_model.0.repo_url str = https://huggingface.co/Qwen/Qwen2.5-3B

llama_model_loader: - kv 13: general.tags arr[str,2] = ["chat", "text-generation"]

llama_model_loader: - kv 14: general.languages arr[str,1] = ["en"]

llama_model_loader: - kv 15: qwen2.block_count u32 = 36

llama_model_loader: - kv 16: qwen2.context_length u32 = 32768

llama_model_loader: - kv 17: qwen2.embedding_length u32 = 2048

llama_model_loader: - kv 18: qwen2.feed_forward_length u32 = 11008

llama_model_loader: - kv 19: qwen2.attention.head_count u32 = 16

llama_model_loader: - kv 20: qwen2.attention.head_count_kv u32 = 2

llama_model_loader: - kv 21: qwen2.rope.freq_base f32 = 1000000.000000

llama_model_loader: - kv 22: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001

llama_model_loader: - kv 23: general.file_type u32 = 15

llama_model_loader: - kv 24: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 25: tokenizer.ggml.pre str = qwen2

llama_model_loader: - kv 26: tokenizer.ggml.tokens arr[str,151936] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 27: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 28: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...

llama_model_loader: - kv 29: tokenizer.ggml.eos_token_id u32 = 151645

llama_model_loader: - kv 30: tokenizer.ggml.padding_token_id u32 = 151643

llama_model_loader: - kv 31: tokenizer.ggml.bos_token_id u32 = 151643

llama_model_loader: - kv 32: tokenizer.ggml.add_bos_token bool = false

llama_model_loader: - kv 33: tokenizer.chat_template str = {%- if tools %}\n {{- '<|im_start|>...

llama_model_loader: - kv 34: general.quantization_version u32 = 2

llama_model_loader: - type f32: 181 tensors

llama_model_loader: - type q4_K: 216 tensors

llama_model_loader: - type q6_K: 37 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.79 GiB (4.99 BPW)

load: special tokens cache size = 22

load: token to piece cache size = 0.9310 MB

print_info: arch = qwen2

print_info: vocab_only = 1

print_info: model type = ?B

print_info: model params = 3.09 B

print_info: general.name = Qwen2.5 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 151936

print_info: n_merges = 151387

print_info: BOS token = 151643 '<|endoftext|>'

print_info: EOS token = 151645 '<|im_end|>'

print_info: EOT token = 151645 '<|im_end|>'

print_info: PAD token = 151643 '<|endoftext|>'

print_info: LF token = 198 'Ċ'

print_info: FIM PRE token = 151659 '<|fim_prefix|>'

print_info: FIM SUF token = 151661 '<|fim_suffix|>'

print_info: FIM MID token = 151660 '<|fim_middle|>'

print_info: FIM PAD token = 151662 '<|fim_pad|>'

print_info: FIM REP token = 151663 '<|repo_name|>'

print_info: FIM SEP token = 151664 '<|file_sep|>'

print_info: EOG token = 151643 '<|endoftext|>'

print_info: EOG token = 151645 '<|im_end|>'

print_info: EOG token = 151662 '<|fim_pad|>'

print_info: EOG token = 151663 '<|repo_name|>'

print_info: EOG token = 151664 '<|file_sep|>'

print_info: max token length = 256

llama_model_load: vocab only - skipping tensors

time=2025-06-27T13:31:10.883-05:00 level=INFO source=server.go:431 msg="starting llama server" cmd="C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 --ctx-size 32768 --batch-size 512 --threads 4 --no-mmap --parallel 1 --port 58892"

time=2025-06-27T13:31:10.896-05:00 level=INFO source=sched.go:483 msg="loaded runners" count=1

time=2025-06-27T13:31:10.896-05:00 level=INFO source=server.go:591 msg="waiting for llama runner to start responding"

time=2025-06-27T13:31:10.900-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"

time=2025-06-27T13:31:11.037-05:00 level=INFO source=runner.go:815 msg="starting go runner"

load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll

time=2025-06-27T13:31:11.126-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 compiler=cgo(gcc)

time=2025-06-27T13:31:11.129-05:00 level=INFO source=runner.go:874 msg="Server listening on 127.0.0.1:58892"

time=2025-06-27T13:31:11.155-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model"

llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = qwen2

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Qwen2.5 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Qwen2.5

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.license str = other

llama_model_loader: - kv 7: general.license.name str = qwen-research

llama_model_loader: - kv 8: general.license.link str = https://huggingface.co/Qwen/Qwen2.5-3...

llama_model_loader: - kv 9: general.base_model.count u32 = 1

llama_model_loader: - kv 10: general.base_model.0.name str = Qwen2.5 3B

llama_model_loader: - kv 11: general.base_model.0.organization str = Qwen

llama_model_loader: - kv 12: general.base_model.0.repo_url str = https://huggingface.co/Qwen/Qwen2.5-3B

llama_model_loader: - kv 13: general.tags arr[str,2] = ["chat", "text-generation"]

llama_model_loader: - kv 14: general.languages arr[str,1] = ["en"]

llama_model_loader: - kv 15: qwen2.block_count u32 = 36

llama_model_loader: - kv 16: qwen2.context_length u32 = 32768

llama_model_loader: - kv 17: qwen2.embedding_length u32 = 2048

llama_model_loader: - kv 18: qwen2.feed_forward_length u32 = 11008

llama_model_loader: - kv 19: qwen2.attention.head_count u32 = 16

llama_model_loader: - kv 20: qwen2.attention.head_count_kv u32 = 2

llama_model_loader: - kv 21: qwen2.rope.freq_base f32 = 1000000.000000

llama_model_loader: - kv 22: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001

llama_model_loader: - kv 23: general.file_type u32 = 15

llama_model_loader: - kv 24: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 25: tokenizer.ggml.pre str = qwen2

llama_model_loader: - kv 26: tokenizer.ggml.tokens arr[str,151936] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 27: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 28: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...

llama_model_loader: - kv 29: tokenizer.ggml.eos_token_id u32 = 151645

llama_model_loader: - kv 30: tokenizer.ggml.padding_token_id u32 = 151643

llama_model_loader: - kv 31: tokenizer.ggml.bos_token_id u32 = 151643

llama_model_loader: - kv 32: tokenizer.ggml.add_bos_token bool = false

llama_model_loader: - kv 33: tokenizer.chat_template str = {%- if tools %}\n {{- '<|im_start|>...

llama_model_loader: - kv 34: general.quantization_version u32 = 2

llama_model_loader: - type f32: 181 tensors

llama_model_loader: - type q4_K: 216 tensors

llama_model_loader: - type q6_K: 37 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.79 GiB (4.99 BPW)

load: special tokens cache size = 22

load: token to piece cache size = 0.9310 MB

print_info: arch = qwen2

print_info: vocab_only = 0

print_info: n_ctx_train = 32768

print_info: n_embd = 2048

print_info: n_layer = 36

print_info: n_head = 16

print_info: n_head_kv = 2

print_info: n_rot = 128

print_info: n_swa = 0

print_info: n_swa_pattern = 1

print_info: n_embd_head_k = 128

print_info: n_embd_head_v = 128

print_info: n_gqa = 8

print_info: n_embd_k_gqa = 256

print_info: n_embd_v_gqa = 256

print_info: f_norm_eps = 0.0e+00

print_info: f_norm_rms_eps = 1.0e-06

print_info: f_clamp_kqv = 0.0e+00

print_info: f_max_alibi_bias = 0.0e+00

print_info: f_logit_scale = 0.0e+00

print_info: f_attn_scale = 0.0e+00

print_info: n_ff = 11008

print_info: n_expert = 0

print_info: n_expert_used = 0

print_info: causal attn = 1

print_info: pooling type = -1

print_info: rope type = 2

print_info: rope scaling = linear

print_info: freq_base_train = 1000000.0

print_info: freq_scale_train = 1

print_info: n_ctx_orig_yarn = 32768

print_info: rope_finetuned = unknown

print_info: ssm_d_conv = 0

print_info: ssm_d_inner = 0

print_info: ssm_d_state = 0

print_info: ssm_dt_rank = 0

print_info: ssm_dt_b_c_rms = 0

print_info: model type = 3B

print_info: model params = 3.09 B

print_info: general.name = Qwen2.5 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 151936

print_info: n_merges = 151387

print_info: BOS token = 151643 '<|endoftext|>'

print_info: EOS token = 151645 '<|im_end|>'

print_info: EOT token = 151645 '<|im_end|>'

print_info: PAD token = 151643 '<|endoftext|>'

print_info: LF token = 198 'Ċ'

print_info: FIM PRE token = 151659 '<|fim_prefix|>'

print_info: FIM SUF token = 151661 '<|fim_suffix|>'

print_info: FIM MID token = 151660 '<|fim_middle|>'

print_info: FIM PAD token = 151662 '<|fim_pad|>'

print_info: FIM REP token = 151663 '<|repo_name|>'

print_info: FIM SEP token = 151664 '<|file_sep|>'

print_info: EOG token = 151643 '<|endoftext|>'

print_info: EOG token = 151645 '<|im_end|>'

print_info: EOG token = 151662 '<|fim_pad|>'

print_info: EOG token = 151663 '<|repo_name|>'

print_info: EOG token = 151664 '<|file_sep|>'

print_info: max token length = 256

load_tensors: loading model tensors, this can take a while... (mmap = false)

load_tensors: CPU model buffer size = 1834.82 MiB

llama_context: constructing llama_context

llama_context: n_seq_max = 1

llama_context: n_ctx = 32768

llama_context: n_ctx_per_seq = 32768

llama_context: n_batch = 512

llama_context: n_ubatch = 512

llama_context: causal_attn = 1

llama_context: flash_attn = 0

llama_context: freq_base = 1000000.0

llama_context: freq_scale = 1

llama_context: CPU output buffer size = 0.59 MiB

llama_kv_cache_unified: kv_size = 32768, type_k = 'f16', type_v = 'f16', n_layer = 36, can_shift = 1, padding = 32

llama_kv_cache_unified: CPU KV buffer size = 1152.00 MiB

llama_kv_cache_unified: KV self size = 1152.00 MiB, K (f16): 576.00 MiB, V (f16): 576.00 MiB

llama_context: CPU compute buffer size = 1104.01 MiB

llama_context: graph nodes = 1338

llama_context: graph splits = 1

time=2025-06-27T13:31:16.704-05:00 level=INFO source=server.go:630 msg="llama runner started in 5.81 seconds"

[GIN] 2025/06/27 - 13:40:23 | 200 | 0s | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/27 - 13:40:23 | 200 | 0s | 127.0.0.1 | GET "/api/ps"

[GIN] 2025/06/27 - 14:00:08 | 200 | 29m8s | 127.0.0.1 | POST "/api/chat"

time=2025-06-27T14:59:12.959-05:00 level=INFO source=server.go:135 msg="system memory" total="24.0 GiB" free="1.5 GiB" free_swap="4.8 GiB"

time=2025-06-27T14:59:14.103-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=29 layers.offload=0 layers.split="" memory.available="[290.7 MiB]" memory.gpu_overhead="0 B" memory.required.full="2.7 GiB" memory.required.partial="0 B" memory.required.kv="896.0 MiB" memory.required.allocations="[0 B]" memory.weights.total="1.9 GiB" memory.weights.repeating="1.6 GiB" memory.weights.nonrepeating="308.2 MiB" memory.graph.full="424.0 MiB" memory.graph.partial="570.7 MiB"

time=2025-06-27T14:59:14.103-05:00 level=WARN source=server.go:199 msg="flash attention enabled but not supported by gpu"

llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = llama

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Llama 3.2 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Llama-3.2

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam...

llama_model_loader: - kv 7: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ...

llama_model_loader: - kv 8: llama.block_count u32 = 28

llama_model_loader: - kv 9: llama.context_length u32 = 131072

llama_model_loader: - kv 10: llama.embedding_length u32 = 3072

llama_model_loader: - kv 11: llama.feed_forward_length u32 = 8192

llama_model_loader: - kv 12: llama.attention.head_count u32 = 24

llama_model_loader: - kv 13: llama.attention.head_count_kv u32 = 8

llama_model_loader: - kv 14: llama.rope.freq_base f32 = 500000.000000

llama_model_loader: - kv 15: llama.attention.layer_norm_rms_epsilon f32 = 0.000010

llama_model_loader: - kv 16: llama.attention.key_length u32 = 128

llama_model_loader: - kv 17: llama.attention.value_length u32 = 128

llama_model_loader: - kv 18: general.file_type u32 = 15

llama_model_loader: - kv 19: llama.vocab_size u32 = 128256

llama_model_loader: - kv 20: llama.rope.dimension_count u32 = 128

llama_model_loader: - kv 21: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 22: tokenizer.ggml.pre str = llama-bpe

llama_model_loader: - kv 23: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 24: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 25: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...

llama_model_loader: - kv 26: tokenizer.ggml.bos_token_id u32 = 128000

llama_model_loader: - kv 27: tokenizer.ggml.eos_token_id u32 = 128009

llama_model_loader: - kv 28: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ...

llama_model_loader: - kv 29: general.quantization_version u32 = 2

llama_model_loader: - type f32: 58 tensors

llama_model_loader: - type q4_K: 168 tensors

llama_model_loader: - type q6_K: 29 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.87 GiB (5.01 BPW)

load: special tokens cache size = 256

load: token to piece cache size = 0.7999 MB

print_info: arch = llama

print_info: vocab_only = 1

print_info: model type = ?B

print_info: model params = 3.21 B

print_info: general.name = Llama 3.2 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 128256

print_info: n_merges = 280147

print_info: BOS token = 128000 '<|begin_of_text|>'

print_info: EOS token = 128009 '<|eot_id|>'

print_info: EOT token = 128009 '<|eot_id|>'

print_info: EOM token = 128008 '<|eom_id|>'

print_info: LF token = 198 'Ċ'

print_info: EOG token = 128008 '<|eom_id|>'

print_info: EOG token = 128009 '<|eot_id|>'

print_info: max token length = 256

llama_model_load: vocab only - skipping tensors

time=2025-06-27T14:59:14.720-05:00 level=INFO source=server.go:431 msg="starting llama server" cmd="C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff --ctx-size 8192 --batch-size 512 --threads 4 --no-mmap --parallel 1 --port 63871"

time=2025-06-27T14:59:14.731-05:00 level=INFO source=sched.go:483 msg="loaded runners" count=1

time=2025-06-27T14:59:14.731-05:00 level=INFO source=server.go:591 msg="waiting for llama runner to start responding"

time=2025-06-27T14:59:14.731-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"

time=2025-06-27T14:59:14.921-05:00 level=INFO source=runner.go:815 msg="starting go runner"

load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll

time=2025-06-27T14:59:15.002-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 compiler=cgo(gcc)

time=2025-06-27T14:59:15.007-05:00 level=INFO source=runner.go:874 msg="Server listening on 127.0.0.1:63871"

llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))

llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.

llama_model_loader: - kv 0: general.architecture str = llama

llama_model_loader: - kv 1: general.type str = model

llama_model_loader: - kv 2: general.name str = Llama 3.2 3B Instruct

llama_model_loader: - kv 3: general.finetune str = Instruct

llama_model_loader: - kv 4: general.basename str = Llama-3.2

llama_model_loader: - kv 5: general.size_label str = 3B

llama_model_loader: - kv 6: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam...

llama_model_loader: - kv 7: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ...

llama_model_loader: - kv 8: llama.block_count u32 = 28

llama_model_loader: - kv 9: llama.context_length u32 = 131072

llama_model_loader: - kv 10: llama.embedding_length u32 = 3072

llama_model_loader: - kv 11: llama.feed_forward_length u32 = 8192

llama_model_loader: - kv 12: llama.attention.head_count u32 = 24

llama_model_loader: - kv 13: llama.attention.head_count_kv u32 = 8

llama_model_loader: - kv 14: llama.rope.freq_base f32 = 500000.000000

llama_model_loader: - kv 15: llama.attention.layer_norm_rms_epsilon f32 = 0.000010

llama_model_loader: - kv 16: llama.attention.key_length u32 = 128

llama_model_loader: - kv 17: llama.attention.value_length u32 = 128

llama_model_loader: - kv 18: general.file_type u32 = 15

llama_model_loader: - kv 19: llama.vocab_size u32 = 128256

llama_model_loader: - kv 20: llama.rope.dimension_count u32 = 128

llama_model_loader: - kv 21: tokenizer.ggml.model str = gpt2

llama_model_loader: - kv 22: tokenizer.ggml.pre str = llama-bpe

llama_model_loader: - kv 23: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ...

llama_model_loader: - kv 24: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

llama_model_loader: - kv 25: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...

llama_model_loader: - kv 26: tokenizer.ggml.bos_token_id u32 = 128000

llama_model_loader: - kv 27: tokenizer.ggml.eos_token_id u32 = 128009

llama_model_loader: - kv 28: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ...

llama_model_loader: - kv 29: general.quantization_version u32 = 2

llama_model_loader: - type f32: 58 tensors

llama_model_loader: - type q4_K: 168 tensors

llama_model_loader: - type q6_K: 29 tensors

print_info: file format = GGUF V3 (latest)

print_info: file type = Q4_K - Medium

print_info: file size = 1.87 GiB (5.01 BPW)

time=2025-06-27T14:59:15.237-05:00 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model"

load: special tokens cache size = 256

load: token to piece cache size = 0.7999 MB

print_info: arch = llama

print_info: vocab_only = 0

print_info: n_ctx_train = 131072

print_info: n_embd = 3072

print_info: n_layer = 28

print_info: n_head = 24

print_info: n_head_kv = 8

print_info: n_rot = 128

print_info: n_swa = 0

print_info: n_swa_pattern = 1

print_info: n_embd_head_k = 128

print_info: n_embd_head_v = 128

print_info: n_gqa = 3

print_info: n_embd_k_gqa = 1024

print_info: n_embd_v_gqa = 1024

print_info: f_norm_eps = 0.0e+00

print_info: f_norm_rms_eps = 1.0e-05

print_info: f_clamp_kqv = 0.0e+00

print_info: f_max_alibi_bias = 0.0e+00

print_info: f_logit_scale = 0.0e+00

print_info: f_attn_scale = 0.0e+00

print_info: n_ff = 8192

print_info: n_expert = 0

print_info: n_expert_used = 0

print_info: causal attn = 1

print_info: pooling type = 0

print_info: rope type = 0

print_info: rope scaling = linear

print_info: freq_base_train = 500000.0

print_info: freq_scale_train = 1

print_info: n_ctx_orig_yarn = 131072

print_info: rope_finetuned = unknown

print_info: ssm_d_conv = 0

print_info: ssm_d_inner = 0

print_info: ssm_d_state = 0

print_info: ssm_dt_rank = 0

print_info: ssm_dt_b_c_rms = 0

print_info: model type = 3B

print_info: model params = 3.21 B

print_info: general.name = Llama 3.2 3B Instruct

print_info: vocab type = BPE

print_info: n_vocab = 128256

print_info: n_merges = 280147

print_info: BOS token = 128000 '<|begin_of_text|>'

print_info: EOS token = 128009 '<|eot_id|>'

print_info: EOT token = 128009 '<|eot_id|>'

print_info: EOM token = 128008 '<|eom_id|>'

print_info: LF token = 198 'Ċ'

print_info: EOG token = 128008 '<|eom_id|>'

print_info: EOG token = 128009 '<|eot_id|>'

print_info: max token length = 256

load_tensors: loading model tensors, this can take a while... (mmap = false)

load_tensors: CPU model buffer size = 1918.35 MiB

llama_context: constructing llama_context

llama_context: n_seq_max = 1

llama_context: n_ctx = 8192

llama_context: n_ctx_per_seq = 8192

llama_context: n_batch = 512

llama_context: n_ubatch = 512

llama_context: causal_attn = 1

llama_context: flash_attn = 0

llama_context: freq_base = 500000.0

llama_context: freq_scale = 1

llama_context: n_ctx_per_seq (8192) < n_ctx_train (131072) -- the full capacity of the model will not be utilized

llama_context: CPU output buffer size = 0.50 MiB

llama_kv_cache_unified: kv_size = 8192, type_k = 'f16', type_v = 'f16', n_layer = 28, can_shift = 1, padding = 32

llama_kv_cache_unified: CPU KV buffer size = 896.00 MiB

llama_kv_cache_unified: KV self size = 896.00 MiB, K (f16): 448.00 MiB, V (f16): 448.00 MiB

llama_context: CPU compute buffer size = 424.01 MiB

llama_context: graph nodes = 958

llama_context: graph splits = 1

time=2025-06-27T14:59:21.273-05:00 level=INFO source=server.go:630 msg="llama runner started in 6.54 seconds"

[GIN] 2025/06/27 - 14:59:39 | 200 | 1.691ms | 127.0.0.1 | HEAD "/"

[GIN] 2025/06/27 - 14:59:39 | 200 | 1.0781ms | 127.0.0.1 | GET "/api/ps"

time=2025-06-27T15:00:05.182-05:00 level=ERROR source=server.go:800 msg="post predict" error="Post \\"http://127.0.0.1:63871/completion\": context canceled"

[GIN] 2025/06/27 - 15:00:05 | 200 | 1m0s | 127.0.0.1 | POST "/api/chat"

Author

Title

Language

Your paste - Paste your paste here

time=2025-06-23T14:18:35.139-05:00 level=INFO source=routes.go:1235 msg=&quot;server config&quot; env=&quot;map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:8192 OLLAMA_DEBUG:INFO OLLAMA_FLASH_ATTENTION:true OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:C:\\\\Users\\\\mlt\\\\.ollama\\\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:]&quot;
time=2025-06-23T14:18:35.154-05:00 level=INFO source=images.go:476 msg=&quot;total blobs: 30&quot;
time=2025-06-23T14:18:35.159-05:00 level=INFO source=images.go:483 msg=&quot;total unused blobs removed: 0&quot;
time=2025-06-23T14:18:35.163-05:00 level=INFO source=routes.go:1288 msg=&quot;Listening on 127.0.0.1:11434 (version 0.9.2-8-g2bb69b4-dirty)&quot;
time=2025-06-23T14:18:35.163-05:00 level=INFO source=gpu.go:217 msg=&quot;looking for compatible GPUs&quot;
time=2025-06-23T14:18:35.163-05:00 level=INFO source=gpu_windows.go:167 msg=packages count=1
time=2025-06-23T14:18:35.163-05:00 level=INFO source=gpu_windows.go:214 msg=&quot;&quot; package=0 cores=4 efficiency=0 threads=8
time=2025-06-23T14:18:36.259-05:00 level=INFO source=types.go:130 msg=&quot;inference compute&quot; id=0 library=rocm variant=&quot;&quot; compute=gfx1034 driver=6.4 name=&quot;AMD Radeon RX 6400&quot; total=&quot;4.0 GiB&quot; available=&quot;3.8 GiB&quot;
[GIN] 2025/06/23 - 14:19:13 | 200 |      1.0858ms |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/23 - 14:19:13 | 200 |    185.6844ms |       127.0.0.1 | POST     &quot;/api/show&quot;
time=2025-06-23T14:19:14.877-05:00 level=INFO source=sched.go:189 msg=&quot;one or more GPUs detected that are unable to accurately report free memory - disabling default concurrency&quot;
time=2025-06-23T14:19:15.836-05:00 level=INFO source=sched.go:788 msg=&quot;new model will fit in available VRAM in single GPU, loading&quot; model=C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 gpu=0 parallel=2 available=3983867904 required=&quot;3.4 GiB&quot;
time=2025-06-23T14:19:16.811-05:00 level=INFO source=server.go:135 msg=&quot;system memory&quot; total=&quot;24.0 GiB&quot; free=&quot;10.5 GiB&quot; free_swap=&quot;19.7 GiB&quot;
time=2025-06-23T14:19:17.785-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=37 layers.offload=37 layers.split=&quot;&quot; memory.available=&quot;[3.7 GiB]&quot; memory.gpu_overhead=&quot;0 B&quot; memory.required.full=&quot;3.4 GiB&quot; memory.required.partial=&quot;3.4 GiB&quot; memory.required.kv=&quot;576.0 MiB&quot; memory.required.allocations=&quot;[3.4 GiB]&quot; memory.weights.total=&quot;1.8 GiB&quot; memory.weights.repeating=&quot;1.6 GiB&quot; memory.weights.nonrepeating=&quot;243.4 MiB&quot; memory.graph.full=&quot;552.0 MiB&quot; memory.graph.partial=&quot;680.0 MiB&quot;
time=2025-06-23T14:19:17.786-05:00 level=INFO source=server.go:211 msg=&quot;enabling flash attention&quot;
time=2025-06-23T14:19:17.786-05:00 level=WARN source=server.go:219 msg=&quot;kv cache type not supported by model&quot; type=&quot;&quot;
llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen2
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Qwen2.5 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Qwen2.5
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                            general.license str              = other
llama_model_loader: - kv   7:                       general.license.name str              = qwen-research
llama_model_loader: - kv   8:                       general.license.link str              = https://huggingface.co/Qwen/Qwen2.5-3...
llama_model_loader: - kv   9:                   general.base_model.count u32              = 1
llama_model_loader: - kv  10:                  general.base_model.0.name str              = Qwen2.5 3B
llama_model_loader: - kv  11:          general.base_model.0.organization str              = Qwen
llama_model_loader: - kv  12:              general.base_model.0.repo_url str              = https://huggingface.co/Qwen/Qwen2.5-3B
llama_model_loader: - kv  13:                               general.tags arr[str,2]       = [&quot;chat&quot;, &quot;text-generation&quot;]
llama_model_loader: - kv  14:                          general.languages arr[str,1]       = [&quot;en&quot;]
llama_model_loader: - kv  15:                          qwen2.block_count u32              = 36
llama_model_loader: - kv  16:                       qwen2.context_length u32              = 32768
llama_model_loader: - kv  17:                     qwen2.embedding_length u32              = 2048
llama_model_loader: - kv  18:                  qwen2.feed_forward_length u32              = 11008
llama_model_loader: - kv  19:                 qwen2.attention.head_count u32              = 16
llama_model_loader: - kv  20:              qwen2.attention.head_count_kv u32              = 2
llama_model_loader: - kv  21:                       qwen2.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  22:     qwen2.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  23:                          general.file_type u32              = 15
llama_model_loader: - kv  24:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  25:                         tokenizer.ggml.pre str              = qwen2
llama_model_loader: - kv  26:                      tokenizer.ggml.tokens arr[str,151936]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  27:                  tokenizer.ggml.token_type arr[i32,151936]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  28:                      tokenizer.ggml.merges arr[str,151387]  = [&quot;Ġ Ġ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;i n&quot;, &quot;Ġ t&quot;,...
llama_model_loader: - kv  29:                tokenizer.ggml.eos_token_id u32              = 151645
llama_model_loader: - kv  30:            tokenizer.ggml.padding_token_id u32              = 151643
llama_model_loader: - kv  31:                tokenizer.ggml.bos_token_id u32              = 151643
llama_model_loader: - kv  32:               tokenizer.ggml.add_bos_token bool             = false
llama_model_loader: - kv  33:                    tokenizer.chat_template str              = {%- if tools %}\n    {{- '&lt;|im_start|&gt;...
llama_model_loader: - kv  34:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:  181 tensors
llama_model_loader: - type q4_K:  216 tensors
llama_model_loader: - type q6_K:   37 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.79 GiB (4.99 BPW) 
load: special tokens cache size = 22
load: token to piece cache size = 0.9310 MB
print_info: arch             = qwen2
print_info: vocab_only       = 1
print_info: model type       = ?B
print_info: model params     = 3.09 B
print_info: general.name     = Qwen2.5 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 151936
print_info: n_merges         = 151387
print_info: BOS token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOS token        = 151645 '&lt;|im_end|&gt;'
print_info: EOT token        = 151645 '&lt;|im_end|&gt;'
print_info: PAD token        = 151643 '&lt;|endoftext|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: FIM PRE token    = 151659 '&lt;|fim_prefix|&gt;'
print_info: FIM SUF token    = 151661 '&lt;|fim_suffix|&gt;'
print_info: FIM MID token    = 151660 '&lt;|fim_middle|&gt;'
print_info: FIM PAD token    = 151662 '&lt;|fim_pad|&gt;'
print_info: FIM REP token    = 151663 '&lt;|repo_name|&gt;'
print_info: FIM SEP token    = 151664 '&lt;|file_sep|&gt;'
print_info: EOG token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOG token        = 151645 '&lt;|im_end|&gt;'
print_info: EOG token        = 151662 '&lt;|fim_pad|&gt;'
print_info: EOG token        = 151663 '&lt;|repo_name|&gt;'
print_info: EOG token        = 151664 '&lt;|file_sep|&gt;'
print_info: max token length = 256
llama_model_load: vocab only - skipping tensors
time=2025-06-23T14:19:18.263-05:00 level=INFO source=server.go:431 msg=&quot;starting llama server&quot; cmd=&quot;C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 --ctx-size 16384 --batch-size 512 --n-gpu-layers 37 --threads 4 --flash-attn --parallel 2 --port 50349&quot;
time=2025-06-23T14:19:18.273-05:00 level=INFO source=sched.go:483 msg=&quot;loaded runners&quot; count=1
time=2025-06-23T14:19:18.273-05:00 level=INFO source=server.go:591 msg=&quot;waiting for llama runner to start responding&quot;
time=2025-06-23T14:19:18.275-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server error&quot;
time=2025-06-23T14:19:18.368-05:00 level=INFO source=runner.go:815 msg=&quot;starting go runner&quot;
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon RX 6400, gfx1034 (0x1034), VMM: no, Wave Size: 32
load_backend: loaded ROCm backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-hip.dll
load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll
time=2025-06-23T14:19:18.749-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 ROCm.0.NO_VMM=1 ROCm.0.NO_PEER_COPY=1 ROCm.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(gcc)
time=2025-06-23T14:19:18.753-05:00 level=INFO source=runner.go:874 msg=&quot;Server listening on 127.0.0.1:50349&quot;
time=2025-06-23T14:19:18.778-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server loading model&quot;
llama_model_load_from_file_impl: using device ROCm0 (AMD Radeon RX 6400) - 3939 MiB free
llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen2
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Qwen2.5 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Qwen2.5
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                            general.license str              = other
llama_model_loader: - kv   7:                       general.license.name str              = qwen-research
llama_model_loader: - kv   8:                       general.license.link str              = https://huggingface.co/Qwen/Qwen2.5-3...
llama_model_loader: - kv   9:                   general.base_model.count u32              = 1
llama_model_loader: - kv  10:                  general.base_model.0.name str              = Qwen2.5 3B
llama_model_loader: - kv  11:          general.base_model.0.organization str              = Qwen
llama_model_loader: - kv  12:              general.base_model.0.repo_url str              = https://huggingface.co/Qwen/Qwen2.5-3B
llama_model_loader: - kv  13:                               general.tags arr[str,2]       = [&quot;chat&quot;, &quot;text-generation&quot;]
llama_model_loader: - kv  14:                          general.languages arr[str,1]       = [&quot;en&quot;]
llama_model_loader: - kv  15:                          qwen2.block_count u32              = 36
llama_model_loader: - kv  16:                       qwen2.context_length u32              = 32768
llama_model_loader: - kv  17:                     qwen2.embedding_length u32              = 2048
llama_model_loader: - kv  18:                  qwen2.feed_forward_length u32              = 11008
llama_model_loader: - kv  19:                 qwen2.attention.head_count u32              = 16
llama_model_loader: - kv  20:              qwen2.attention.head_count_kv u32              = 2
llama_model_loader: - kv  21:                       qwen2.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  22:     qwen2.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  23:                          general.file_type u32              = 15
llama_model_loader: - kv  24:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  25:                         tokenizer.ggml.pre str              = qwen2
llama_model_loader: - kv  26:                      tokenizer.ggml.tokens arr[str,151936]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  27:                  tokenizer.ggml.token_type arr[i32,151936]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  28:                      tokenizer.ggml.merges arr[str,151387]  = [&quot;Ġ Ġ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;i n&quot;, &quot;Ġ t&quot;,...
llama_model_loader: - kv  29:                tokenizer.ggml.eos_token_id u32              = 151645
llama_model_loader: - kv  30:            tokenizer.ggml.padding_token_id u32              = 151643
llama_model_loader: - kv  31:                tokenizer.ggml.bos_token_id u32              = 151643
llama_model_loader: - kv  32:               tokenizer.ggml.add_bos_token bool             = false
llama_model_loader: - kv  33:                    tokenizer.chat_template str              = {%- if tools %}\n    {{- '&lt;|im_start|&gt;...
llama_model_loader: - kv  34:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:  181 tensors
llama_model_loader: - type q4_K:  216 tensors
llama_model_loader: - type q6_K:   37 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.79 GiB (4.99 BPW) 
load: special tokens cache size = 22
load: token to piece cache size = 0.9310 MB
print_info: arch             = qwen2
print_info: vocab_only       = 0
print_info: n_ctx_train      = 32768
print_info: n_embd           = 2048
print_info: n_layer          = 36
print_info: n_head           = 16
print_info: n_head_kv        = 2
print_info: n_rot            = 128
print_info: n_swa            = 0
print_info: n_swa_pattern    = 1
print_info: n_embd_head_k    = 128
print_info: n_embd_head_v    = 128
print_info: n_gqa            = 8
print_info: n_embd_k_gqa     = 256
print_info: n_embd_v_gqa     = 256
print_info: f_norm_eps       = 0.0e+00
print_info: f_norm_rms_eps   = 1.0e-06
print_info: f_clamp_kqv      = 0.0e+00
print_info: f_max_alibi_bias = 0.0e+00
print_info: f_logit_scale    = 0.0e+00
print_info: f_attn_scale     = 0.0e+00
print_info: n_ff             = 11008
print_info: n_expert         = 0
print_info: n_expert_used    = 0
print_info: causal attn      = 1
print_info: pooling type     = -1
print_info: rope type        = 2
print_info: rope scaling     = linear
print_info: freq_base_train  = 1000000.0
print_info: freq_scale_train = 1
print_info: n_ctx_orig_yarn  = 32768
print_info: rope_finetuned   = unknown
print_info: ssm_d_conv       = 0
print_info: ssm_d_inner      = 0
print_info: ssm_d_state      = 0
print_info: ssm_dt_rank      = 0
print_info: ssm_dt_b_c_rms   = 0
print_info: model type       = 3B
print_info: model params     = 3.09 B
print_info: general.name     = Qwen2.5 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 151936
print_info: n_merges         = 151387
print_info: BOS token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOS token        = 151645 '&lt;|im_end|&gt;'
print_info: EOT token        = 151645 '&lt;|im_end|&gt;'
print_info: PAD token        = 151643 '&lt;|endoftext|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: FIM PRE token    = 151659 '&lt;|fim_prefix|&gt;'
print_info: FIM SUF token    = 151661 '&lt;|fim_suffix|&gt;'
print_info: FIM MID token    = 151660 '&lt;|fim_middle|&gt;'
print_info: FIM PAD token    = 151662 '&lt;|fim_pad|&gt;'
print_info: FIM REP token    = 151663 '&lt;|repo_name|&gt;'
print_info: FIM SEP token    = 151664 '&lt;|file_sep|&gt;'
print_info: EOG token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOG token        = 151645 '&lt;|im_end|&gt;'
print_info: EOG token        = 151662 '&lt;|fim_pad|&gt;'
print_info: EOG token        = 151663 '&lt;|repo_name|&gt;'
print_info: EOG token        = 151664 '&lt;|file_sep|&gt;'
print_info: max token length = 256
load_tensors: loading model tensors, this can take a while... (mmap = true)
load_tensors: offloading 36 repeating layers to GPU
load_tensors: offloading output layer to GPU
load_tensors: offloaded 37/37 layers to GPU
load_tensors:   CPU_Mapped model buffer size =   243.43 MiB
load_tensors:        ROCm0 model buffer size =  1834.83 MiB
llama_context: constructing llama_context
llama_context: n_seq_max     = 2
llama_context: n_ctx         = 16384
llama_context: n_ctx_per_seq = 8192
llama_context: n_batch       = 1024
llama_context: n_ubatch      = 512
llama_context: causal_attn   = 1
llama_context: flash_attn    = 1
llama_context: freq_base     = 1000000.0
llama_context: freq_scale    = 1
llama_context: n_ctx_per_seq (8192) &lt; n_ctx_train (32768) -- the full capacity of the model will not be utilized
llama_context:  ROCm_Host  output buffer size =     1.17 MiB
llama_kv_cache_unified: kv_size = 16384, type_k = 'f16', type_v = 'f16', n_layer = 36, can_shift = 1, padding = 256
llama_kv_cache_unified:      ROCm0 KV buffer size =   576.00 MiB
llama_kv_cache_unified: KV self size  =  576.00 MiB, K (f16):  288.00 MiB, V (f16):  288.00 MiB
llama_context:      ROCm0 compute buffer size =   300.75 MiB
llama_context:  ROCm_Host compute buffer size =    36.01 MiB
llama_context: graph nodes  = 1195
llama_context: graph splits = 2
time=2025-06-23T14:19:28.566-05:00 level=INFO source=server.go:630 msg=&quot;llama runner started in 10.29 seconds&quot;
[GIN] 2025/06/23 - 14:19:28 | 200 |   14.6728392s |       127.0.0.1 | POST     &quot;/api/generate&quot;
[GIN] 2025/06/23 - 14:20:32 | 200 |   42.1578579s |       127.0.0.1 | POST     &quot;/api/chat&quot;
[GIN] 2025/06/23 - 14:22:15 | 200 |       567.5µs |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/23 - 14:22:15 | 200 |            0s |       127.0.0.1 | GET      &quot;/api/ps&quot;
[GIN] 2025/06/23 - 14:22:17 | 200 |         1m13s |       127.0.0.1 | POST     &quot;/api/chat&quot;
 time=2025-06-27T13:09:15.701-05:00 level=INFO source=server.go:135 msg=&quot;system memory&quot; total=&quot;24.0 GiB&quot; free=&quot;7.0 GiB&quot; free_swap=&quot;13.3 GiB&quot;
 time=2025-06-27T13:09:16.700-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=29 layers.offload=23 layers.split=&quot;&quot; memory.available=&quot;[3.2 GiB]&quot; memory.gpu_overhead=&quot;0 B&quot; memory.required.full=&quot;3.8 GiB&quot; memory.required.partial=&quot;3.1 GiB&quot; memory.required.kv=&quot;896.0 MiB&quot; memory.required.allocati GiB]&quot; memory.weights.total=&quot;1.9 GiB&quot; memory.weights.repeating=&quot;1.6 GiB&quot; memory.weights.n MiB&quot; memory.graph.full=&quot;424.0 MiB&quot; memory.graph.partial=&quot;570.7 MiB&quot;
time=2025-06-27T13:09:16.701-05:00 level=INFO source=server.go:211 msg=&quot;enabling flash attention&quot;
time=2025-06-27T13:09:16.701-05:00 level=WARN source=server.go:219 msg=&quot;kv cache type not supported by model&quot; type=&quot;&quot;
llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Llama 3.2 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Llama-3.2
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                               general.tags arr[str,6]       = [&quot;facebook&quot;, &quot;meta&quot;, &quot;pytorch&quot;, &quot;llam...
llama_model_loader: - kv   7:                          general.languages arr[str,8]       = [&quot;en&quot;, &quot;de&quot;, &quot;fr&quot;, &quot;it&quot;, &quot;pt&quot;, &quot;hi&quot;, ...
llama_model_loader: - kv   8:                          llama.block_count u32              = 28
llama_model_loader: - kv   9:                       llama.context_length u32              = 131072
llama_model_loader: - kv  10:                     llama.embedding_length u32              = 3072
llama_model_loader: - kv  11:                  llama.feed_forward_length u32              = 8192
llama_model_loader: - kv  12:                 llama.attention.head_count u32              = 24
llama_model_loader: - kv  13:              llama.attention.head_count_kv u32              = 8
llama_model_loader: - kv  14:                       llama.rope.freq_base f32              = 500000.000000
llama_model_loader: - kv  15:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
llama_model_loader: - kv  16:                 llama.attention.key_length u32              = 128
llama_model_loader: - kv  17:               llama.attention.value_length u32              = 128
llama_model_loader: - kv  18:                          general.file_type u32              = 15
llama_model_loader: - kv  19:                           llama.vocab_size u32              = 128256
llama_model_loader: - kv  20:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv  21:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  22:                         tokenizer.ggml.pre str              = llama-bpe
llama_model_loader: - kv  23:                      tokenizer.ggml.tokens arr[str,128256]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  24:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  25:                      tokenizer.ggml.merges arr[str,280147]  = [&quot;Ġ Ġ&quot;, &quot;Ġ ĠĠĠ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;...
llama_model_loader: - kv  26:                tokenizer.ggml.bos_token_id u32              = 128000
llama_model_loader: - kv  27:                tokenizer.ggml.eos_token_id u32              = 128009
llama_model_loader: - kv  28:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
llama_model_loader: - kv  29:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   58 tensors
llama_model_loader: - type q4_K:  168 tensors
llama_model_loader: - type q6_K:   29 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.87 GiB (5.01 BPW) 
load: special tokens cache size = 256
load: token to piece cache size = 0.7999 MB
print_info: arch             = llama
 print_info: vocab_
print_info: model type       = ?B
print_info: model params     = 3.21 B
print_info: general.name     = Llama 3.2 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 128256
print_info: n_merges         = 280147
print_info: BOS token        = 128000 '&lt;|begin_of_text|&gt;'
print_info: EOS token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOT token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOM token        = 128008 '&lt;|eom_id|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: EOG token        = 128008 '&lt;|eom_id|&gt;'
print_info: EOG token        = 128009 '&lt;|eot_id|&gt;'
print_info: max token length = 256
llama_model_load: vocab only - skipping tensors
time=2025-06-27T13:09:17.256-05:00 level=INFO source=server.go:431 msg=&quot;starting llama server&quot; cmd=&quot;C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff --ctx-size 8192 --batch-size 512 --n-gpu-layers 23 --threads 4 --flash-attn --parallel 1 --port 58003&quot;
time=2025-06-27T13:09:17.322-05:00 level=INFO source=sched.go:483 msg=&quot;loaded runners&quot; count=1
time=2025-06-27T13:09:17.323-05:00 level=INFO source=server.go:591 msg=&quot;waiting for llama runner to start responding&quot;
time=2025-06-27T13:09:17.329-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server error&quot;
time=2025-06-27T13:09:17.479-05:00 level=INFO source=runner.go:815 msg=&quot;starting go runner&quot;
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon RX 6400, gfx1034 (0x1034), VMM: no, Wave Size: 32
load_backend: loaded ROCm backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-hip.dll
load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll
time=2025-06-27T13:09:18.040-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 ROCm.0.NO_VMM=1 ROCm.0.NO_PEER_COPY=1 ROCm.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(gcc)
time=2025-06-27T13:09:18.045-05:00 level=INFO source=runner.go:874 msg=&quot;Server listening on 127.0.0.1:58003&quot;
time=2025-06-27T13:09:18.087-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server loading model&quot;
llama_model_load_from_file_impl: using device ROCm0 (AMD Radeon RX 6400) - 3939 MiB free
llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Llama 3.2 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Llama-3.2
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                               general.tags arr[str,6]       = [&quot;facebook&quot;, &quot;meta&quot;, &quot;pytorch&quot;, &quot;llam...
llama_model_loader: - kv   7:                          general.languages arr[str,8]       = [&quot;en&quot;, &quot;de&quot;, &quot;fr&quot;, &quot;it&quot;, &quot;pt&quot;, &quot;hi&quot;, ...
llama_model_loader: - kv   8:                          llama.block_count u32              = 28
llama_model_loader: - kv   9:                       llama.context_length u32              = 131072
llama_model_loader: - kv  10:                     llama.embedding_length u32              = 3072
llama_model_loader: - kv  11:                  llama.feed_forward_length u32              = 8192
llama_model_loader: - kv  12:                 llama.attention.head_count u32              = 24
llama_model_loader: - kv  13:              llama.attention.head_count_kv u32              = 8
llama_model_loader: - kv  14:                       llama.rope.freq_base f32              = 500000.000000
llama_model_loader: - kv  15:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
llama_model_loader: - kv  16:                 llama.attention.key_length u32              = 128
llama_model_loader: - kv  17:               llama.attention.value_length u32              = 128
llama_model_loader: - kv  18:                          general.file_type u32              = 15
llama_model_loader: - kv  19:                           llama.vocab_size u32              = 128256
llama_model_loader: - kv  20:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv  21:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  22:                         tokenizer.ggml.pre str              = llama-bpe
llama_model_loader: - kv  23:                      tokenizer.ggml.tokens arr[str,128256]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  24:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  25:                      tokenizer.ggml.merges arr[str,280147]  = [&quot;Ġ Ġ&quot;, &quot;Ġ ĠĠĠ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;...
llama_model_loader: - kv  26:                tokenizer.ggml.bos_token_id u32              = 128000
llama_model_loader: - kv  27:                tokenizer.ggml.eos_token_id u32              = 128009
llama_model_loader: - kv  28:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
llama_model_loader: - kv  29:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   58 tensors
llama_model_loader: - type q4_K:  168 tensors
llama_model_loader: - type q6_K:   29 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.87 GiB (5.01 BPW) 
load: special tokens cache size = 256
load: token to piece cache size = 0.7999 MB
print_info: arch             = llama
print_info: vocab_only       = 0
print_info: n_ctx_train      = 131072
print_info: n_embd           = 3072
print_info: n_layer          = 28
print_info: n_head           = 24
print_info: n_head_kv        = 8
print_info: n_rot            = 128
print_info: n_swa            = 0
print_info: n_swa_pattern    = 1
print_info: n_embd_head_k    = 128
print_info: n_embd_head_v    = 128
print_info: n_gqa            = 3
print_info: n_embd_k_gqa     = 1024
print_info: n_embd_v_gqa     = 1024
print_info: f_norm_eps       = 0.0e+00
print_info: f_norm_rms_eps   = 1.0e-05
print_info: f_clamp_kqv      = 0.0e+00
print_info: f_max_alibi_bias = 0.0e+00
print_info: f_logit_scale    = 0.0e+00
print_info: f_attn_scale     = 0.0e+00
print_info: n_ff             = 8192
print_info: n_expert         = 0
print_info: n_expert_used    = 0
print_info: causal attn      = 1
print_info: pooling type     = 0
print_info: rope type        = 0
print_info: rope scaling     = linear
print_info: freq_base_train  = 500000.0
print_info: freq_scale_train = 1
print_info: n_ctx_orig_yarn  = 131072
print_info: rope_finetuned   = unknown
print_info: ssm_d_conv       = 0
print_info: ssm_d_inner      = 0
print_info: ssm_d_state      = 0
print_info: ssm_dt_rank      = 0
print_info: ssm_dt_b_c_rms   = 0
print_info: model type       = 3B
print_info: model params     = 3.21 B
print_info: general.name     = Llama 3.2 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 128256
print_info: n_merges         = 280147
print_info: BOS token        = 128000 '&lt;|begin_of_text|&gt;'
print_info: EOS token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOT token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOM token        = 128008 '&lt;|eom_id|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: EOG token        = 128008 '&lt;|eom_id|&gt;'
print_info: EOG token        = 128009 '&lt;|eot_id|&gt;'
print_info: max token length = 256
load_tensors: loading model tensors, this can take a while... (mmap = true)
load_tensors: offloading 23 repeating layers to GPU
load_tensors: offloaded 23/29 layers to GPU
load_tensors:        ROCm0 model buffer size =  1319.11 MiB
load_tensors:   CPU_Mapped model buffer size =  1918.35 MiB
llama_context: constructing llama_context
llama_context: n_seq_max     = 1
llama_context: n_ctx         = 8192
llama_context: n_ctx_per_seq = 8192
llama_context: n_batch       = 512
llama_context: n_ubatch      = 512
llama_context: causal_attn   = 1
llama_context: flash_attn    = 1
llama_context: freq_base     = 500000.0
llama_context: freq_scale    = 1
llama_context: n_ctx_per_seq (8192) &lt; n_ctx_train (131072) -- the full capacity of the model will not be utilized
llama_context:        CPU  output buffer size =     0.50 MiB
llama_kv_cache_unified: kv_size = 8192, type_k = 'f16', type_v = 'f16', n_layer = 28, can_shift = 1, padding = 256
llama_kv_cache_unified:      ROCm0 KV buffer size =   736.00 MiB
llama_kv_cache_unified:        CPU KV buffer size =   160.00 MiB
llama_kv_cache_unified: KV self size  =  896.00 MiB, K (f16):  448.00 MiB, V (f16):  448.00 MiB
llama_context:      ROCm0 compute buffer size =   564.73 MiB
llama_context:  ROCm_Host compute buffer size =    22.01 MiB
llama_context: graph nodes  = 847
llama_context: graph splits = 60 (with bs=512), 3 (with bs=1)
time=2025-06-27T13:09:28.121-05:00 level=INFO source=server.go:630 msg=&quot;llama runner started in 10.80 seconds&quot;
time=2025-06-27T13:09:28.178-05:00 level=WARN source=runner.go:128 msg=&quot;truncating input prompt&quot; limit=8192 prompt=30805 keep=5 new=8192
[GIN] 2025/06/27 - 13:10:07 | 200 |      2.2901ms |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/27 - 13:10:07 | 200 |       546.3µs |       127.0.0.1 | GET      &quot;/api/ps&quot;
[GIN] 2025/06/27 - 13:18:55 | 200 |         9m49s |       127.0.0.1 | POST     &quot;/api/chat&quot;
[GIN] 2025/06/27 - 13:19:07 | 200 |            0s |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/27 - 13:19:07 | 200 |            0s |       127.0.0.1 | GET      &quot;/api/ps&quot;
[GIN] 2025/06/27 - 13:20:06 | 200 |            0s |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/27 - 13:20:06 | 200 |            0s |       127.0.0.1 | GET      &quot;/api/ps&quot;
[GIN] 2025/06/27 - 13:20:15 | 200 |       551.1µs |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/27 - 13:20:15 | 200 |      8.5213ms |       127.0.0.1 | POST     &quot;/api/generate&quot;
[GIN] 2025/06/27 - 13:20:19 | 200 |            0s |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/27 - 13:20:19 | 200 |            0s |       127.0.0.1 | GET      &quot;/api/ps&quot;
 time=2025-06-27T13:22:38.384-05:00 level=INFO source=server.go:135 msg=&quot;system memory&quot; total=&quot;24.0 GiB&quot; free=&quot;7.6 GiB&quot; free_swap=&quot;12.2 GiB&quot;
 time=2025-06-27T13:22:39.446-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=29 layers.offload=12 layers.split=&quot;&quot; memory.available=&quot;[2.2 GiB]&quot; memory.gpu_overhead=&quot;0 B&quot; memory.required.full=&quot;3.8 GiB&quot; memory.required.partial=&quot;2.2 GiB&quot; memory.required.kv=&quot;896.0 MiB&quot; memory.required.allocati GiB]&quot; memory.weights.total=&quot;1.9 GiB&quot; memory.weights.repeating=&quot;1.6 GiB&quot; memory.weights.n MiB&quot; memory.graph.full=&quot;424.0 MiB&quot; memory.graph.partial=&quot;570.7 MiB&quot;
time=2025-06-27T13:22:39.446-05:00 level=INFO source=server.go:211 msg=&quot;enabling flash attention&quot;
time=2025-06-27T13:22:39.446-05:00 level=WARN source=server.go:219 msg=&quot;kv cache type not supported by model&quot; type=&quot;&quot;
llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Llama 3.2 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Llama-3.2
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                               general.tags arr[str,6]       = [&quot;facebook&quot;, &quot;meta&quot;, &quot;pytorch&quot;, &quot;llam...
llama_model_loader: - kv   7:                          general.languages arr[str,8]       = [&quot;en&quot;, &quot;de&quot;, &quot;fr&quot;, &quot;it&quot;, &quot;pt&quot;, &quot;hi&quot;, ...
llama_model_loader: - kv   8:                          llama.block_count u32              = 28
llama_model_loader: - kv   9:                       llama.context_length u32              = 131072
llama_model_loader: - kv  10:                     llama.embedding_length u32              = 3072
llama_model_loader: - kv  11:                  llama.feed_forward_length u32              = 8192
llama_model_loader: - kv  12:                 llama.attention.head_count u32              = 24
llama_model_loader: - kv  13:              llama.attention.head_count_kv u32              = 8
llama_model_loader: - kv  14:                       llama.rope.freq_base f32              = 500000.000000
llama_model_loader: - kv  15:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
llama_model_loader: - kv  16:                 llama.attention.key_length u32              = 128
llama_model_loader: - kv  17:               llama.attention.value_length u32              = 128
llama_model_loader: - kv  18:                          general.file_type u32              = 15
llama_model_loader: - kv  19:                           llama.vocab_size u32              = 128256
llama_model_loader: - kv  20:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv  21:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  22:                         tokenizer.ggml.pre str              = llama-bpe
llama_model_loader: - kv  23:                      tokenizer.ggml.tokens arr[str,128256]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  24:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  25:                      tokenizer.ggml.merges arr[str,280147]  = [&quot;Ġ Ġ&quot;, &quot;Ġ ĠĠĠ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;...
llama_model_loader: - kv  26:                tokenizer.ggml.bos_token_id u32              = 128000
llama_model_loader: - kv  27:                tokenizer.ggml.eos_token_id u32              = 128009
llama_model_loader: - kv  28:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
llama_model_loader: - kv  29:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   58 tensors
llama_model_loader: - type q4_K:  168 tensors
llama_model_loader: - type q6_K:   29 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.87 GiB (5.01 BPW) 
load: special tokens cache size = 256
load: token to piece cache size = 0.7999 MB
print_info: arch             = llama
 print_info: vocab_
print_info: model type       = ?B
print_info: model params     = 3.21 B
print_info: general.name     = Llama 3.2 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 128256
print_info: n_merges         = 280147
print_info: BOS token        = 128000 '&lt;|begin_of_text|&gt;'
print_info: EOS token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOT token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOM token        = 128008 '&lt;|eom_id|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: EOG token        = 128008 '&lt;|eom_id|&gt;'
print_info: EOG token        = 128009 '&lt;|eot_id|&gt;'
print_info: max token length = 256
llama_model_load: vocab only - skipping tensors
time=2025-06-27T13:22:39.927-05:00 level=INFO source=server.go:431 msg=&quot;starting llama server&quot; cmd=&quot;C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff --ctx-size 8192 --batch-size 512 --n-gpu-layers 12 --threads 4 --flash-attn --parallel 1 --port 58424&quot;
time=2025-06-27T13:22:39.936-05:00 level=INFO source=sched.go:483 msg=&quot;loaded runners&quot; count=1
time=2025-06-27T13:22:39.936-05:00 level=INFO source=server.go:591 msg=&quot;waiting for llama runner to start responding&quot;
time=2025-06-27T13:22:39.937-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server error&quot;
time=2025-06-27T13:22:40.027-05:00 level=INFO source=runner.go:815 msg=&quot;starting go runner&quot;
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon RX 6400, gfx1034 (0x1034), VMM: no, Wave Size: 32
load_backend: loaded ROCm backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-hip.dll
load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll
time=2025-06-27T13:22:40.132-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 ROCm.0.NO_VMM=1 ROCm.0.NO_PEER_COPY=1 ROCm.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(gcc)
time=2025-06-27T13:22:40.134-05:00 level=INFO source=runner.go:874 msg=&quot;Server listening on 127.0.0.1:58424&quot;
time=2025-06-27T13:22:40.190-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server loading model&quot;
llama_model_load_from_file_impl: using device ROCm0 (AMD Radeon RX 6400) - 3939 MiB free
llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Llama 3.2 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Llama-3.2
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                               general.tags arr[str,6]       = [&quot;facebook&quot;, &quot;meta&quot;, &quot;pytorch&quot;, &quot;llam...
llama_model_loader: - kv   7:                          general.languages arr[str,8]       = [&quot;en&quot;, &quot;de&quot;, &quot;fr&quot;, &quot;it&quot;, &quot;pt&quot;, &quot;hi&quot;, ...
llama_model_loader: - kv   8:                          llama.block_count u32              = 28
llama_model_loader: - kv   9:                       llama.context_length u32              = 131072
llama_model_loader: - kv  10:                     llama.embedding_length u32              = 3072
llama_model_loader: - kv  11:                  llama.feed_forward_length u32              = 8192
llama_model_loader: - kv  12:                 llama.attention.head_count u32              = 24
llama_model_loader: - kv  13:              llama.attention.head_count_kv u32              = 8
llama_model_loader: - kv  14:                       llama.rope.freq_base f32              = 500000.000000
llama_model_loader: - kv  15:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
llama_model_loader: - kv  16:                 llama.attention.key_length u32              = 128
llama_model_loader: - kv  17:               llama.attention.value_length u32              = 128
llama_model_loader: - kv  18:                          general.file_type u32              = 15
llama_model_loader: - kv  19:                           llama.vocab_size u32              = 128256
llama_model_loader: - kv  20:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv  21:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  22:                         tokenizer.ggml.pre str              = llama-bpe
llama_model_loader: - kv  23:                      tokenizer.ggml.tokens arr[str,128256]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  24:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  25:                      tokenizer.ggml.merges arr[str,280147]  = [&quot;Ġ Ġ&quot;, &quot;Ġ ĠĠĠ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;...
llama_model_loader: - kv  26:                tokenizer.ggml.bos_token_id u32              = 128000
llama_model_loader: - kv  27:                tokenizer.ggml.eos_token_id u32              = 128009
llama_model_loader: - kv  28:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
llama_model_loader: - kv  29:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   58 tensors
llama_model_loader: - type q4_K:  168 tensors
llama_model_loader: - type q6_K:   29 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.87 GiB (5.01 BPW) 
load: special tokens cache size = 256
load: token to piece cache size = 0.7999 MB
print_info: arch             = llama
print_info: vocab_only       = 0
print_info: n_ctx_train      = 131072
print_info: n_embd           = 3072
print_info: n_layer          = 28
print_info: n_head           = 24
print_info: n_head_kv        = 8
print_info: n_rot            = 128
print_info: n_swa            = 0
print_info: n_swa_pattern    = 1
print_info: n_embd_head_k    = 128
print_info: n_embd_head_v    = 128
print_info: n_gqa            = 3
print_info: n_embd_k_gqa     = 1024
print_info: n_embd_v_gqa     = 1024
print_info: f_norm_eps       = 0.0e+00
print_info: f_norm_rms_eps   = 1.0e-05
print_info: f_clamp_kqv      = 0.0e+00
print_info: f_max_alibi_bias = 0.0e+00
print_info: f_logit_scale    = 0.0e+00
print_info: f_attn_scale     = 0.0e+00
print_info: n_ff             = 8192
print_info: n_expert         = 0
print_info: n_expert_used    = 0
print_info: causal attn      = 1
print_info: pooling type     = 0
print_info: rope type        = 0
print_info: rope scaling     = linear
print_info: freq_base_train  = 500000.0
print_info: freq_scale_train = 1
print_info: n_ctx_orig_yarn  = 131072
print_info: rope_finetuned   = unknown
print_info: ssm_d_conv       = 0
print_info: ssm_d_inner      = 0
print_info: ssm_d_state      = 0
print_info: ssm_dt_rank      = 0
print_info: ssm_dt_b_c_rms   = 0
print_info: model type       = 3B
print_info: model params     = 3.21 B
print_info: general.name     = Llama 3.2 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 128256
print_info: n_merges         = 280147
print_info: BOS token        = 128000 '&lt;|begin_of_text|&gt;'
print_info: EOS token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOT token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOM token        = 128008 '&lt;|eom_id|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: EOG token        = 128008 '&lt;|eom_id|&gt;'
print_info: EOG token        = 128009 '&lt;|eot_id|&gt;'
print_info: max token length = 256
load_tensors: loading model tensors, this can take a while... (mmap = true)
load_tensors: offloading 12 repeating layers to GPU
load_tensors: offloaded 12/29 layers to GPU
load_tensors:   CPU_Mapped model buffer size =  1918.35 MiB
load_tensors:        ROCm0 model buffer size =   703.20 MiB
llama_context: constructing llama_context
llama_context: n_seq_max     = 1
llama_context: n_ctx         = 8192
llama_context: n_ctx_per_seq = 8192
llama_context: n_batch       = 512
llama_context: n_ubatch      = 512
llama_context: causal_attn   = 1
llama_context: flash_attn    = 1
llama_context: freq_base     = 500000.0
llama_context: freq_scale    = 1
llama_context: n_ctx_per_seq (8192) &lt; n_ctx_train (131072) -- the full capacity of the model will not be utilized
llama_context:        CPU  output buffer size =     0.50 MiB
llama_kv_cache_unified: kv_size = 8192, type_k = 'f16', type_v = 'f16', n_layer = 28, can_shift = 1, padding = 256
llama_kv_cache_unified:        CPU KV buffer size =   512.00 MiB
llama_kv_cache_unified:      ROCm0 KV buffer size =   384.00 MiB
llama_kv_cache_unified: KV self size  =  896.00 MiB, K (f16):  448.00 MiB, V (f16):  448.00 MiB
llama_context:      ROCm0 compute buffer size =   564.73 MiB
llama_context:  ROCm_Host compute buffer size =    22.01 MiB
llama_context: graph nodes  = 847
llama_context: graph splits = 181 (with bs=512), 3 (with bs=1)
time=2025-06-27T13:22:47.212-05:00 level=INFO source=server.go:630 msg=&quot;llama runner started in 7.28 seconds&quot;
[GIN] 2025/06/27 - 13:30:58 | 200 |         8m26s |       127.0.0.1 | POST     &quot;/api/chat&quot;
 time=2025-06-27T13:31:08.737-05:00 level=INFO source=server.go:135 msg=&quot;system memory&quot; total=&quot;24.0 GiB&quot; free=&quot;7.6 GiB&quot; free_swap=&quot;10.7 GiB&quot;
 time=2025-06-27T13:31:10.166-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=37 layers.offload=0 layers.split=&quot;&quot; memory.available=&quot;[1.2 GiB]&quot; memory.gpu_overhead=&quot;0 B&quot; memory.required.full=&quot;2.9 GiB&quot; memory.required.partial=&quot;0 B&quot; memory.required.kv=&quot;1.1 GiB&quot; memory.required.allocati B]&quot; memory.weights.total=&quot;1.8 GiB&quot; memory.weights.repeating=&quot;1.6 GiB&quot; memory.weights.n MiB&quot; memory.graph.full=&quot;1.1 GiB&quot; memory.graph.partial=&quot;1.3 GiB&quot;
time=2025-06-27T13:31:10.166-05:00 level=WARN source=server.go:199 msg=&quot;flash attention enabled but not supported by gpu&quot;
llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen2
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Qwen2.5 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Qwen2.5
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                            general.license str              = other
llama_model_loader: - kv   7:                       general.license.name str              = qwen-research
llama_model_loader: - kv   8:                       general.license.link str              = https://huggingface.co/Qwen/Qwen2.5-3...
llama_model_loader: - kv   9:                   general.base_model.count u32              = 1
llama_model_loader: - kv  10:                  general.base_model.0.name str              = Qwen2.5 3B
llama_model_loader: - kv  11:          general.base_model.0.organization str              = Qwen
llama_model_loader: - kv  12:              general.base_model.0.repo_url str              = https://huggingface.co/Qwen/Qwen2.5-3B
llama_model_loader: - kv  13:                               general.tags arr[str,2]       = [&quot;chat&quot;, &quot;text-generation&quot;]
llama_model_loader: - kv  14:                          general.languages arr[str,1]       = [&quot;en&quot;]
llama_model_loader: - kv  15:                          qwen2.block_count u32              = 36
llama_model_loader: - kv  16:                       qwen2.context_length u32              = 32768
llama_model_loader: - kv  17:                     qwen2.embedding_length u32              = 2048
llama_model_loader: - kv  18:                  qwen2.feed_forward_length u32              = 11008
llama_model_loader: - kv  19:                 qwen2.attention.head_count u32              = 16
llama_model_loader: - kv  20:              qwen2.attention.head_count_kv u32              = 2
llama_model_loader: - kv  21:                       qwen2.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  22:     qwen2.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  23:                          general.file_type u32              = 15
llama_model_loader: - kv  24:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  25:                         tokenizer.ggml.pre str              = qwen2
llama_model_loader: - kv  26:                      tokenizer.ggml.tokens arr[str,151936]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  27:                  tokenizer.ggml.token_type arr[i32,151936]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  28:                      tokenizer.ggml.merges arr[str,151387]  = [&quot;Ġ Ġ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;i n&quot;, &quot;Ġ t&quot;,...
llama_model_loader: - kv  29:                tokenizer.ggml.eos_token_id u32              = 151645
llama_model_loader: - kv  30:            tokenizer.ggml.padding_token_id u32              = 151643
llama_model_loader: - kv  31:                tokenizer.ggml.bos_token_id u32              = 151643
llama_model_loader: - kv  32:               tokenizer.ggml.add_bos_token bool             = false
llama_model_loader: - kv  33:                    tokenizer.chat_template str              = {%- if tools %}\n    {{- '&lt;|im_start|&gt;...
llama_model_loader: - kv  34:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:  181 tensors
llama_model_loader: - type q4_K:  216 tensors
llama_model_loader: - type q6_K:   37 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.79 GiB (4.99 BPW) 
load: special tokens cache size = 22
load: token to piece cache size = 0.9310 MB
print_info: arch             = qwen2
print_info: vocab_only       = 1
print_info: model type       = ?B
print_info: model params     = 3.09 B
print_info: general.name     = Qwen2.5 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 151936
print_info: n_merges         = 151387
print_info: BOS token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOS token        = 151645 '&lt;|im_end|&gt;'
print_info: EOT token        = 151645 '&lt;|im_end|&gt;'
print_info: PAD token        = 151643 '&lt;|endoftext|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: FIM PRE token    = 151659 '&lt;|fim_prefix|&gt;'
print_info: FIM SUF token    = 151661 '&lt;|fim_suffix|&gt;'
print_info: FIM MID token    = 151660 '&lt;|fim_middle|&gt;'
print_info: FIM PAD token    = 151662 '&lt;|fim_pad|&gt;'
print_info: FIM REP token    = 151663 '&lt;|repo_name|&gt;'
print_info: FIM SEP token    = 151664 '&lt;|file_sep|&gt;'
print_info: EOG token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOG token        = 151645 '&lt;|im_end|&gt;'
print_info: EOG token        = 151662 '&lt;|fim_pad|&gt;'
print_info: EOG token        = 151663 '&lt;|repo_name|&gt;'
print_info: EOG token        = 151664 '&lt;|file_sep|&gt;'
print_info: max token length = 256
llama_model_load: vocab only - skipping tensors
time=2025-06-27T13:31:10.883-05:00 level=INFO source=server.go:431 msg=&quot;starting llama server&quot; cmd=&quot;C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 --ctx-size 32768 --batch-size 512 --threads 4 --no-mmap --parallel 1 --port 58892&quot;
time=2025-06-27T13:31:10.896-05:00 level=INFO source=sched.go:483 msg=&quot;loaded runners&quot; count=1
time=2025-06-27T13:31:10.896-05:00 level=INFO source=server.go:591 msg=&quot;waiting for llama runner to start responding&quot;
time=2025-06-27T13:31:10.900-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server error&quot;
time=2025-06-27T13:31:11.037-05:00 level=INFO source=runner.go:815 msg=&quot;starting go runner&quot;
load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll
time=2025-06-27T13:31:11.126-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 compiler=cgo(gcc)
time=2025-06-27T13:31:11.129-05:00 level=INFO source=runner.go:874 msg=&quot;Server listening on 127.0.0.1:58892&quot;
time=2025-06-27T13:31:11.155-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server loading model&quot;
llama_model_loader: loaded meta data with 35 key-value pairs and 434 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-5ee4f07cdb9beadbbb293e85803c569b01bd37ed059d2715faa7bb405f31caa6 (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen2
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Qwen2.5 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Qwen2.5
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                            general.license str              = other
llama_model_loader: - kv   7:                       general.license.name str              = qwen-research
llama_model_loader: - kv   8:                       general.license.link str              = https://huggingface.co/Qwen/Qwen2.5-3...
llama_model_loader: - kv   9:                   general.base_model.count u32              = 1
llama_model_loader: - kv  10:                  general.base_model.0.name str              = Qwen2.5 3B
llama_model_loader: - kv  11:          general.base_model.0.organization str              = Qwen
llama_model_loader: - kv  12:              general.base_model.0.repo_url str              = https://huggingface.co/Qwen/Qwen2.5-3B
llama_model_loader: - kv  13:                               general.tags arr[str,2]       = [&quot;chat&quot;, &quot;text-generation&quot;]
llama_model_loader: - kv  14:                          general.languages arr[str,1]       = [&quot;en&quot;]
llama_model_loader: - kv  15:                          qwen2.block_count u32              = 36
llama_model_loader: - kv  16:                       qwen2.context_length u32              = 32768
llama_model_loader: - kv  17:                     qwen2.embedding_length u32              = 2048
llama_model_loader: - kv  18:                  qwen2.feed_forward_length u32              = 11008
llama_model_loader: - kv  19:                 qwen2.attention.head_count u32              = 16
llama_model_loader: - kv  20:              qwen2.attention.head_count_kv u32              = 2
llama_model_loader: - kv  21:                       qwen2.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  22:     qwen2.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  23:                          general.file_type u32              = 15
llama_model_loader: - kv  24:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  25:                         tokenizer.ggml.pre str              = qwen2
llama_model_loader: - kv  26:                      tokenizer.ggml.tokens arr[str,151936]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  27:                  tokenizer.ggml.token_type arr[i32,151936]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  28:                      tokenizer.ggml.merges arr[str,151387]  = [&quot;Ġ Ġ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;i n&quot;, &quot;Ġ t&quot;,...
llama_model_loader: - kv  29:                tokenizer.ggml.eos_token_id u32              = 151645
llama_model_loader: - kv  30:            tokenizer.ggml.padding_token_id u32              = 151643
llama_model_loader: - kv  31:                tokenizer.ggml.bos_token_id u32              = 151643
llama_model_loader: - kv  32:               tokenizer.ggml.add_bos_token bool             = false
llama_model_loader: - kv  33:                    tokenizer.chat_template str              = {%- if tools %}\n    {{- '&lt;|im_start|&gt;...
llama_model_loader: - kv  34:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:  181 tensors
llama_model_loader: - type q4_K:  216 tensors
llama_model_loader: - type q6_K:   37 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.79 GiB (4.99 BPW) 
load: special tokens cache size = 22
load: token to piece cache size = 0.9310 MB
print_info: arch             = qwen2
print_info: vocab_only       = 0
print_info: n_ctx_train      = 32768
print_info: n_embd           = 2048
print_info: n_layer          = 36
print_info: n_head           = 16
print_info: n_head_kv        = 2
print_info: n_rot            = 128
print_info: n_swa            = 0
print_info: n_swa_pattern    = 1
print_info: n_embd_head_k    = 128
print_info: n_embd_head_v    = 128
print_info: n_gqa            = 8
print_info: n_embd_k_gqa     = 256
print_info: n_embd_v_gqa     = 256
print_info: f_norm_eps       = 0.0e+00
print_info: f_norm_rms_eps   = 1.0e-06
print_info: f_clamp_kqv      = 0.0e+00
print_info: f_max_alibi_bias = 0.0e+00
print_info: f_logit_scale    = 0.0e+00
print_info: f_attn_scale     = 0.0e+00
print_info: n_ff             = 11008
print_info: n_expert         = 0
print_info: n_expert_used    = 0
print_info: causal attn      = 1
print_info: pooling type     = -1
print_info: rope type        = 2
print_info: rope scaling     = linear
print_info: freq_base_train  = 1000000.0
print_info: freq_scale_train = 1
print_info: n_ctx_orig_yarn  = 32768
print_info: rope_finetuned   = unknown
print_info: ssm_d_conv       = 0
print_info: ssm_d_inner      = 0
print_info: ssm_d_state      = 0
print_info: ssm_dt_rank      = 0
print_info: ssm_dt_b_c_rms   = 0
print_info: model type       = 3B
print_info: model params     = 3.09 B
print_info: general.name     = Qwen2.5 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 151936
print_info: n_merges         = 151387
print_info: BOS token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOS token        = 151645 '&lt;|im_end|&gt;'
print_info: EOT token        = 151645 '&lt;|im_end|&gt;'
print_info: PAD token        = 151643 '&lt;|endoftext|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: FIM PRE token    = 151659 '&lt;|fim_prefix|&gt;'
print_info: FIM SUF token    = 151661 '&lt;|fim_suffix|&gt;'
print_info: FIM MID token    = 151660 '&lt;|fim_middle|&gt;'
print_info: FIM PAD token    = 151662 '&lt;|fim_pad|&gt;'
print_info: FIM REP token    = 151663 '&lt;|repo_name|&gt;'
print_info: FIM SEP token    = 151664 '&lt;|file_sep|&gt;'
print_info: EOG token        = 151643 '&lt;|endoftext|&gt;'
print_info: EOG token        = 151645 '&lt;|im_end|&gt;'
print_info: EOG token        = 151662 '&lt;|fim_pad|&gt;'
print_info: EOG token        = 151663 '&lt;|repo_name|&gt;'
print_info: EOG token        = 151664 '&lt;|file_sep|&gt;'
print_info: max token length = 256
load_tensors: loading model tensors, this can take a while... (mmap = false)
load_tensors:          CPU model buffer size =  1834.82 MiB
llama_context: constructing llama_context
llama_context: n_seq_max     = 1
llama_context: n_ctx         = 32768
llama_context: n_ctx_per_seq = 32768
llama_context: n_batch       = 512
llama_context: n_ubatch      = 512
llama_context: causal_attn   = 1
llama_context: flash_attn    = 0
llama_context: freq_base     = 1000000.0
llama_context: freq_scale    = 1
llama_context:        CPU  output buffer size =     0.59 MiB
llama_kv_cache_unified: kv_size = 32768, type_k = 'f16', type_v = 'f16', n_layer = 36, can_shift = 1, padding = 32
llama_kv_cache_unified:        CPU KV buffer size =  1152.00 MiB
llama_kv_cache_unified: KV self size  = 1152.00 MiB, K (f16):  576.00 MiB, V (f16):  576.00 MiB
llama_context:        CPU compute buffer size =  1104.01 MiB
llama_context: graph nodes  = 1338
llama_context: graph splits = 1
time=2025-06-27T13:31:16.704-05:00 level=INFO source=server.go:630 msg=&quot;llama runner started in 5.81 seconds&quot;
[GIN] 2025/06/27 - 13:40:23 | 200 |            0s |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/27 - 13:40:23 | 200 |            0s |       127.0.0.1 | GET      &quot;/api/ps&quot;
[GIN] 2025/06/27 - 14:00:08 | 200 |         29m8s |       127.0.0.1 | POST     &quot;/api/chat&quot;
time=2025-06-27T14:59:12.959-05:00 level=INFO source=server.go:135 msg=&quot;system memory&quot; total=&quot;24.0 GiB&quot; free=&quot;1.5 GiB&quot; free_swap=&quot;4.8 GiB&quot;
time=2025-06-27T14:59:14.103-05:00 level=INFO source=server.go:168 msg=offload library=rocm layers.requested=-1 layers.model=29 layers.offload=0 layers.split=&quot;&quot; memory.available=&quot;[290.7 MiB]&quot; memory.gpu_overhead=&quot;0 B&quot; memory.required.full=&quot;2.7 GiB&quot; memory.required.partial=&quot;0 B&quot; memory.required.kv=&quot;896.0 MiB&quot; memory.required.allocations=&quot;[0 B]&quot; memory.weights.total=&quot;1.9 GiB&quot; memory.weights.repeating=&quot;1.6 GiB&quot; memory.weights.nonrepeating=&quot;308.2 MiB&quot; memory.graph.full=&quot;424.0 MiB&quot; memory.graph.partial=&quot;570.7 MiB&quot;
time=2025-06-27T14:59:14.103-05:00 level=WARN source=server.go:199 msg=&quot;flash attention enabled but not supported by gpu&quot;
llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Llama 3.2 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Llama-3.2
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                               general.tags arr[str,6]       = [&quot;facebook&quot;, &quot;meta&quot;, &quot;pytorch&quot;, &quot;llam...
llama_model_loader: - kv   7:                          general.languages arr[str,8]       = [&quot;en&quot;, &quot;de&quot;, &quot;fr&quot;, &quot;it&quot;, &quot;pt&quot;, &quot;hi&quot;, ...
llama_model_loader: - kv   8:                          llama.block_count u32              = 28
llama_model_loader: - kv   9:                       llama.context_length u32              = 131072
llama_model_loader: - kv  10:                     llama.embedding_length u32              = 3072
llama_model_loader: - kv  11:                  llama.feed_forward_length u32              = 8192
llama_model_loader: - kv  12:                 llama.attention.head_count u32              = 24
llama_model_loader: - kv  13:              llama.attention.head_count_kv u32              = 8
llama_model_loader: - kv  14:                       llama.rope.freq_base f32              = 500000.000000
llama_model_loader: - kv  15:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
llama_model_loader: - kv  16:                 llama.attention.key_length u32              = 128
llama_model_loader: - kv  17:               llama.attention.value_length u32              = 128
llama_model_loader: - kv  18:                          general.file_type u32              = 15
llama_model_loader: - kv  19:                           llama.vocab_size u32              = 128256
llama_model_loader: - kv  20:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv  21:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  22:                         tokenizer.ggml.pre str              = llama-bpe
llama_model_loader: - kv  23:                      tokenizer.ggml.tokens arr[str,128256]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  24:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  25:                      tokenizer.ggml.merges arr[str,280147]  = [&quot;Ġ Ġ&quot;, &quot;Ġ ĠĠĠ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;...
llama_model_loader: - kv  26:                tokenizer.ggml.bos_token_id u32              = 128000
llama_model_loader: - kv  27:                tokenizer.ggml.eos_token_id u32              = 128009
llama_model_loader: - kv  28:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
llama_model_loader: - kv  29:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   58 tensors
llama_model_loader: - type q4_K:  168 tensors
llama_model_loader: - type q6_K:   29 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.87 GiB (5.01 BPW) 
load: special tokens cache size = 256
load: token to piece cache size = 0.7999 MB
print_info: arch             = llama
print_info: vocab_only       = 1
print_info: model type       = ?B
print_info: model params     = 3.21 B
print_info: general.name     = Llama 3.2 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 128256
print_info: n_merges         = 280147
print_info: BOS token        = 128000 '&lt;|begin_of_text|&gt;'
print_info: EOS token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOT token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOM token        = 128008 '&lt;|eom_id|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: EOG token        = 128008 '&lt;|eom_id|&gt;'
print_info: EOG token        = 128009 '&lt;|eot_id|&gt;'
print_info: max token length = 256
llama_model_load: vocab only - skipping tensors
time=2025-06-27T14:59:14.720-05:00 level=INFO source=server.go:431 msg=&quot;starting llama server&quot; cmd=&quot;C:\\\\dev\\\\ollama\\\\ollama\\\\ollama.exe runner --model C:\\\\Users\\\\mlt\\\\.ollama\\\\models\\\\blobs\\\\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff --ctx-size 8192 --batch-size 512 --threads 4 --no-mmap --parallel 1 --port 63871&quot;
time=2025-06-27T14:59:14.731-05:00 level=INFO source=sched.go:483 msg=&quot;loaded runners&quot; count=1
time=2025-06-27T14:59:14.731-05:00 level=INFO source=server.go:591 msg=&quot;waiting for llama runner to start responding&quot;
time=2025-06-27T14:59:14.731-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server error&quot;
time=2025-06-27T14:59:14.921-05:00 level=INFO source=runner.go:815 msg=&quot;starting go runner&quot;
load_backend: loaded CPU backend from C:\dev\ollama\ollama\build\lib\ollama\ggml-cpu-sandybridge.dll
time=2025-06-27T14:59:15.002-05:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.LLAMAFILE=1 CPU.1.SSE3=1 CPU.1.LLAMAFILE=1 compiler=cgo(gcc)
time=2025-06-27T14:59:15.007-05:00 level=INFO source=runner.go:874 msg=&quot;Server listening on 127.0.0.1:63871&quot;
llama_model_loader: loaded meta data with 30 key-value pairs and 255 tensors from C:\Users\mlt\.ollama\models\blobs\sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Llama 3.2 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Llama-3.2
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                               general.tags arr[str,6]       = [&quot;facebook&quot;, &quot;meta&quot;, &quot;pytorch&quot;, &quot;llam...
llama_model_loader: - kv   7:                          general.languages arr[str,8]       = [&quot;en&quot;, &quot;de&quot;, &quot;fr&quot;, &quot;it&quot;, &quot;pt&quot;, &quot;hi&quot;, ...
llama_model_loader: - kv   8:                          llama.block_count u32              = 28
llama_model_loader: - kv   9:                       llama.context_length u32              = 131072
llama_model_loader: - kv  10:                     llama.embedding_length u32              = 3072
llama_model_loader: - kv  11:                  llama.feed_forward_length u32              = 8192
llama_model_loader: - kv  12:                 llama.attention.head_count u32              = 24
llama_model_loader: - kv  13:              llama.attention.head_count_kv u32              = 8
llama_model_loader: - kv  14:                       llama.rope.freq_base f32              = 500000.000000
llama_model_loader: - kv  15:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
llama_model_loader: - kv  16:                 llama.attention.key_length u32              = 128
llama_model_loader: - kv  17:               llama.attention.value_length u32              = 128
llama_model_loader: - kv  18:                          general.file_type u32              = 15
llama_model_loader: - kv  19:                           llama.vocab_size u32              = 128256
llama_model_loader: - kv  20:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv  21:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  22:                         tokenizer.ggml.pre str              = llama-bpe
llama_model_loader: - kv  23:                      tokenizer.ggml.tokens arr[str,128256]  = [&quot;!&quot;, &quot;\&quot;&quot;, &quot;#&quot;, &quot;$&quot;, &quot;%&quot;, &quot;&amp;&quot;, &quot;'&quot;, ...
llama_model_loader: - kv  24:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  25:                      tokenizer.ggml.merges arr[str,280147]  = [&quot;Ġ Ġ&quot;, &quot;Ġ ĠĠĠ&quot;, &quot;ĠĠ ĠĠ&quot;, &quot;...
llama_model_loader: - kv  26:                tokenizer.ggml.bos_token_id u32              = 128000
llama_model_loader: - kv  27:                tokenizer.ggml.eos_token_id u32              = 128009
llama_model_loader: - kv  28:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
llama_model_loader: - kv  29:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   58 tensors
llama_model_loader: - type q4_K:  168 tensors
llama_model_loader: - type q6_K:   29 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 1.87 GiB (5.01 BPW) 
time=2025-06-27T14:59:15.237-05:00 level=INFO source=server.go:625 msg=&quot;waiting for server to become available&quot; status=&quot;llm server loading model&quot;
load: special tokens cache size = 256
load: token to piece cache size = 0.7999 MB
print_info: arch             = llama
print_info: vocab_only       = 0
print_info: n_ctx_train      = 131072
print_info: n_embd           = 3072
print_info: n_layer          = 28
print_info: n_head           = 24
print_info: n_head_kv        = 8
print_info: n_rot            = 128
print_info: n_swa            = 0
print_info: n_swa_pattern    = 1
print_info: n_embd_head_k    = 128
print_info: n_embd_head_v    = 128
print_info: n_gqa            = 3
print_info: n_embd_k_gqa     = 1024
print_info: n_embd_v_gqa     = 1024
print_info: f_norm_eps       = 0.0e+00
print_info: f_norm_rms_eps   = 1.0e-05
print_info: f_clamp_kqv      = 0.0e+00
print_info: f_max_alibi_bias = 0.0e+00
print_info: f_logit_scale    = 0.0e+00
print_info: f_attn_scale     = 0.0e+00
print_info: n_ff             = 8192
print_info: n_expert         = 0
print_info: n_expert_used    = 0
print_info: causal attn      = 1
print_info: pooling type     = 0
print_info: rope type        = 0
print_info: rope scaling     = linear
print_info: freq_base_train  = 500000.0
print_info: freq_scale_train = 1
print_info: n_ctx_orig_yarn  = 131072
print_info: rope_finetuned   = unknown
print_info: ssm_d_conv       = 0
print_info: ssm_d_inner      = 0
print_info: ssm_d_state      = 0
print_info: ssm_dt_rank      = 0
print_info: ssm_dt_b_c_rms   = 0
print_info: model type       = 3B
print_info: model params     = 3.21 B
print_info: general.name     = Llama 3.2 3B Instruct
print_info: vocab type       = BPE
print_info: n_vocab          = 128256
print_info: n_merges         = 280147
print_info: BOS token        = 128000 '&lt;|begin_of_text|&gt;'
print_info: EOS token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOT token        = 128009 '&lt;|eot_id|&gt;'
print_info: EOM token        = 128008 '&lt;|eom_id|&gt;'
print_info: LF token         = 198 'Ċ'
print_info: EOG token        = 128008 '&lt;|eom_id|&gt;'
print_info: EOG token        = 128009 '&lt;|eot_id|&gt;'
print_info: max token length = 256
load_tensors: loading model tensors, this can take a while... (mmap = false)
load_tensors:          CPU model buffer size =  1918.35 MiB
llama_context: constructing llama_context
llama_context: n_seq_max     = 1
llama_context: n_ctx         = 8192
llama_context: n_ctx_per_seq = 8192
llama_context: n_batch       = 512
llama_context: n_ubatch      = 512
llama_context: causal_attn   = 1
llama_context: flash_attn    = 0
llama_context: freq_base     = 500000.0
llama_context: freq_scale    = 1
llama_context: n_ctx_per_seq (8192) &lt; n_ctx_train (131072) -- the full capacity of the model will not be utilized
llama_context:        CPU  output buffer size =     0.50 MiB
llama_kv_cache_unified: kv_size = 8192, type_k = 'f16', type_v = 'f16', n_layer = 28, can_shift = 1, padding = 32
llama_kv_cache_unified:        CPU KV buffer size =   896.00 MiB
llama_kv_cache_unified: KV self size  =  896.00 MiB, K (f16):  448.00 MiB, V (f16):  448.00 MiB
llama_context:        CPU compute buffer size =   424.01 MiB
llama_context: graph nodes  = 958
llama_context: graph splits = 1
time=2025-06-27T14:59:21.273-05:00 level=INFO source=server.go:630 msg=&quot;llama runner started in 6.54 seconds&quot;
[GIN] 2025/06/27 - 14:59:39 | 200 |       1.691ms |       127.0.0.1 | HEAD     &quot;/&quot;
[GIN] 2025/06/27 - 14:59:39 | 200 |      1.0781ms |       127.0.0.1 | GET      &quot;/api/ps&quot;
time=2025-06-27T15:00:05.182-05:00 level=ERROR source=server.go:800 msg=&quot;post predict&quot; error=&quot;Post \\&quot;http://127.0.0.1:63871/completion\&quot;: context canceled&quot;
[GIN] 2025/06/27 - 15:00:05 | 200 |          1m0s |       127.0.0.1 | POST     &quot;/api/chat&quot;

Private - Private paste aren't shown in recent listings.

Delete After - When should we delete your paste?

Spam protection -

ollama migrates to 100% cpu

Reply to "ollama migrates to 100% cpu"