1、下载并编译qwen.cpp
git clone --recursive https://github.com/QwenLM/qwen.cpp cd qwen.cpp cmake -B build cmake -B build -DGGML_OPENBLAS=ON cmake -B build -DGGML_CUBLAS=ON cmake --build build -j --config Release
2、下载模型,转化为ggml格式
#从hf下载模型,下载完成后,本地地址为 ~/.cache/huggingface/hub/模型名称 #部分代码文件会有缺失,可以到hf上对比下载 from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat",trust_remote_code=True)
#模型转化为ggml格式 #同时进行量化,降低资源需求 python3 qwen_cpp/convert.py -i PATH_TO_MODEL -t q4_0 -o qwen7b-q40-ggml.bin
3、运行模型
./build/bin/main -m qwen7b-q40-ggml.bin --tiktoken PATH_TO_MODEL/qwen.tiktoken -i