一、图片反推利器JoyCaption2介绍
JoyCaption2是一款很优秀的图片反推模型,可以根据图生文(或图片打标),支持多模态语义理解、智能标签优化、并支持与ComfyUI集成。下面介绍Mac环境下插件的安装和使用:
二、软件版本信息
- 操作系统:MacOS Sequoia 15.3.2
- Python版本: 3.12.8
- ComfyUI版本: ComfyUI v0.3.26, ComfyUI_frontend v1.11.8
- 关键ComfyUI插件:
三、安装步骤:
可参考官方文档 进行手工安装,下面内容针对Mac环境进行了适当调整:
1. 插件安装
把仓库下载克隆到 custom_nodes 子文件夹下:
cd custom_nodes
git clone https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two.git
修改requirements.txt,根据mac后面遇到的问题进行修改:
将huggingface_hub改为>=,将bitsandbytes版本改为>=0.42.0,因为mac没有0.44.1的版本,具体如下:
huggingface_hub>=0.23.4
transformers>=4.44.0
numpy==1.26.4
sentencepiece==0.2.0
pillow>=10.4.0
bitsandbytes>=0.42.0
peft>=0.12.0
安装依赖:
pip install -r ComfyUI_SLK_joy_caption_two\requirements.txt
2. 模型下载
- google/siglip-so400m-patch14-384:视觉编码器,使用huggingface-cli来整体下载,并把siglip-so400m-patch14-384内的全部文件复制到
models/clip/siglip-so400m-patch14-384
- unsloth/Meta-Llama-3.1-8B-Instruct:语言大模型,务必下载此 8B 版本,bnb-4bit 版本因 bitsandbytes 版本问题在 Mac 上不被支持。下载完成后,将整个文件夹内容复制到
models\LLM\Meta-Llama-3.1-8B-Instruct
路径下。
- Joy-Caption-alpha-two:核心推理模型(版本2024-09-26a),必须手动下载:鉴于该工程在 huggingface 上属于 space,下载指令如下:
huggingface-cli download --token 替换为你的token spaces/fancyfeast/joy-caption-alpha-two --local-dir joy-caption-alpha-two
;然后将 Joy-Caption-alpha-two 下的cgrkzexw-599808
文件夹的所有内容下载复制到models/Joy_caption_two
下。
3.重启ComfyUI生效
四、示例工作流
工作流支持图生文,批量处理,个性化扩展配置。
下载地址如下:JoyCaption2-comfyUI-example.json
五、常见问题解决:
- ImportError: Using
bitsandbytes
4-bit quantization requires the latest version of bitsandbytes: pip install -U bitsandbytes
:此问题是由于 Mac 系统中的 bitsandbytes 版本过低,且当前无更高版本可供使用。解决方案为采用unsloth/Meta-Llama-3.1-8B-Instruct的 8B 版本,避免使用 bnb-4bit 版本。
- 报错huggingface_hub版本太低:因其他工具依赖更高版本,可通过修改 requirements 文件,将 huggingface_hub 改为 “>=” 形式。
参考资料: