Mac环境ComfyUI部署JoyCaption2实现图片反推

一、图片反推利器JoyCaption2介绍

JoyCaption2是一款很优秀的图片反推模型,可以根据图生文(或图片打标),支持多模态语义理解、智能标签优化、并支持与ComfyUI集成。下面介绍Mac环境下插件的安装和使用:

二、软件版本信息

三、安装步骤:

可参考官方文档 进行手工安装,下面内容针对Mac环境进行了适当调整:

1. 插件安装

把仓库下载克隆到 custom_nodes 子文件夹下:

cd custom_nodes
git clone https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two.git

修改requirements.txt,根据mac后面遇到的问题进行修改: 将huggingface_hub改为>=,将bitsandbytes版本改为>=0.42.0,因为mac没有0.44.1的版本,具体如下:

huggingface_hub>=0.23.4
transformers>=4.44.0
numpy==1.26.4
sentencepiece==0.2.0
pillow>=10.4.0
bitsandbytes>=0.42.0
peft>=0.12.0

安装依赖

pip install -r ComfyUI_SLK_joy_caption_two\requirements.txt

2. 模型下载

  • google/siglip-so400m-patch14-384:视觉编码器,使用huggingface-cli来整体下载,并把siglip-so400m-patch14-384内的全部文件复制到models/clip/siglip-so400m-patch14-384
  • unsloth/Meta-Llama-3.1-8B-Instruct语言大模型,务必下载此 8B 版本,bnb-4bit 版本因 bitsandbytes 版本问题在 Mac 上不被支持。下载完成后,将整个文件夹内容复制到models\LLM\Meta-Llama-3.1-8B-Instruct路径下。
  • Joy-Caption-alpha-two核心推理模型(版本2024-09-26a),必须手动下载:鉴于该工程在 huggingface 上属于 space,下载指令如下huggingface-cli download --token 替换为你的token spaces/fancyfeast/joy-caption-alpha-two --local-dir joy-caption-alpha-two;然后将 Joy-Caption-alpha-two 下的cgrkzexw-599808 文件夹的所有内容下载复制到models/Joy_caption_two 下。

3.重启ComfyUI生效

四、示例工作流

工作流支持图生文,批量处理,个性化扩展配置。

下载地址如下:JoyCaption2-comfyUI-example.json

五、常见问题解决:

  1. ImportError: Using bitsandbytes 4-bit quantization requires the latest version of bitsandbytes: pip install -U bitsandbytes:此问题是由于 Mac 系统中的 bitsandbytes 版本过低,且当前无更高版本可供使用。解决方案为采用unsloth/Meta-Llama-3.1-8B-Instruct的 8B 版本,避免使用 bnb-4bit 版本。
  2. 报错huggingface_hub版本太低:因其他工具依赖更高版本,可通过修改 requirements 文件,将 huggingface_hub 改为 “>=” 形式。

参考资料:

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《ITechLib》