Clip4Cir开源:基于参考图像和文字描述搜索图片

极客号(Daydx.com)8月25日 消息:Clip4Cir采用了一种搜索图片的方法,图片看起来像给定的图片,但是在标题中描述了变化。它使用了增加了特殊技巧的 CLIP 模型。该方法在流行的图像搜索数据集 FashionIQ 和 CIRR 上表现更佳。

Clip4Cir开源:基于参考图像和文字描述搜索图片

项目地址:https://github.com/ABaldrati/CLIP4Cir

CLIP 模型是一个多模态视觉模型,它可以理解自然语言描述与图像的复杂对应关系。通过在标题中描述变化,可以更精确地寻找符合用户需求的图像。这一改进将有助于提高图像搜索的准确性和用户体验。

主要内容包括:

项目目标:实现基于参考图像和文字描述的图像检索任务

模型框架:先微调CLIP encoder,再训练Combiner网络进行多模态融合

数据集:使用FashionIQ和CIRR两个流行的数据集

用法:提供了CLIP微调、Combiner训练、评估等多个脚本

效果:验证结果表明,相比复杂的SOTA方法,该方案可以获得更好的性能

特点:代码清晰易于理解,便于研究

总体来说,本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案,值得关注和参考。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年8月25日 12:18
下一篇 2023年8月25日 12:18

热点推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注