M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining
Paper
•
2401.15896
•
Published
M2-Encoder是强大的中英双语多模态模型,它在我们构建的包含60亿图文对(30亿中文+30亿英文)的BM-6B上训练得到,支持zero-shot 图文跨模态检索(文搜图、图搜文) 以及 zero-shot图片分类 任务。
模型效果如下:
本模型主要用于:
# 新建环境(Python版本3.8)
conda create -n m2-encoder python=3.8
source activate m2-encoder
# clone项目地址
cd /YourPath/
git clone https://github.com/alipay/Ant-Multi-Modal-Framework
# 安装包依赖
cd ./Ant-Multi-Modal-Framework/prj/M2_Encoder/
pip install -r requirements.txt
# 运行demo,会自动通过model_scope下载对应模型权重
python run.py
模型在数据集上训练,有可能产生一些偏差,请用户自行评测后决定如何使用。
BM-6B数据集: 包含60亿清洗后的高质量中英双语图文对数据,其中文和英文数据比例基本保持一致,均为30亿。数据集搜集、构建过程详见技术报告。
暂时不支持通过ModelScope接口进行训练,敬请期待。
暂不支持。
zero-shot图文跨模态检索和zero-shot分类任务均达到SOTA.
如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文:
@misc{guo2024m2encoder,
title={M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining},
author={Qingpei Guo and Furong Xu and Hanxiao Zhang and Wang Ren and Ziping Ma and Lin Ju and Jian Wang and Jingdong Chen and Ming Yang},
year={2024},
url={https://arxiv.org/abs/2401.15896},
}