职位要求
1. 涉及到多模态的计算机视觉算法研发,主要是图像生成文字、图像分类和分割、图像物体识别、图像问答等技术用于建筑相关的场景;
2. 深度学习相关模型设计、优化及相关部署;
3. 与产品组合作,针对特定的业务问题和客户需求,设计定制化的算法,并能设计实验来分析和迭代算法;
1. 硕士及以上学历,机器学习、计算机视觉、图像处理相关背景;
2. 熟悉经典CNN和Transformer网络的适用场景;熟悉PyTorch等主流深度学习框架;
3. 熟悉CLIP等多模态经典模型的原理,对行业内最新的开源模型和趋势(如miniGPT, Qwen, LLaVA, MiniCPM, LISA等)有着一定的跟进;有图像识别和分割、图像问答、图生文等实际工作或科研项目经验者优先;
4. 有过对大语言模型微调的实战经历,包括但不限于prompt tuning, LoRA, full parameter tuning等;
5. 具备扎实的Python编程功底,有至少2年比较规范的编程经历。