Skip to content

多模态训练加速支持 #5263

@kellenf

Description

@kellenf

Describe the feature
多模态训练的时候有一种情况是一张图片下我生产了多个QA对(但是不是多轮对话)

  1. 理想情况是这些样本是图片只forward一次,其他QA对分别forward然后算loss指标
  2. 最好的情况是用预缓存,因为MLLM的模型其实ViT参数不会动,最好的还是把图片过了ViT之后的特征存储下来,这样训练的时候就不需要forward图片了

请教下现有训练框架里有什么优化的手段吗?
如果没有的话能不能说下你们的排期?
@Jintao-Huang 老板可以麻烦看下这个吗?多谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions