多模态训练加速支持

**Describe the feature**
多模态训练的时候有一种情况是一张图片下我生产了多个QA对（但是不是多轮对话）
1. 理想情况是这些样本是图片只forward一次，其他QA对分别forward然后算loss指标
2. 最好的情况是用预缓存，因为MLLM的模型其实ViT参数不会动，最好的还是把图片过了ViT之后的特征存储下来，这样训练的时候就不需要forward图片了

请教下现有训练框架里有什么优化的手段吗？
如果没有的话能不能说下你们的排期？
@Jintao-Huang  老板可以麻烦看下这个吗？多谢！