Notes for BLIP2

VQA

Posted by Kylin on June 8, 2023

[TOC]

Notes

  • catastrophic forgetting

Catastrophic forgetting(灾难性遗忘)是指在连续学习或迁移学习中,当一个机器学习模型学习新任务时,它会忘记之前学到的旧任务的能力的现象。当一个模型被训练来解决多个任务时,通常会发生这种情况。

  • zero-shot instructed image-to- text generation

Zero-shot instructed image-to-text generation(零样本指导的图像到文本生成)是一种技术,结合了图像和文本的多模态学习,旨在通过机器学习模型将图像转换为文字描述:

1)使用外部文本指导来生成更准确和有指向性的描述

2)无需使用特定图像和描述标签对模型进行训练。

  • cross-modal alignment

跨模态对齐(cross-modal alignment)是指在多模态学习中,将不同模态(如图像、文本、音频等)之间的表示或特征进行匹配和对齐的过程。它旨在确保不同模态之间的信息可以在一个共享的语义空间中进行比较和融合,从而促进模态之间的相互理解和交互。