novel ideas for MLLM research

comprehensive survey for MLLM research

Posted by Kylin on June 25, 2023

[TOC]

idea:

  • rethinking 传统的 image caption 的问题(从前研究没法解决的LLM可以解决的)
  • caption组合泛化外部知识结合
  • 以人为中心的 Video Caption
  • Dense Video Caption 的动态
  • 语言多样性的 Video Caption
  • 细粒度的 Caption
  • 新闻文本的caption/短视频评论的caption
Image Caption

Deep Visual-Semantic Alignments… , Li Fei-Fei 视觉语意对齐 2014

图像信息(高维度的)远大于文本信息

show and tell 2015

show, attend and tell 2016 (有colab)

  • 新的paper

GIT: A Generative Image-to-text Transformer for Vision and Language

BLIP2:目前冻结式的两阶段训练;zero-shot效果极好(MoE的替代方案)

ClipCap:

prefix tuning:”Prefix-tuning”是一种用于微调大型预训练语言模型的技术,如OpenAI的GPT-3或GPT-4。这种技术的基本思想是在模型的输入序列的开头添加一个可训练的、固定长度的”前缀”,并只在这个前缀上进行参数更新,而保持原模型的其余参数不变。在这种设置下,前缀实际上可以看作是一个可调整的任务特定嵌入,它可以帮助指导模型在特定任务上的行为。

P-tuning:”P-tuning” 是 “Pattern-tuning” 的简称,是一种新颖的微调技术,用于训练和优化大型预训练语言模型,如 OpenAI 的 GPT-3 或 GPT-4。这种方法的关键思想是将特定的任务表示为填充(或完形填空)问题,并且构建一个模式或模板(即”Pattern”),然后在训练过程中找到最佳的参数。举个例子,假设你有一个情感分析任务,你可以创建一个模式如 “The sentiment of the sentence ‘__’ is __.” ,然后模型的任务就是填充这个模式,提供正确的情感输出。

Prompt:在自然语言处理(NLP)和人工智能(AI)领域,”Prompt”通常是指引导或触发模型生成特定输出的输入文本。对于一种称为”生成模型”的模型,prompt通常作为模型的输入,并启动生成过程。

fine-tuning:就是小规模训练呗

Video Caption

Idea:

中文video caption

image attention迁移

zero-shotvideo caption

前沿:

End to end dense video caption parallel (代码好跑)

global object propasals for improving

看下VAE DALL-E

LLMs pretrain

A survey of LLMs:

主要研究集中在4个方面:pre-train、domain fine-tuning、利用、能力评估

idea:

填平语义鸿沟:UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

正向例子和反向例子:回译 vs. 检索

vlbert:简单用image token代替bert token;how nlp to cv

nlpcc idea: 通过偏旁构造vector