novel ideas for MLLM research

[TOC]

idea：

rethinking 传统的 image caption 的问题（从前研究没法解决的LLM可以解决的）
caption组合泛化外部知识结合
以人为中心的 Video Caption
Dense Video Caption 的动态
语言多样性的 Video Caption
细粒度的 Caption
新闻文本的caption/短视频评论的caption

Image Caption

Deep Visual-Semantic Alignments… , Li Fei-Fei 视觉语意对齐 2014

图像信息（高维度的）远大于文本信息

show and tell 2015

show, attend and tell 2016 (有colab)

新的paper

GIT: A Generative Image-to-text Transformer for Vision and Language

BLIP2：目前冻结式的两阶段训练；zero-shot效果极好（MoE的替代方案）

ClipCap：

prefix tuning：”Prefix-tuning”是一种用于微调大型预训练语言模型的技术，如OpenAI的GPT-3或GPT-4。这种技术的基本思想是在模型的输入序列的开头添加一个可训练的、固定长度的”前缀”，并只在这个前缀上进行参数更新，而保持原模型的其余参数不变。在这种设置下，前缀实际上可以看作是一个可调整的任务特定嵌入，它可以帮助指导模型在特定任务上的行为。

P-tuning：”P-tuning” 是 “Pattern-tuning” 的简称，是一种新颖的微调技术，用于训练和优化大型预训练语言模型，如 OpenAI 的 GPT-3 或 GPT-4。这种方法的关键思想是将特定的任务表示为填充（或完形填空）问题，并且构建一个模式或模板（即”Pattern”），然后在训练过程中找到最佳的参数。举个例子，假设你有一个情感分析任务，你可以创建一个模式如 “The sentiment of the sentence ‘__’ is __.” ，然后模型的任务就是填充这个模式，提供正确的情感输出。

Prompt：在自然语言处理（NLP）和人工智能（AI）领域，”Prompt”通常是指引导或触发模型生成特定输出的输入文本。对于一种称为”生成模型”的模型，prompt通常作为模型的输入，并启动生成过程。

fine-tuning：就是小规模训练呗

Video Caption

Idea:

中文video caption

image attention迁移

zero-shotvideo caption

前沿：

End to end dense video caption parallel （代码好跑）

global object propasals for improving

看下VAE DALL-E

LLMs pretrain

A survey of LLMs:

主要研究集中在4个方面：pre-train、domain fine-tuning、利用、能力评估

idea:

填平语义鸿沟：UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

正向例子和反向例子：回译 vs. 检索

vlbert：简单用image token代替bert token；how nlp to cv

nlpcc idea: 通过偏旁构造vector

comprehensive survey for MLLM research

Image Caption

Video Caption

LLMs pretrain

CATALOG

FEATURED TAGS

FRIENDS