VLM - 大模型笔记

大模型笔记

多模态大模型#

学习资料#

开源项目#

LLaVA
- [2023.10] Improved Baselines with Visual Instruction Tuning
- [2023.04] Visual Instruction Tuning
minimind-v 极简vlm模型
[2025.01] MiniMax-01: Scaling Foundation Models with Lightning Attention
- MiniMax-AI/MiniMax-01
[2025.04] Kimi-VL Technical Report
- MoonshotAI/Kimi-VL

Qwen#

Qwen-VL
- [2023.08] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Deepseek#

DeepSeek-VL

核心模块#

Encoder-Decoder#

[2021.02] Learning Transferable Visual Models From Natural Language Supervision
- openai-clip
- clip-vit-base-patch16

« Previous Next »