多模态大模型评测#
benchmark#
幻觉#
- [2025.06] EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits 研究人员针对性地提出了两个改进方法。一个是 “差异描述生成流水线”,通过放大编辑区域、匹配文字指令里的关键词等方式,让 AI 生成更准确的改动描述,准确率能到 75%,远超之前最好的 39%;另一个是 “瑕疵检测方法”,通过分析图片里物体的清晰度变化等数据,能准确找出 64% 的明显瑕疵,和最好的 GPT-4o 差不多。
- [2025.01] A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges
- [2024.11] ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models 837个文本生成3782个幻觉视频。五种幻觉,包括 “物体消失”(比如人突然不见了)、“遗漏内容”(该有的东西没画)、“数量错误”(数量变多或变少)、“物体变形”(形状、大小变得奇怪)、“视觉矛盾”(出现物理上不可能的情况,比如火车突然垂直于轨道)
Deepresearch#
- [2025.01] Humanity's Last Exam