较长的推理链会导致更多的幻觉。幻觉解决方案
- 编辑:admin -较长的推理链会导致更多的幻觉。幻觉解决方案
Machine Pro ・会员通讯第27周---本周我们正在寻找值得尝试解释IA机器人行业的重要内容--- 1。一长串的推理会导致更多的幻觉。 MLLMS幻觉解决方案难道不足以“复制您的作业”?为什么长期的推理线程会引起MLLM的更严重的幻觉?与事实上的错误和违反大型语言模型的常识相比,MLLM在视觉任务中有什么幻觉?在LLMS幻想的最后一个课程中,MLLM可以直接复制任务吗?为什么视觉编码器的“进化”对于解决MLLM中的幻觉问题如此重要?抹布方法仍然可以提高多模式生成的可靠性吗? 2。“实用手册2025 AI”,哪些AI公司的年收入超过1亿?他是如何成为ICONIQ公司的AI公司的? IA公司赚钱做什么?本地AI Comp的优势是什么大王?拥有年收入的公司如何开发超过1亿元人民币的AI产品?将来如何计费AI产品?人工智能公司对人才的需求如何变化? AI的公司是否要使用?该新闻通讯的完整版本包括2种特殊解释 + 27个主要机器人监测活动,8个技术方面,7个国家方面和12个外国方面。这个问题的沟通完全是23,559个单词,最多可以免费阅读8%。消费99个微信可以交换以解释重要问题(约9.9元)。一系列的推论会导致更多的幻觉。 MLLMS幻觉解决方案是否足以“复制任务”?简介:最近,斯坦福大学,UCSB和USSC学者通过注意力分析发现了与LLM不同的,因为思想链(COT)生成的内容增长了更长的时间,实际上,大型和多模型(MLLM)练习更多强大的幻觉。长时间的推理链使MLLM更加严重,为什么会引起幻觉?是什么导致MLLM和LLM之间的幻觉? 1。测试时间计算允许多模式的大语模型生成扩展的推理链,但是斯坦福大学,UCSB和USSC学者已经观察到,这种改善的推理能力通常意味着更大的幻觉。 [1-1]随着生成的内容的增长越来越多,该模型倾向于偏离图像的内容,并且取决于要求之前的语言。通过注意力分析,研究人员发现,推理的长线减少了对视觉进入的关注并导致幻觉。 2。与传统的大型语言模型(LLM)中的事实上错误论点相比,多模型模型(MLLM)的幻觉不仅是语言产生的偏差,而且还作为模式的语义漏洞。换句话说,模型在理解中偏见当他们理解图像时。 ①在大型语言模型中,幻觉的定义主要是因为输出内容与虚构字符,伪造引号和逻辑冲突等真实事件不一致。根源主要是培训公司的语言建模和概括机制。表:幻觉比较表LLM和MLLM [1-1] - [1-18] 3。为什么这些幻觉经常出现在大型多模型中?主要原因是在当前主要多模式架构的结构设计和训练机制中具有不稳定的潜力。 4。另一方面,大型多模式通常使用“ Visual接口模块 +语言模块”的模块化结构。传统的接口包括横向机制和投影层机制。 [1-2]跨注意机制,例如Minigpt-4中的Q构造器,使用学到的咨询向量来捕获图像函数。 Visual Projec通过线性映射或MLP在语言空间中的LLAVA压缩和视觉映射特征,例如LLAVA压缩和视觉映射特征。 5。这些接口以有限的令牌购买视觉功能,因此它们不允许在模式之间传输信息。尽管有可能实现这一目标,但模型往往会引起“关注的漂移”。也就是说,在生成过程中,自动模型机理倾向于专注于现有的语言令牌而不是图像输入。在欺骗性视觉挑战的情况下,具有很高的视觉挑战(闭塞,醉酒,稀有物体)或具有高语言优先事项,这种“语言统治”现象更为普遍。 6。另一方面,语言模型比视觉编码器(通常是剪辑)大得多,这加剧了语言方式掌握最终输出的趋势。 “对于诸如“什么颜色是香蕉”之类的问题,模型都可以取决于内部知识(即黄色),而不是真正的col或(红色)颜色,出口事实与图像直接不一致。 7。从训练机制的角度来看,多模式使用了大型语言模型的“顶部预测方法”,例如中央训练的丧失(失去自我责任)。 token-to-tovision michod很难捕获监督监督的监督。视觉内容的空间结构和模式的一致性。