统一统一的多模式框架:将海德格锤放入AI的自变

来源丨自变量机器人(ID:gh_0ed81f957c26)作者丨自变量机器人图源丨Midjourney资料来源:Chuangyebang Fuente当专家木匠抓住锤子时,锤子被自由使用而不思考身体,而不仅仅是思考。但是,Avant -Garde机器人仍然无法放置此“锤子”。它们被困在一个循环中:识别锤子,计划如何使用锤子,并且在所有交互作用中,该工具必须重新选择为认知对象。这种划分的样式管理方法可防止AI达到其对人类直观工具的使用水平。化身情报的发展来自建筑革命,而不是修补现有视觉语言的基本模型。轻速速度光合作用公司合成公司的成员认为,他们必须放弃多模块模块的融合,例如其核,并从头到尾朝着统一的建筑迈进。该体系结构旨在完全消除视觉,语言和动作之间的人类限制,并将其减少到单个信息流中唱歌。 2024年,光之光的效果导致了自变量机器人的A ++++融资回合的投资。上个月,该公司宣布已经完成了以前的A +++回合和数亿美元的原始回合。现有主要方法的基本局限性涉及各种模式,例如独立模块,例如先前训练的视觉VIT处理信息,了解LLM处理语言和通过融合层的连接。该委员会风格的设计具有基本的缺陷。首先是表征瓶颈问题。当信息通过多种方式之间传递到独家编码器之间时,向盲人解释了油,这会导致不可或缺的损失压制,从而使盲人能够将油漆的含量传达给聋人。这种损失阻碍了对模型物理世界的深刻联合理解。最重要的是无法出现的问题。结构性划分使该模型难以学习物理世界中的模态和直观的因果方法。就像一个人无法单独骑自行车阅读教科书一样,真正的体育智能也有知识。 True Incorporated Intelligence必须在统一的计算机框架(例如人类认知)中同时和同时解决,而不是多个特殊模块之间的协作。体系结构的核心是Aprenunified的表达。自变量机器人将所有模态信息(视觉,语言,触摸,动作)转换为共享的高维令牌序列,从而消除了模态之间的人为限制。一个重要的进步是将多模式多站生成用作监督机制。系统必须学会生成模型的另一个模态内容。具体而言,自变量机器人转换所有输入模式,包括多个视觉图像,文本指令ND机器人通过各自的编码器中的集成令牌序列实时陈述,并将其发送到Transcore。其中,以前训练的多模式理解模型负责整合信息以完成对空间意识和任务推理计划的理解,而Generation Expert(Gen。Expert)(Gen。Expert)预测了图像和视频信息并直接生成可执行的机器人动作。两者通过模式的注意力层深入连接,这允许感知,推理和行为信息的流动向两个方向发展,双向,双向和末端 - 末端学习。该体系结构允许出现合并的多模式推理。面对新任务,该系统可以执行类似于人类的整体认知处理。视觉理解,语义推理,物理预测和行动计划并联并在统一空间中相互影响,而不是SERIES处理。通过这个统一的末端 - 末端学习,系统可以将其作为人类思考和发挥作用。我们不依赖于模块化信息的传输,而是直接在ADEEP表示空间中实施了模式的因果推理和行为决策。紧急容量:Timodal Maruinference混凝土这种集成的体系结构旨在解锁嵌入和具体的多模式推理能力,而当前模块化系统无法实现。首先是符号空间的推理能力。当人类自由绘制几何形状时,机器人首先通过理解复杂的几何模式来进行多个级别的推断,然后在统一表示空间中执行多个级别。我们分解了混凝土字母组合的抽象两个维数,我们了解这些字母的空间处置的逻辑,并推断我们将完全继续。同时,机器人可以直接翻译是对三维空间中物理操纵中抽象符号的理解,并使用构造块进行繁殖框架,以精确的角色的空间处理。整个过程反映了视觉感知,因果推理和空间操纵的深层融合。第二个是物理推理能力。请参阅具有构造块的操作步骤的机器人,使机器人可以在统一的潜在空间中直接执行视觉空间逻辑推理和因果关系。在此过程中,机器人包括每个构造块的放置如何影响一般的结构稳定性,促进了操作序列背后的工程逻辑,并预测了不同操作途径的可能结果。同时,机器人可以在语言思想链中将这种物理推断的过程外包,清楚地表达了他们对空间关系,重力限制和施工策略的理解。 f机器人可以根据这种深刻的物理理解来完成独立的三维结构的构建,这表明了物理直觉和推理技能的有机组合。第三个进步是独立探索推论链的能力。面对复杂的环境,系统可以整合视觉观察,空间记忆和常识知识以构建一致的推理链。整个过程结合了基于常识知识的感知,记忆,推理和行为的完美整合以及灵活的决策能力。这种推论过程是结束学习的自然出现。以前的三个视频机器人必须在操作期间生成真实的时间推理过程。这使模型可以进行物理操纵,视觉和统一的体系结构。语言推理的准确同步。最后显示的能力从视频和协作推理中学习的机器人。在观察人类操纵视频时,机器人会促进视频动作背后的深刻意图和目标条件。这种能力超出了模仿简单动作的模仿,反映视频学习,对人类意图的理解,共同目标的推理和自主协作决策的制定能力,这些能力证明了真正的自主学习以及人类计算机协作的能力。这些表现形式背后的结论是基本的范式转换。传统的多模式系统将世界分解为独立的表示模块,但是世界的物理互动是连续的,是实时和多模式耦合的,而机器人则必须同时进行视觉判断,强度控制和安全性预测,而当它们获得易受伤害的元素,并且在模块之间延迟或丢失信息可能会导致失败。一个统一的拱门创建自变量机器人的ITECTER,以满足此并入交互的要求。这种转变的重要性在于,机器人可以在没有问题的情况下结合起来,因为海德格尔描述的熟练工匠的感知,理解和行为。机器人不再需要进行“视觉识别 - >语言计划 - >语言计划 - >动作执行”的长期处理,而是在统一表示空间中直接理解,以作为执行特定意图的手段。机器人可以“查看”物理特性并了解其在任务中的作用。正是这种多模式信息的平行融合过程允许多模式推理函数自然出现,这使机器人最终可以像人类一样轻柔地与物理世界互动。自变量机器人认为,融合智能的未来途径是从划分的表示系统的设计转变为联合国的构建能够执行真正合并的多模式推理的IFIED系统。这不是逐步的改进,而是AI的必要架构进化,以允许用于一般操作的融合,空间逻辑扣除和智能。