10
2025
08

开yun体育网如图 ( b ) 所示-开云网页版登录·官方网站入口

发布日期:2025-08-10 11:10    点击次数:183

无编码器多模态大模子被拓展到 3D 范围——

3D 编码器的功能被融入 LLM 本人,无编码器 3D LMM 妥贴不同的点云分辨率,解脱预检修编码器的依赖。

来自上海 AI Lab、西北工业大学、香港中语大学、清华大学等建议ENEL,在预检修阶段探索了怎么使用自监督死亡将 3D 编码器的功能整合到 LLM 本人,在教唆调优阶段建议了一种档次几何团员政策,基于 PointLLM 初度全面研讨了无编码器架构在 3D 多模态大模子中的后劲。

在 Objaverse 基准测试中,ENEL 推崇杰出,性能上特等现在 SOTA ShapeLLM-13B。

基于编码器架构的 3D LMM 的局限性

针对 3D 大型多模态模子(LMMs),基于编码器的架构存在以下潜在问题:

(1)点云分辨率截至。3D 编码器频频在固定分辨率的点云数据上进行预检修(如 PointBERT 中的 1024 个点)。关联词在推理经由中,点云的分辨率可能发生变化(举例,8192 或 512 个点),这导致检修与推理分辨率不一致,从而在提真金不怕火 3D 镶嵌时丢失空间信息,影响 LLM 的纠合才能,如图 ( a ) 所示。

(2)镶嵌语义各异。3D 编码器频频秉承自监督学习才能(如掩码自编码器和对比学习)进行预检修,但其检修见识与 LLMs 的语义需求可能不透顶一致,因此无法捕捉 LLMs 纠合 3D 物体所需的要害语义信息,如图 ( b ) 所示。

浅显的 MLP 频频也难以结束充分的语义调养。从上图可见,ENEL 的无编码器架构提供了更高的无邪性和更强的泛化性,更多怜惜到 3D 要害语义。

应用自监督死亡将 3D 编码器纳入 LLM 本人

无编码器结构领先濒临的问题是怎么提真金不怕火高级次 3D 语义信息,幸免模子难以捕捉 3D 点云的复杂空间结构。不错不雅察到从 PointLLM 中拿掉 Encoder 后,模子性能权臣下落。

PointLLM 原生的 token embedding 模块过于粗粒度,为了减少信息死亡并提供雅致的局部特征,团队秉承了一个来自 Point-PN 的轻量化变体微型网罗。

具体而言,关于点云团队通过 FPS 进行下采样,秉承 knn 进行局部团员,并使用可学习的线性层进行特征编码。驱散标明团队接洽的 embedding 模块比较不错带来透露的性能晋升。

为了让 LLM 进一步承担 encoder 的编码功能,在预检修阶段尝试了将 LLM 的前几层设为可学习来挖掘点云特征中的高级语义信息,驱懒散现较小的学习率约略带来更好的驱散。

通过以上两种改动,无编码器结构依然与基于编码器的 PointLLM 在描写任务上抓平。

现时的 3D 编码器大多依靠自监督死亡学习提真金不怕火并编码高级次 3D 语义信息 , 主要分为封闭建模死亡 ( a ) 、重建死亡 ( b ) 、对比死亡 ( c ) 和常识蒸馏死亡 ( d ) 。

基于编码器架构的 3D LMM 在检修时依靠对笔墨部分应用自纪念死亡进行学习,那是否能同期对点云部分应用自监督死亡,将 3D 编码器的才能整合进 LLM 本人?

团队在预检修阶段结束并评估了这些死亡对无编码器 3D LMM 的影响。

具体而言,封闭建模损成仇重建死亡分辨对点云掩码 token 的部分进行规复和对整体点云 token 进行重建,而常识蒸馏死亡秉承 uni3d-L 在特征层面进行蒸馏。

终末团队建议了一种羼杂语义死亡,先对点云 token 进行立时掩码,然后将 mask token 拼接在 visible token 的背面以合乎自纪念逻辑,同期对 visible token 规划重建死亡,这种羼杂才能不仅约略有用地将高级次语义信息镶嵌 LLM 中,还能确保在总计这个词点云学习经由中,几何信息的一致性得以保抓。

从实践驱散中不错不雅察到,自监督学习死亡在无编码器 3D LMM 中频频具有积极影响,通过全心境划的任务促使 LLM 在学习经由中捕捉潜在的几何相干以及深档次的语义信息。

其中,封闭建模死亡展现出最为权臣的性能晋升。

相较之下,常识蒸馏死亡的晋升成果较为有限,推崇失态于前两种死亡类型。

档次几何团员政策感知 3D 局部细节

传统的 3D 编码器往往通过将显式的归纳偏置镶嵌其架构中,冉冉捕捉多档次的 3D 几何特征。举例,像 Point-M2AE 这么的模子秉承了局部到全局的档次结构,这一结构在 2D 图像惩办中常见于卷积层。比较之下,无编码器架构的 LLM 莫得明确的局部建模模块,主要依赖自概括力机制来建模全局交互。

因此,怎么将归纳偏置有用地整合到 LLM 中,以增强其对 3D 几何结构的感知才能,成为一个伏击问题。

基于建议的羼杂语义死亡,在教唆调优阶段,团队探索了怎么促使 LLM 主动感知 3D 局部细节,同期补充其已学习的全局语义信息。为此,团队接洽了档次几何团员政策。

具体来说,从 LLM 的第二层开动,通过最远点采样将输入点云 token 下采样,将令牌数目减少至 M/2 并选取局部中心。接着,行使 k-NN 算法获得周边点,并通过门控自概括力机制捕捉局部几何信息。

最终,通过池化操作交融周边点特征,得到 M/2 长度的特征示意,并叠加 l-1 次,完成几何团员。通过多层 LLM 层后,再通过 l 次几何传播将团员后的特征从局部中心传播至周边点,最终规复为长度为 M 的点云特征,增强模子对局部和全局几何结构的感知。

实践驱散:定性定量分析

定性实践中,团队可视化了 PointLLM 和 ENEL 终末一层中,平均文本 token 与点云 token 之间的概括力得分。

团队选择了三种物体类别:椅子、飞机和台灯。

图中红色示意较高的概括力得分。

驱散流露,ENEL 行为无编码器架构,约略结束两种模态特征之间的高关联性,平均文本 token 聚焦于物体的要害几何结构。

在 Objaverse 基准测试中,ENEL-7B 在描写和分类任务上特等了同等范围甚而 13B 的模子。此外,在 3D MM-Vet 数据集的 3D-VQA 任务中,尽管检修数据短少空间和具身交互信息,ENEL 仍取得了 42.7% 的 GPT 得分,跨越 PointLLM-7B 1.5%。

定性定量驱散考据了羼杂语义损成仇档次几何团员政策在无编码器架构中的有用性。

代码贯串:

https://github.com/Ivan-Tang-3D/ENEL.

论文贯串:

https://arxiv.org/pdf/2502.09620v1

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿骨子‍

附上论文 / 神志主页贯串,以及操办姿色哦

咱们会(尽量)实时回应你

一键怜惜 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「防范心」

宽待在指摘区留住你的思法!开yun体育网



相关资讯
热点资讯


Powered by 开云网页版登录·官方网站入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024