随着人形机器人技术的迅猛开展,如何有效失掉高品质的操作数据成为外围应战。鉴于人类操作行为的复杂性和多样性,如何从实在环球中精准捕捉手与物体交互的完整形态,成为推进人形机器人操作技艺学习的关键所在。面对这一应战,穹彻智能携手上海交通大学卢策吾和刘景全团队,翻新性地提出了名为 ViTaM 的视觉-触觉联结记载和追踪系统。该系统包括高密度可伸缩触觉手套和基于视觉-触觉的联结学习框架,不只在触觉手套的设计和制造上成功了技术打破,更经过视觉与触觉的深度融合,为了解手物交互环节形态提供了全新的视角和弱小工具。
在人形机器人操作畛域,有一个极具价值的疑问:鉴于操作数据在人形操作技艺学习中的关键性,如何有效地从事实环球中失掉操作数据的完整形态?
假设可以,那思考到人类庞大规模的人口和启动复杂操作的便捷直观性与可裁减性,人形机器人再也不用担忧没有高品质的操作数据资源了。
穹彻智能携手上海交通大学卢策吾和刘景全团队看法到,散布式触觉技术关于重建完整人类操作至关关键,当操作被遮挡时,触觉可以作为视觉的有效补充,从而一同恢复收操作区域的形变形态、接触力位点和大小。因此,该团队提出了一种全新的视觉 - 触觉联结记载和追踪系统 ViTaM(为 Visual-Tactile recording and tracking system for Manipulation 的缩写),包括一个可伸缩的触觉手套,与一个基于视觉 - 触觉的联结学习框架。文章在 24 个物体样本中启动实验,涵盖了 6 个类别,蕴含刚性物体和可形变物体,重建误差均值仅为 1.8 厘米。
ViTaM 系统在未来开展中,有望被深度集成至机器人的电子皮肤之中,从而赋予机器人与周围环境启动无缝互动的才干。这不只能够使机器人实时感知并精准照应多样化的环境抚慰,更将极大优化其在复杂场景下的灵巧操作水平,推进智能机器人技术迈向愈加先进和适用的新阶段。
可以看到,关于刚体和可形变物体,系统都能启动高水准的重建,也同时适用于不同类型的物体,如纸杯,橡皮泥,剪刀等日常生活中经常出现的物体。
图 1:A 人机交互中触及人类操作的(i)有力交互和(ii)有力交互的义务及其照应结果。B ViTaM 系统概述:(i) 受人类启示的联结感知方法,在操作环节中同时处置跨模态的视觉和触觉信号,以成功形态跟踪;(ii) 可拉伸界面的应变造成的传感误差,它降落了力测量的精度和触觉传感器的运行效果;(iii) 触觉记载打算,包括具有被动应变搅扰克制配置的高密度可拉伸触觉手套,以及用于显式散布式力检测结果的 VR 界面;(iv) 由深度学习驱动的物体形态预计运行,能够重建物体的全体几何外形和接触区域的细粒度外表形变,特意是关于可形变物体。
ViTaM 系统外围应战是要处置在与可形变物体启动带力交互时如何捕捉细粒度消息,当可形变物体能被正确捕捉时,刚性部件的交互就人造迎刃而解了。
该系统应用一个高密度、可拉伸触觉手套和一个 3D 相机记载操作环节,并应用一个视觉 - 触觉联结学习框架在几何层面上预计手 - 物体的形态。高密度触觉手套最多有 1152 个触觉传感通道散布在手掌上,当与物体交互时,会记载接触区域的手部物体形态,并以 13Hz 的帧速率准确捕捉手物交互环节中可拉伸界面上的力散布和灵活(图 1B (iii))。同时,非接触区域的手与物体形态可以由高精度深度摄像头记载。
捕捉到的力测量和点云序列,经过视觉 - 触觉学习模型处置,融合跨模态数据特色,最终成功对不同形变资料的被操作物体的跟踪和几何三维重建(图 1B (iv))。
A. 配件设计:触觉手套的设计与制造
在高精度触觉反应系统中,如何准确地捕捉并传递手部与物体之间的交互力,不时是配件设计中的一个外围应战。特意是在触及复杂手部静止和多点压力散布的状况下,传统的传感器系统往往难以满足高灵敏度和高牢靠性的需求。因此,开发一款能够准确感知触觉消息并允许多通道力传感的手套式配件设施显得尤为关键。遭到现有触觉手套技术启示,团队研发了这一款翻新的触觉手套系统。该手套包括多个模块(如图 2A 所示):触觉传感模块、织物手套、柔性印刷电路(FPC)、多通道扫描电路、处置电路以及一个腕带。系统设计的外围目的包括:
该触觉手套系统不只能够准确捕捉力感消息,还具有高适配性和温馨性,适用于多种实践运行场景,如虚构事实、机器人操作及医疗畛域等。
图 2:触觉手套的详细设计:A. 最大传感通道为 1152 的高密度可拉伸触觉手套的加大示用意;B. (i) 带有两对应变电极、行电极阵列和列电极阵列的触觉传感块的结构;(ii) 显示应变电极位置的加大图;(iii) 显示严密装配的触觉传感块侧视图。
B. 视觉 - 触觉联结学习在人类操作中的运行
在操作可形变物体时,手部与物体接触的力散布能够协助提醒因形变而出现的几何变动。但是,因为形变区域简直具有有限的自在度,齐全预算物体形变的几何外形不时是一个难题。虽然触觉手套能够测量接触区域的散布力并协助感知形变,但其笼罩范围仅限于部分物体外表,且即使是高密度、散布式的传感器网络也难以片面捕捉物体的完整几何消息。因此,团队以为,还须要视觉观测来补偿这一无余,从而恢复完整的物体几何外形。此类视觉 - 触觉交互机制与人类的认知环节高度相似。
团队提出了一种视觉 - 触觉联结学习框架,旨在手 - 物体重建和跟踪中恢复物体几何消息,尤其是在高度非刚性形变的状况下。该框架经过结合触觉数据和视觉消息,能够有效重建被手部遮挡或形变的物体细节。为了评价这一框架,团队制造了一个视觉 - 触觉数据集,包括 7680 个样本,涵盖 24 种物体、6 个类别。数据集中包括海绵、橡皮泥、瓶子和杯子等可形变物体,以及折叠架和剪刀等刚性物体。每个物体都启动了 20 次触摸,并经过 16 个不同的摄像头视角启动了记载。训练数据来自 RFUniverse,它允许基于有限元方法(FEM)的仿真,测试数据则来源于实践操作。
图 3: 该模型蕴含手部重建器、特色提取器、期间特色融合器和绕数场(WNF)预测器。全局和部分特色均从视觉和触觉输入中提取,并基于手部的区块位置。团队将这些特色融合在一同,应用期间交叉留意模块计算每点特色,预测采样位置的 WNF,并经过后退立方体算法重建物体几何外形。
团队从两方面验证了系统的有效性:触觉手套与可形变物体交互剖析,以及视觉 - 触觉联结学习的物体重建效果评价。
A. 触觉手套与可形变物体交互剖析
为了验证触觉手套的性能,团队设计了一个灵活的饺子制造义务,经常使用软橡皮泥作为高度可形变的物体启动实验。该义务包括将橡皮泥揉成球状,而后将其压成扁平外形(作为饺子皮),最后用手指捏合皮边。首先,当手掌将橡皮泥揉成球状时,图 4A 展现了手掌传感区域(称为手掌块)的归一化压力变动。其次,在手掌按压橡皮泥球时(图 4B),经过应变搅扰校对后的归一化压力高于未经校对的结果。第三,将饺子皮对折并用拇指和食指捏合边缘(图 4C)。归一化的捏合压力显示,经过校对的压力曲线在三个子阶段清楚参与,这或者是因为形变带来的清楚应变和未校对的紧缩力缩小所致。
此外,团队还钻研了在须要手指与手掌单干的操作中,应变搅扰校对前后的触觉传感块体现。例如,在重复捏兼并监禁海绵时(图 4D)。未校对的操作只触及六个生动的手指块和九个生动的手掌块,这些块的相相关数大于 85%(图 4E (i))。经过校对后,团队发现了两个额外生动的手指块和五个手掌块(图 4E (ii))。图 4F (i) 展现了校对前生动块的归一化压力变动,图 4F (ii) 则展现了校对后压力变动较小的块。Spearman 相关性结果区分展现了未校对和校对后的数据(图 4G (i) 与图 4G (ii))。位于中指远端指骨上的块 3-1 与其余块的相关性最高。校对后,出现了更多的相关性,标明一切手指块在捏合海绵时都施展了作用,尤其是块 2-2、块 5-1、块 5-2 和块 5-3。像块 3-1 和块 2-1 这样的块,在校对后相相关数参与超越 85%,这标明相关块之间的协同效应失掉了增强。图 4H 展现了校对后强相关数量的参与,进一步说明了即使在应变搅扰的状况下,校对也有助于深化开掘不同手指与手掌之间的依赖相关。
触觉手套还能够在操作环节中协助预计物体外形,尤其是在抓取各种物体时 —— 无论是软物体(如塑料滴管、毛巾、塑料瓶)还是硬物体(如画笔、勺子、小针)。在虚构事实界面中,可以清楚看到沿物体边缘的力反响。
团队还思考了手部姿态的搅扰。图 5-1 与 5-2 区分比拟了两种典型举措 —— 揉捏面团和抓取海绵 —— 在空手姿态和与实在物体交互时的归一化压力曲线。与空手姿态相比,实践交互时的归一化压力曲线区分参与了 12 倍、16 倍和 6 倍。较低幅度的噪声可以经过视觉 - 触觉联结学习框架轻松滤除。在监视学习设置下,相关信号(例如接触重建)失掉增强,不相关信号则被克制。
图 4:包饺子义务以及三个举措的触觉反响和归一化压力结果:(A) 揉、(B) 压和 (C) 捏。D 重复捏放可形变海绵的抓取义务照片。E 海绵抓取义务中被动触觉传感块的散布(i)不含应变搅扰克制,(ii)含应变搅扰克制。F (i) 未启动应变搅扰克制的被动块和 (ii) 克制后进一步显示的块的归一化压力曲线。G 海绵抓取义务中(i)无应变搅扰克制时和(ii)有应变搅扰克制时斯皮尔曼相关剖析的弦图像。H 校对前后一切手指区块和手掌区块的强相关数量。
图 5-1:(A) 揉捏操作中的手部姿态义务和 (B) 实践揉面举措与归一化压力曲线。
图 5-2:(A) 在抓取操作中的手部姿态义务和 (B) 实践抓取海绵时的压力曲线。
B. 视觉 - 触觉联结学习的物体重建效果评价
为了验证 ViTaM 系统的有效性,钻研者们启动了定性和定量对比测试,以回答以下疑问:(1) 特定于触觉阵列的数据格局能否能有效地向学习算法传递几何消息?(2) 与其余方式的传感器(如 RGB-D 相机或光学触觉传感器)相比,它能否更有效?
为了展现提出的联结学习框架的有效性,团队展现了两个弹性物体(海绵)和一个刚性物体(剪刀)的接触物体重建。从图 6A 中可以看到,实在数据中的手和物体都失掉了很好的重建,而且在触觉消息的协助下,还可以重建手部遮挡的细节外形。更关键的是,在应变搅扰克制后,基于触觉反应重建的可形变海绵可以在应变清楚的区域显示出更多庞大细节,而且因为应变搅扰克制方法有助于恢复施加在刚性边缘上的实在庞鼎力,刚性物体的完整性也失掉了改善。图 6B 展现了逐渐形变的塑性体,它代表了捏饺子皮的包饺子义务。塑性体在每个步骤中的形变都失掉了很好的展现。在图 6C 中,团队重建了一个刚性折叠架,该折叠架驳回了手与物体上不同位置的屡次接触。折叠架的细节是经过屡次接触与迭代触觉消息嵌入(tactile embedding)来逐渐成功的。此外,为了证实视觉 - 触觉联结学习的必要性,在图 6D 中展现了剪刀、折叠架和瓶子的纯视觉结果和视觉 - 触觉结果。得益于视觉和触觉特色的结合,刚性和可形变物体都失掉了很好的重构。在图 6E 中,重建的序列证实钻研者所提出的方法能够处置多帧的延续数据。因此,该视觉 - 触觉模型性能的提高证实,引入应变搅扰克制的触觉消息关于取得手部遮挡的特色和失掉可拉伸界面上物体的灵活形变都是至关关键的。
图 6:A. 在没有应变搅扰克制和有应变搅扰克制的状况下,两块弹性海绵和一把刚性剪刀的接触物体重建。B. 在没有应变搅扰克制和有应变搅扰克制的状况下,用手操作逐渐形变的饺子形塑性体的三个重建阶段。C. 手在物体不同位置屡次接触后重建的刚性折叠架。D. 剪刀、架子和瓶子的纯视觉和视觉 - 触觉重建结果,显示了视觉 - 触觉关节学习的优越性。E 依据在事实环球中搜集到的视觉 - 触觉数据对可形变的杯子和可形变的海绵启动重建的序列结果。
团队雷同经常使用了定量目的对方法启动了评价。从表 1 中可以看到,ViTaM 在真机数据下的体现很理想, 大部分的物体都能做到重建误差的倒角距离在 1~2 厘米之内。在实验中,首先,团队将现有的纯视觉处置打算的性能与 ViTaM 系统的算法(不包括触觉编码器)启动了比拟;其次,将该算法与之前的一项上班 VTacO 启动了比拟,后者驳回了基于硅胶的光学触觉传感器 DIGIT 来记载接触形变。在表 2 中可以看到 ViTaM 与先人方法的结果的倒角距离比拟。可以发现,ViTaM 系统在重建弹性、塑性、铰链式和刚性四种类型的物体时,体现出优于纯视觉方法的性能。例如,经常使用 ViTaM 系统重建海绵的倒角距离仅为 0.467 厘米,与 VTacO 相比提高了 36%。基于硅胶的光学触觉传感器可以取得更高分辨率的部分几何消息,如尖利边缘或重大形变,而散布式触觉手套设计则可以在遮挡过于重大而无法取得视觉消息时取得更片面的特色。
表 1:ViTaM 方法在真机物体上的重建效果目的
表 2:ViTaM 方法与先人的基线方法的定量目的的比拟
在复杂的操作义务中,捕捉手与可形变物体之间的触觉数据并进一步预计手物形态不时是一个庞大应战。特意是,缺乏准确、散布式且具有可伸缩性的触觉阵列,阻碍了视觉 - 触觉学习的融合,限度了对普通人类操作的了解。尤其是在可伸缩界面上的应变搅扰,会重大影响力的测量准确性和运行效果。
本文提出了一种用于操作的视觉 - 触觉联结记载与跟踪系统,其中触觉输入经过一款具有 1152 个传感通道和 13Hz 帧率的高密度可伸缩触觉手套捕捉。该触觉手套集成了一种被动的应变搅扰克制方法,其力测量的准确率到达 97.6%。与未经校对的测量数据相比,ViTaM 的传感器准确度优化了 45.3%。这一被动方法在资料 - 电路层面上班,更合乎人类在接触刚性或可形变物体时的自顺应触觉感知。与传统的应变搅扰克制战略相比,从结构设计和资料选用角度来看,本文提出的被动方法具有易于集成、老本效益高、大面积适配、耐用性强及宽泛的应变克制范围等好处。ViTaM 系统成功了跨模态数据特色的融合,提醒了手物交互环节中的被遮挡形态,推进了智能体在人形体与机器交互(HMI)中了解才干的开展,尤其是在力学交互方面,向人类触觉感知的水平迈进了一步。
展望未来,ViTaM 系统将被集成到机器人外表笼罩的电子皮肤中,成功与周围环境的无缝互动,能够感知并照应多种环境抚慰。此外,捕捉和恢复人类操作环节中的灵活形态将有助于更好地理解人类行为,并优化机器人灵巧操作的才干,推进从物体特定操作到通用操作场景的技术提高。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://www.clwxseo.com/wangluoyouhua/4611.html