av日韩一区_av一级在线观看_亚洲毛片在线观看_中文字幕不卡在线观看_一级黄色大片在线_av在线播放免费

谷歌研究分享:從RGB圖像準確估計透明對象的三維姿態

VR/AR
2020
09/06
19:27
映維網
分享
評論

來源:映維網 作者 顏昳華

三維對象的位置和方向估計是計算機視覺應用的核心問題之一。對于涉及到增強現實和機器人操作等對象級感知的計算機視覺用例中,其需要知曉對象在世界中的三維位置,從而直接影響它們或者正確地將模擬對象放置在它們周圍。盡管業界已經利用機器學習技術(特別是Deep Nets)來對這一主題進行了大量研究,但大多數依賴于深度傳感設備的使用,如可以直接測量對象距離的Kinect。對于具有光澤或透明的對象,直接深度感測效果不佳。如下圖所示,深度設備難以為透明的星星膜具確定合適的深度值,并且實際的3D點重建效果非常糟糕(右)。

解決所述問題的一個方法是,使用一個深度神經網絡來修復透明對象的損壞深度圖。例如,給定透明對象的單個RGB-D圖像,ClearGrap可以使用深卷積網絡來推斷表面法線、透明表面的掩膜,以及遮擋邊界,并用來優化場景中所有透明表面的初始深度估計(上圖最右側)。這種方法非常具有前景,它允許通過基于深度的姿態估計方法來處理具有透明對象的場景。但涉及修復可能相當棘手,尤其是在完全使用合成圖像進行訓練時,而且依然可能導致深度錯誤。

在谷歌與斯坦福人工智能實驗室(Stanford AI Lab)合作撰寫的CVPR 2020論文《KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects》中,團隊描述了一個通過直接預測3D關鍵點來估計透明對象深度的機器學習系統。為了訓練系統,團隊以半自動化的方式收集一個透明對象真實世界數據集,并使用手動選擇的三維關鍵點來有效地標記它們的姿態。然后,谷歌訓練了名為KeyPose的深度模型,使其能夠根據單目圖像或立體圖像端到端地估計3D關鍵點,不需要顯式計算深度。在訓練過程中,模型可以處理可見對象和不可見對象,包括單個對象和對象類別。盡管KeyPose可以處理單目圖像,但立體圖像提供的額外信息使其能夠在單目圖像輸入的基礎上將結果優化兩倍。根據對象的不同,典型誤差僅為5毫米到10毫米不等。在對象的姿態估計方面,它比最先進的方法有了實質性的改進。谷歌正已經公開相關的數據集。

相關論文:KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects

具有3D關鍵點標簽的真實世界透明對象數據集

為了加速收集大量真實世界圖像,谷歌建立了一個機器人數據采集系統。在這個系統中,一個機器人手臂通過軌跡移動,并同時使用兩個設備(一個立體攝像頭和一個Kinect Azure深度攝影頭)拍攝視頻。

位于目標的AprilTags可以精確追蹤攝像頭的姿態。通過在每個視頻中用2D關鍵點手工標記少數圖像,團隊可以使用多視圖幾何體為視頻的所有幀提取3D關鍵點,從而將標記效率提高100倍。

團隊拍攝了15種不同透明對象的圖像,并使用了10種不同的背景紋理,其中每個對象4種不同的姿態,而這總共產生了600個視頻序列,包括48K立體圖像和深度圖像。研究人員同時對不透明對象拍攝了相同的圖像,從而提供精確的地ground truth圖像。所有的圖像都用3D關鍵點標記。谷歌將公開這個真實世界圖像數據集,并作為合成的ClearGrap數據集的補充。

基于早期融合的KeyPose算法

直接使用立體圖像進行關鍵點估計的想法是為這個項目獨立構思,而它最近同樣出現在手部追蹤的情景之中。下圖是基本的思想:圍繞對象裁剪立體攝像頭的兩幅圖像,并輸入到KeyPose網絡中,然后KeyPose網絡預測一組代表對象3D姿態的稀疏3D關鍵點。接下來,使用標記的3D關鍵點對網絡進行監督訓練。

KeyPose的一個關鍵方面是,使用早期融合來混合立體圖像,并允許網絡隱式計算視差。作為說明,后期融合則是分別預測每個圖像的關鍵點,然后進行組合。如下圖所示,KeyPose的輸出是圖像平面中的2D關鍵點熱圖,以及每個關鍵點的視差(即逆深度)熱圖。這兩個熱圖的組合生成每個關鍵點的3D坐標。

與后期融合或單目輸入相比,早期融合立體圖像的精度通常可以提升兩倍。

結果

下圖說明了KeyPose對單個對象的定性結果。左邊是原始立體圖像之一;中間是投影到圖像的3D關鍵點。在右邊,團隊將瓶子三維模型中的點可視化,并放置在由預測的3D關鍵點所確定的姿態中。這一網絡十分高效和準確。對于標準的GPU,只需5毫秒即可完成對關鍵點的預測。

下表說明了KeyPose在類別級別估計的結果。測試集使用了訓練集中不存在的背景紋理。請留意MAE在5.8 mm到9.9 mm之間變化。

有關定量結果的完整說明,以及相關研究,請參閱論文和補充材料,以及KeyPose官網。

總結

這項研究表明,在不依賴深度圖像的情況下,我們可以從RGB圖像中準確地估計出透明對象的三維姿態。它驗證了使用立體圖像作為早期融合深網的輸入(在這個網絡中,網絡可以直接從立體對中提取稀疏的3D關鍵點)。谷歌表示:“我們希望,一個廣泛的、帶標簽的透明對象數據集將有助于這一領域的發展。最后,盡管我們是使用半自動的方法來有效地標記數據集,但我們希望在未來的研究中使用自我監督的方法來消除手動標記。”

原文鏈接:https://yivian.com/news/77585.html

THE END
廣告、內容合作請點擊這里 尋求合作
VR
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

混合現實科技公司Nreal今天宣布已完成4000萬美元的B1輪融資。本次融資由快手領投,紅杉資本中國基金、金浦科技基金、高瓴創投、以及中金資本旗下中電中金基金跟投,并且由勢能資本擔任獨家財務顧問。
VR
9月5日,高通 XR生態合作伙伴大會暨第二屆高通XR創新應用挑戰賽頒獎典禮在江西南昌國際博覽城綠地鉑瑞酒店舉行。創維VR總經理李文權受邀出席本次大會并參與高層對談會,在對談會上表示創維VR已與高通在XR...
VR
CDPR 的全球社區領導,Marcin Momot 已經宣布,一個增強版本的巫師 3 將來到下一代控制臺和 PC 與光線跟蹤和廣泛的視覺和技術改進。幸運的是,在任何平臺上擁有游戲的玩家將免費升級到新版本。
VR
目前蘋果官網在售的手機包括iPhone 11全系、iPhone XR、iPhone SE(2020)等。眼瞅著iPhone 12系列即將發布,商店的在售列表預計很快要做出調整。
VR
與友商相比,AMD不論處理器還是顯卡的性價比都很高,相對來說便宜不少,這點錢了還要啥自行車。沒想到這個梗成真了,AMD品牌的自行車真的來了,售價299美元。
VR

相關推薦

1
3
主站蜘蛛池模板: 久久久九九 | 欧美成人久久 | 亚洲三级网站 | 国模无码大尺度一区二区三区 | 欧美日在线 | 欧美成人一级 | 天堂网亚洲| 国产成人黄色 | 天天干天天操天天爽 | 日本免费一级片 | 一区二区三区中文字幕 | 久久视频这里只有精品 | 国产精品911 | 99精品久久久久久中文字幕 | 黑人精品xxx一区一二区 | 日本激情网 | 亚洲伊人色 | 亚洲欧美视频在线观看 | 91久久精品日日躁夜夜躁欧美 | 日韩一区不卡 | 91手机看片 | av女人的天堂 | 日韩不卡在线 | 99这里只有精品 | 福利网站在线观看 | 天天躁日日躁狠狠躁伊人 | 九九热在线视频观看 | av网站在线免费观看 | 亚洲视频一区 | 亚洲一区在线看 | 国产成年妇视频 | 五月婷婷六月天 | 黄色aaa| 91视频播放 | 最近中文字幕在线 | 亚洲高清在线视频 | 蜜臀久久99精品久久久久宅男 | 久久精品免费观看 | 中文字幕伊人 | 亚洲欧美在线观看 | 成人免费看片' |