近日,中國科學院上海微系統與信息技術研究所仿生視覺系統實驗室李嘉茂研究員團隊在雙目立體視覺深度估計領域取得重要進展。題目為“F2R2: Frequency Filtering-based Rectification Robustness Method for Stereo Matching”的成果被機器人領域頂級國際學術會議2025 IEEE International Conference on Robotics and Automation(ICRA)錄用。
雙目立體視覺通過模擬人類雙眼原理,基于兩個相機從不同視角拍攝同一場景圖像,通過計算對應像素點的視差(Disparity)進而恢復空間深度(Depth)信息,這一過程即為立體匹配(Stereo Matching)。該技術是自主智能機器人、智能駕駛、元宇宙、工業檢測、醫療自動化等眾多領域的基礎關鍵技術。
經典立體匹配問題中,要求雙目圖像滿足嚴格的極線約束前提。主流的做法是借助標定板對雙目系統進行高精度的離線預標定與立體校正,并假設在后續使用過程中相機系統參數保持穩定。然而,在實際應用環境中,雙目系統往往會受到諸如碰撞、長期機械振動和溫度變化等因素的影響,從而導致雙目系統的外部參數發生偏移,從而顯著降低深度估計精度,甚至導致算法的崩潰。為應對這一問題,眾多研究者提出了基于場景特征的在線自標定與校準技術,旨在實時估計雙目系統的姿態變化并進行修正。盡管如此,校正后的圖像仍可能存在分布不均的校正誤差,且此類方法在視覺特征稀疏場景下易失效,難以保證應用的穩定性。
為此,團隊另辟蹊徑,聚焦弱約束雙目立體視覺深度估計研究,直接對未經過嚴格極線校正的雙目圖像進行深度估計。具體地,團隊提出了一種基于頻率濾波的立體匹配方法F2R2。該方法從頻域學習的角度出發,通過設計敏感頻率濾波策略與匹配特征重構模塊,增強模型對于校正誤差的魯棒性,同時有效保證了視差預測精度。該方法具有即插即用的特性,可適用于不同的立體匹配基礎模型。團隊基于PSMNet 、Gwc-Net等經典模型,在多個添加合成誤差的公開數據集KITTI2015(KT15),KITTI2012(KT12),Middlebury(MB),ETH3D(ET)和帶有真實誤差的自采集數據上完成了驗證,改進后的模型在不同程度的外參擾動下均表現出良好的性能。
在多個權威雙目數據集上,團隊算法F2R2在外參擾動下顯著提升模型魯棒性(表中為立體匹配EPE(End Point Error)誤差,數值越小,性能越高)
在自采集數據集上,團隊算法F2R2在外參擾動下顯著提升模型魯棒性(表中為立體匹配EPE(End Point Error)誤差,數值越小,性能越高)
本研究成果得到了科技部科技創新2030、國家自然科學基金、上海市自然基金、中國科學院青促會、上海市優秀學術帶頭人等項目支持。上海微系統所仿生視覺系統實驗室周昊龍博士研究生、朱冬晨研究員為論文共同一作,李嘉茂研究員為通訊作者。