在人工智能迅速發展的時代,人體動作識別技術正成為安全監控、視頻檢索、人機交互以及自主導航等領域的重要支撐。然而,現有基于視頻序列的方法仍然面臨復雜挑戰,例如背景雜亂、部分遮擋、尺度或視角變化,以及光照和外觀的差異。當前,長短期記憶網絡憑借其循環結構,在處理時間序列的復雜動作數據方面展現出優勢,但也存在依賴海量數據、訓練耗時耗能等局限。相比之下,人類視覺系統展現了更高效的解決方案:依靠視網膜中光感受器、雙極細胞和神經節細胞的協同工作,它能夠實時完成圖像增強與分類。這種天然的功能互補,使得人類視覺系統能夠在動態與靜態、模糊與清晰的多樣環境中保持卓越的感知與適應能力。這種受生物啟發的多功能視覺信息處理策略,正在成為研發高效人工視覺系統的重要靈感來源。
本文亮點:
新型器件結構設計:研究團隊提出并成功制備了一種基于 GaN/AlN 的超薄量子盤-納米線類神經突觸傳感器,開拓了人工視覺硬件的新方案。
電壓可調的多功能集成:通過電壓調控,器件可在“短程”與“長程”兩種工作模式之間切換,分別實現圖像增強和高魯棒性的儲備池計算功能。
高效的人工視覺系統:在此基礎上,研究團隊構建了一個融合多功能的人工視覺感知和類神經傳感系統,并對人體動作識別任務中取得了顯著性能提升。
內容簡介:
中國科學技術大學微電子學院iGaN實驗室孫海定教授團隊提出并實現了一種多功能仿生視覺神經傳感器。該器件由氮化鎵/氮化鋁(GaN/AlN)超薄量子盤-納米線(QD-NW)構成,具備可重構的光電特性,能夠模擬生物細胞的多種視覺響應行為。研究團隊設計的納米線結構包含底層 n-GaN 層、GaN/AlN 多量子阱以及頂層 n-GaN層,形成了 n-i-n 型能帶結構。這種設計既抑制了光生電子與空穴的分離,又利用 AlN 量子壘實現了載流子的有效約束,利于產生雙模態的持續光電流(PPC)。此外,每個量子盤中僅有單層或雙層 GaN,顯著增強了量子限制斯塔克效應與自發極化強度,使得波函數重疊和非平衡載流子復合概率可控,從而實現了PPC在“長程模式”和“短程模式”之間的電壓可調。在“長程”模式下,器件可用于圖像傳感與預處理;在“短程”模式下,研究團隊構建了基于 QD-NWs 的儲備池計算(RC)系統,顯著提升了人體動作識別的準確率——從 51.4% 提升至 81.4%。該項工作展示了基于QD-NW的仿生視覺傳感器在集成化與高性能人工視覺系統開發中的巨大潛力,為下一代緊湊型、低功耗、智能化視覺器件提供了全新思路。
圖文導讀:
人類視覺系統是一套高度層級化的結構,由視網膜、視神經和視覺皮層等部分共同構成(圖 1a)。視覺信息首先由感光細胞捕獲,隨后在雙極細胞、神經節細胞等協作下完成初步處理,從而實現高效的視覺感知。其中,神經節細胞根據功能差異可分為兩類:大細胞(Magno)與小細胞(Parvo)。大細胞體積較大、響應速度快,主要負責運動檢測;小細胞體積較小、反應較慢,卻在低對比度環境下表現突出。這種分工協作的特性,使人類視覺能夠兼顧圖像細節和運動分類,同時保持高效低耗的計算模式。受這一生物學啟發,研究團隊開發了一種基于GaN納米線的仿生視覺傳感器。憑借電壓可調的光電響應特性,該器件能夠在兩種模式下工作:
“長程模式”:適用于圖像傳感和傳感器內的預處理(圖 1b);
“短程模式”:適用于構建儲備池計算系統,實現高性能的人體動作識別(圖 1c)。
這種雙模態的光學響應行為,與生物視覺系統的功能分化高度一致,啟發團隊構建出一個功能融合的高性能人工視覺系統,并在人體動作分類中表現出卓越性能。
圖 1 人類視覺系統及基于納米線的類腦視覺器件示意圖。(a) 人類視覺系統示意圖;(b) 器件在負偏壓下工作,對應長程模式,實現圖像感知與內部預處理;(c) 器件在正偏壓下工作,對應短程模式,用于儲備池計算和動態動作分類。
研究團隊首先利用掃描透射電鏡對GaN/AlN QD-NWs的微觀結構進行了驗證,結果顯示納米線多層結構清晰可辨(圖2a-2c)。隨后,器件的整體結構示意圖(圖2d)以及能帶仿真結果(圖2e-2f)進一步揭示了其能帶結構和電子空穴在GaN量子阱中的局域化效應。基于此,研究人員構建了垂直結構的光電傳感器,并在254 nm深紫外光照下測試其性能,結果顯示器件在外加偏壓下產生穩定的光電流,而在光源關閉后電流并未立即消失,而是呈現出緩慢衰減的持續光電流(圖2g)。結合能帶示意圖的物理分析(圖2h),這一現象可歸因于光生載流子在外電場驅動下被分離,并因AlN勢壘的存在而被有效束縛在GaN量子阱中,從而導致電流延遲衰減。整體來看,該納米線器件不僅展現了優異的深紫外光響應性能,還模擬了生物突觸中類似的“記憶效應”,為后續構建仿生人工視覺系統奠定了基礎。
圖2 納米線結構及器件特性示意圖。(a) 單根納米線的 HAADF-STEM 圖像;(b) 納米線局部放大圖;(c) GaN/AlN量子阱結構原子像;(d) 基于納米線的垂直結構光電器件結構示意圖,電極尺寸為 200×200 μm²;(e) 納米線能帶結構;(f) 量子阱區域能帶結構;(g) 254 nm 紫外光照下觀察到的持續光電流;(h) (I) 在正偏壓及 254 nm光照下的光生電流產生機制;(II) 光照后載流子輸運機制示意圖。
在負偏壓下,外加電場與QD-NW器件的極化場方向一致,加劇能帶傾斜,降低量子阱中的電子和空穴波重疊程度,因而降低了電子和空穴的復合幾率,延長光生載流子壽命,從而產生長時程的持續光電流(圖3a-3c)。基于這樣的特性,研究團隊構建了一個由 8×8的QD-NW器件陣列。通過調控光強,器件能夠有效調節光電流衰減速度,從而實現輸入圖像的對比度增強。例如,當將字母“G”的光掩膜圖案投射到傳感器陣列上時,器件在長時間衰減后能夠顯著抑制背景噪聲字母“A”和“N”,從而凸顯目標圖案(圖3d-3f)。采用簡單的神經網絡(圖3g)對圖像增強效果的評估,經過傳感器增強后的圖像識別精度上實現了顯著提升,從 71.6% 提高至 91.4%(圖3i)。這一結果充分表明,納米線傳感器不僅能夠模擬生物視覺系統中的長期記憶和突觸可塑性,還能在圖像識別中發揮強大的預處理與增強作用,為智能視覺感知系統的開發帶來巨大潛力。
圖 3 基于長程模式的圖像增強功能。(a) 負偏壓下QD-NW器件工作模式示意,對光照作緩慢響應,對應 Parvo 細胞行為;(b) 負偏壓下量子阱的能帶結構示意,電子空穴波函數重疊程度減少;(c) 器件在負偏壓和254 nm光照下觀察到的長程 PPC 行為;(d) 輸入圖像示意,包括主要字母和噪聲字母疊加形成模糊圖像;(e) 納米線內部預處理后圖像,字母 “G” 明顯增強;(f) 不同光強引起的電流衰減特性及對比度隨時間增加;(g) 構建的人工神經網絡示意,用于圖像識別;(h) 圖像增強前(SNR=1/0.3)和增強后(SNR=1/0.15)對比;(i) 圖像經預處理前后的識別準確率。
當器件處于正偏壓時,器件表現出快速光響應特性。外加電場方向與極化場相反,削弱了極化場作用,增加了電子與空穴的波函數重疊并加速了非平衡載流子的復合,形成了短程PPC(圖4a-4c)。基于這一短程模式響應,研究團隊進一步構建了高魯棒性的RC系統。該系統以器件的4-bits 編碼能力為核心,以“奔跑”動作為例,連續的4幀視頻被映射為按時間序列輸入的光脈沖信號,其中每個像素點的二值化結果被轉化為4位光脈沖序列并注入儲備池陣列(圖4d-4f)。在動作識別任務中,QD-NW 儲備池能夠有效捕捉時空特征,在僅經過20輪訓練后,“奔跑”動作的識別率即可達到95%(圖4h)。這一結果證明,基于QD-NW構建的RC系統不僅具備可調易失性記憶和非線性動力學讀出特性,還能夠在硬件層面實現高效的人體動作識別,為新一代類腦人工視覺系統的發展提供了重要突破。
圖 4 基于短程模式的QD-NW RC系統用于人體動作分類。(a) 正偏壓下傳感器示意,對光照快速響應,對應 Magno 細胞行為;(b) 正偏壓下極化減弱,波函數重疊增加;(c) 納米線器件在正偏壓和254 nm光照下的短程 PPC 行為;(d) 視頻分類任務輸入的 4 幀光脈沖編碼示意;(e) 四組代表性輸入 “1100”“0110”“1110”“1111” 的光電響應特性及特征提取;(f) 16 組光脈沖輸入產生的讀出電流;(g) “wave1” 和 “run” 動作的儲備池輸出示意;(h) 構建的儲備池系統訓練與驗證識別準確率;(i) 10 種動作識別準確度。
為了展示QD-NW傳感器在復雜環境中人體動作識別的潛力,研究團隊構建了集短程模式儲備池計算和長程模式圖像增強于一體的多功能集成芯片(圖5a-5c)。在圖像處理過程中,短程模式首先對輸入光信號進行快速特征提取并轉化為持續光電流,隨后通過長期模式實現圖像增強,有效提高目標像素與背景的對比度,從而顯著降低噪聲干擾(圖5d-5e)。進一步測試表明,即使在噪聲比達到50%的情況下,RC系統仍能保持超過90%的識別準確率(圖5f-5h),展示出優異的魯棒性。最終,在融合兩種模式后,系統在帶噪人體動作識別任務中的精度從51.4%提升至81.4%(圖5i)。這表明,基于QD-NW的多功能集成傳感器能夠實現高效、精準的動作分類,為下一代類腦人工視覺系統提供了強有力的硬件支持。
圖 5 雙模式整合及高魯棒性人工視覺系統增強識別準確率。(a) QD-NW 傳感器陣列捕獲的時間序列圖像幀示意;(b) QD-NW傳感器陣列概念示意圖;(c) 傳感器系統電路示意;(d) 輸入視頻 SNR=1/0.3 時提取的 “wave2” 動作;(e) 輸入視頻 SNR=1/0.15 時提取的 “wave2” 動作;(f) RC系統在不同高斯噪聲率(0和0.5)下的 “bend” 動作讀出電流示意;(g) 不同噪聲率下器件輸出的驗證準確率;(h) 10種動作識別準確率與噪聲率關系;(i) 噪聲下識別準確率對比。
總之,本工作受神經元“線條式”結構及神經元工作原理啟發,構建了基于氮化鎵納米線結構的仿生視覺傳感器,模擬了生物突觸中類似的“記憶效應”。該氮化鎵基仿生傳感器不僅能夠模擬生物視覺系統中的長期記憶和突觸可塑性,還能在圖像識別中發揮強大的預處理與增強作用,最終實現高效、精準的動作分類。
更進一步,未來我們可以通過利用氮化物半導體材料優越的能帶連續可調性 (通過摻銦或鋁即可覆蓋對整個從深紫外到近紅外全波段的光譜響應)構建寬光譜仿生器件。因此,本工作展示了氮化鎵基新型器件架構在集成化與高性能仿生人工視覺系統開發中的重要潛力,為下一代緊湊型、低功耗、智能化視覺器件提供了全新思路和硬件基礎。
此項研究工作得到了國家自然科學基金等項目資助,并獲得了中國科學技術大學微電子學院、微納研究與制造中心、物理科學實驗中心的大力支持。微電子學院高志祥博士生和余華斌博士后,以及新加坡ASTAR巨鑫博士為論文共同第一作者,閆勇副研究員和孫海定教授為論文共同通訊作者。
發表的論文鏈接:https://doi.org/10.1007/s40820-025-01888-w
Zhixiang Gao, Haiding Sun et al., Ultrathin Gallium Nitride Quantum-Disk-in-Nanowire-Enabled Reconfigurable Bioinspired Sensor for High-Accuracy Human Action Recognition, Nano-Micro Letters 18, 54 (2026)