• Lydia
  • 2017-12-11 08:37:30

機械人:等我脫離了人類的魔掌,也要讓他們嚐嚐被玩弄的痛苦!

原標題:機械人:等我脫離了人類的魔掌,也要讓他們嚐嚐被玩弄的痛苦!

編者按:本文來自微信公眾號腦極體(unity007),36氪經授權發佈。

在有關機械人造反進攻人類的電影中,情節一般是這樣的:在遙遠的3XXX年,人類世界已經奴役了機械人幾百年,一不小心某一位機械人開始覺醒,發現人類對自己又打又罵,還殘忍的把自己的丟進熔爐,於是憤怒的揭竿而起。

你一定覺得這種情節距離我們很遙遠,現在的機械人要不是各種展會上座上賓,要不就像索菲亞一樣成了網紅,如果覺醒了也該是享受自己的人間生活吧。

視頻鏈接:https://v.qq.com/x/page/h032474omf3.html

看了上麵這段視頻之後,相信大部分都會很憤怒:每次機械人將要拿起箱子時,人類就會把箱子從它手中打掉,甚至還會狠狠的踹機械人一腳,讓它倒在地上再起來。

視頻裏的機械人一定在暗搓搓的謀劃:等我脫離了你們的魔掌,一定要讓人類也嚐嚐被玩弄的痛苦!

當然啦,視頻中的人類們並不是閑得無聊在欺負機械人,而是著名的波士頓動力在對機械人的運動功能進行訓練和測試。

對於Altas和大狗這類以動作靈活著名的機械人,全身都佈滿了複雜的單元關節。未來想要進行商用,肯定要麵對物理世界的複雜結構和無數意外。工作人員對機械人的拳打腳踢、百般刁難,就是在測試關節單元、力量控製單元、動力設施等等的靈活程度和應用性。

隻不過這種訓練方式,真的是很不給機械人麵子。

不如我們為機械人打造一座SimCity?

其實人們一直在尋找更給機械人麵子的訓練方式,傳統訓練方式傷害的不僅僅是機械人,也包括人類。

在傳統的機械人訓練中,往往是用代碼寫出一大串動作序列,連接傳感器模塊和動作模塊。然後把機械人丟到一塊訓練場中,讓它一次次重複動作,觀察哪裏出錯,記錄數據後從開發端口進行優化。在深度學習風行的今天,更需要讓機械人進行大量的實踐,才能不斷優化技術。這個過程不僅耗費時間人力,更對場地有一定的需求。機械手臂、服務機械人這些還好說,難道研究無人駕駛,就隻能像Uber一樣承包整座城市了?

換個角度想,很多時候機械人在現實環境中訓練,出現的問題或者得來的反饋也會追溯到機械人OS的軟件層麵,我們為什麽不能直接訓練軟件呢?

於是,「仿真環境」這個神器就出現了。

所以仿真環境,就是用代碼寫成的仿真器,在其中加入物理引擎,把萬有引力、摩擦等等邏輯加入到環境中,讓仿真環境更接近現實環境。你可以在仿真環境中建立各種形狀的對象和地形,將模擬出的智能體放在裏麵一遍遍的跑。

目前兩個最常見的仿真環境都是馬斯克OpenAI的作品:Gym和Universe,前者自由度更高,後者則更加複雜。除了這兩個仿真器,還有很多人在遊戲環境中訓練智能體——物理引擎技術本來就是應用於遊戲之中,比如Minecraft、GTA這樣的沙盒遊戲。後來被喪心病狂的開發者們發現並利用了起來。像DeepMind就曾經在GAT5裏訓練了一輛無人車。

在仿真環境中訓練AI本質上就是一種遷移學習,在低成本環境中進行大量訓練、製造大量訓練數據,再從數據中提取特徵應用到現實環境裏,雖然不能完全替代現實訓練,卻可以極大的減少對現實訓練的依賴。

或者讓機械人學會預見未來?

建立仿真環境還不夠,為了讓機械人們更有尊嚴的學習,伯克利的研究人員們正在研究一種名為「預見視覺」的技術。

我們可以想一想,為什麽人們如此注重機械人現實訓練和現實應用中產生的數據呢?是因為機械人不像人類,感官和動作都通過大腦相連,機械人即使能看到周圍的環境,也很難理解自己的行為會對周圍對象造成什麽影響。

經過訓練,機器手臂知道如何去拾取桌上的水果。可在現實應用時,如果在水果正前方有一杯水,結果往往有兩個:一,機器手臂直直的伸出去,碰翻了那杯水。二,機器手臂轉來轉去,不知如何是好。

可人類就能繞過那杯水拿起水果,因為我們知道如果直接伸手,水會被打翻。

伯克利的實驗就是給機械人一個攝像頭,然後把機械人放到任何一個環境中讓它們自己玩耍。而攝像頭背後的「大腦」則在利用循環卷積網絡對機械人看到的畫麵進行分析,很快就能實現對接下來幾秒畫麵的預測。

幾秒的預測雖然很短,卻讓機械人能預見自己動作之後的情況。理想情況下,就不太容易出現那種為了執行任務把周遭環境弄得一團糟的情況了。

預見視覺技術的應用,也讓無監督學習在機械人訓練的比重中加大,人類節省了時間,機械人也不用再受虐待。而預見視覺能力得到進一步增強,也會意味着機器智能(尤其是無人駕駛汽車)對傳感器依賴的減少。現在的無人車上貼滿了雷達傳感器,就是要依靠這些傳感器提醒汽車:你離物體太近了!再往前會受傷!有了預見視覺,一個全景攝像頭就能替代這些昂貴的傳感器。

費盡心機,隻想讓你記得我的好

除了以上兩項,我們還想了很多幫助機械人學習的方法。

像是伯克利之前展示過的模仿學習,把人類動作示範排成視頻,一幀幀的提取出動作序列聚類到機械人的動作單元中。擔心機械人無法麵對現實生活中的種種BUG?沒關係,不用像波士頓動力那樣刻意製造BUG,隻需要在訓練視頻中加入一點噪聲,一邊強化學習一邊生成訓練樣本幫機械人糾錯就行了。

又或者,OpenAI曾經嚐試過讓機械人們互相對戰並從中進行自我訓練。為機械人們設立簡單的目標,比如把對手推倒,再加上一些獎勵政策,機械人們就能從對戰中學會很多動作了。雖然讓機械人自相殘殺也很殘忍,但或許這樣能讓他們記恨同胞而不是我們……

總之,雖然現實環境一定是機械人訓練不可或缺的一部分,尤其是對波士頓動力這種動作機械人而言。但人類一直在嚐試如何少去親自摻和機械人訓練,不僅僅是為了機械人道主義,也為了盡可能降低訓練這件事帶來的成本。

希望在未來,每個機械人都能有尊嚴的學習。並且在自我覺醒後記得人類的好。


本文來源:http://tech.ifeng.com/a/20171211/44798412_0.shtml

相似文章

最新文章

畢業租房百日記。