Facebook 智慧聊天設備雖不熱門,但它的 AI 卻不容小覷

評論
Photo Credit: Facebook
評論

本文來自合作媒體 iFanr,INSIDE 授權轉載

承認吧,每次開啓視訊聊天,我們總得花上不少時間調整設備位置,才能確保大家不是在盯著對方的下巴和鼻孔。

從這個角度來看,Facebook 在去年 10 月發佈的智慧聊天設備 Portal Plus 提供的解決方案不乏創新。

簡單來說,Portal Plus 採用的智慧鏡頭可自動追蹤使用者,確保你不會走出可視範圍,而且還會根據使用者離設備的實際距離來調整音量。也就是說,即使你聊天聊到一半,忽然起身去房間另一端拿個東西,對方也不會因此看不到或聽不清你講話。

這種體驗,就跟面前有個專人為你拍攝一般。實際上,為了做到這個效果,Facebook 的工程師們的確找來了好萊塢的專業攝影師做顧問。和很多智慧手機的相機算法不同,Portal 背後的算法追蹤的不是人臉,而是人的姿勢和動作。

早在 2017 年,Facebook 的人工智慧團隊就已經建立了一套名為 Mask R-CNN 的電腦視覺模型,可追蹤人類 2D 動作姿態。Portal 將這套算法精簡優化至小型移動設備晶片也能跑起來的 R-CNN2Go 模型。

在這個階段,雖然鏡頭已經懂得跟人走,但視訊看起來還是「僵硬又死板」。於是乎,Portal 團隊找來了好萊塢專家——攝影師、電影攝影技師和紀錄片製作人,一方面學習被廣泛接受的攝影「基本功」,另一方面,則是拋出在家庭聊天情景下可能遇到的刁鑽角度,並看專業人士們會如何處理。

我覺得團隊算是成功讓鏡頭拍出比較成熟的構圖,就是那種得有點技術,以及對人的行為有所瞭解才能做出的決策。

Rafa Camargo 是 Facebook 硬體業務副總裁,同時也是 Portal 計畫的負責人。在加入 Facebook 前,Camargo 是 Google 的創新部門 ATAP(Advanced Technologies and Projects)的成員。

對於發展人工智慧來說,「自然」的門檻其實很高,因為那意味著機器(或者是背後的工程師)找到了讓模擬成果「像人」的關鍵。

2018 年的 Google I/O 大會上,打電話到理髮店預約的 Google Assistant 曾以語氣詞「Mm-Hmm」驚艷全場,而現在 Portal,則借用了好萊塢在觀眾身上培養出的觀影習慣來打造「自然」感。

它給人的感覺很自然。其實他們在電視和電影中採用這種構圖,也是因為在這些年裡,大家發現這就是人類大腦喜歡的方式。

除了要做到「自然」,Portal 團隊在設計模型時還做了一些很有意思的選擇題。

譬如:一家人在和奶奶視訊聊天,突然間,孩子突然從媽媽的懷抱中跳了起來,開始到處跑,最後還去了房間很暗的角落。這樣的情況下,Portal 要不要繼續追蹤孩子呢?

有人從偏理性的角度出發,覺得,如果小孩跑得太快,追蹤他會讓畫面效果不好,所以還是別跟拍小孩了。但當 Portal 團隊奶奶類使用者咨詢這個問題時,大部分人都說,用視訊聊天大多都只為了見見鏡頭另一邊的人,尤其是孩子。

Portal 團隊最後還是為使用者留下了手動控制權,他們既可以用自動模式,跟拍所有進入鏡頭的人,或者,選擇專注在特定人身上,忽略其他人。

雖然在這裡,Portal 將選擇權交給了使用者,但我們不能忽視的是,現在一些智慧手機的相機甚至視訊聊天會默認「美顏」,使用者看不到「原始模樣」;而 Netflix 這類串流媒體服務也默認只提供「推薦內容」,想看「原始」的完整列表還要 「秘密代碼」。

這些算法服務的本質,是使用者「繳械」了選擇權,很多時候這不止於決策權,同時還有獲取「原始」內容的權利。

也許這也是為什麼,當談論到人工智慧服務,「信任」是使用者選擇服務方的關鍵之一。

這不僅牽涉了隱私權,還關乎我們在讓誰幫我們做選擇。經過過去兩年的種種醜聞,Facebook 這個的名字成為 Portal「撲街」其中一個主要原因,同時,這個名字也讓一般人對安全性特別敏感。

無可否認的是,Facebook 在 Portal 背後的算法對視訊聊天體驗的確帶來了全新的提升,或者只需換個名字,它就能熱門起來。Facebook 團隊也有計劃將 R-CNN2Go 這套模型推廣到手機應用等產品上。

評論