“聽”和“說”是人工智能的兩個重要入口,無論是siri這樣的語音助手還是Google的無人駕駛,都要機器能聽得懂語音命令,滿足基本的人機交互??拼笥嶏w開放平臺是全球最大的語音和人工智能開放平臺,并且為教育、智能駕駛等領域提供智能語音服務??拼笥嶏w輪值總裁、研究院院長胡郁認為人工智能和人的智能是兩條不同的發(fā)展路徑,人工智能會逼近甚至超過人的智能,但短時間內(nèi)不會出現(xiàn)意識。
我們講人的智能,是一個包羅萬象的概念,人類有視覺、聽覺,能聽懂語言,還可以下棋,人類可以通過一個大腦,實現(xiàn)這些功能,這是人類的智能,但是人工智能不一樣,它是通過不同的算法實現(xiàn)不同的功能,這是二者最大的區(qū)別。
目前,人工智能處于什么階段呢?并不是說人所有的智能計算機現(xiàn)在都能實現(xiàn),它是逐步來的。比如人類一些簡單的功能,比如邏輯、計算、記憶等等,計算機做得比人還好,這一類被稱之為運算智能。
在人工智能出現(xiàn)的這六十年中,這個行業(yè)一直還處于研究階段,主要研究三個問題:第一個是用什么方法來做?第二個是用什么樣的數(shù)據(jù)?第三個是人工智能會有哪些應用?
為什么智能語音在2010年左右取得較大突破?首先是因為在2006年提出的深度神經(jīng)網(wǎng)絡技術逐漸成熟,這是一套神經(jīng)網(wǎng)絡模型,模擬大腦的神經(jīng)網(wǎng)絡結(jié)構,第二是因為隨著移動互聯(lián)網(wǎng)時代的到來,數(shù)據(jù)足夠多。
第三是因為人工智能進行了商業(yè)化,這對它的發(fā)展很重要,人工智能發(fā)展的一個必要條件是有人在使用過程中不斷給予反饋,幫助人工智能調(diào)整、改進,這個人必須是真的人。目前科大訊飛的語音輸入每天有幾億次的使用數(shù)據(jù),計算機可以不斷糾正自己,提高正確率,這種使用成本在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)之前是沒有辦法做到的,那時候成本太高。
「 人工智能和人的智能實現(xiàn)路徑不一樣 」
機器實現(xiàn)智能的方法,跟人腦實現(xiàn)智能的方法、途徑是不一樣的,但是二者的目標是一樣的,機器會用它擅長的方法去做,這個是目前實現(xiàn)弱人工智能技術上的一條路徑,不管科學家使用什么樣的方法,計算機科學或者仿生學,都是使用和人腦不一樣的方法實現(xiàn)相同的效果。
目前人工智能還處于弱人工智能階段,未來要實現(xiàn)強人工智能的話,是希望計算機能夠自主學習、舉一反三。但是目前還在研究階段,沒有人找到該怎么做。
人工智能目前還處于感知階段,之前是邏輯、計算階段,那個階段是以“深藍”為代表,未來更高層的階段是認知,也就是強人工智能階段。感知層面現(xiàn)在已經(jīng)做得比較好了,比如計算機可以比較精準的識別圖像和語音,雖然它跟人類做的方法不一樣,但最后的結(jié)果非常好。
感知和認知在人的智能上,不是完全分割的。當人在聽一個句子的時候,其實大腦里是在進行認知的,但對計算機而言,這兩步是分開的,而且要逐步實現(xiàn)。
目前行業(yè)內(nèi)也開始研究計算機的認知能力,比如科大訊飛研發(fā)的閱卷智能設備,計算機可以給作文打分,這并不是說計算機已經(jīng)看懂了人類寫的文章,而是在這之前會存儲人類歷史上大量的文章。計算機評卷的規(guī)則就是找相關性,在某一個主題下,是不是會有固定的幾個關鍵詞?比如一篇描寫春天的文章,如果有大量描述冬天的詞匯,那肯定相關性就會降低,這就是機器擅長使用的大數(shù)據(jù)方法。
智能語音也是這樣。小孩子從出生到聽得懂外界的語言大概需要兩三年的時間,他有效收聽外界語言的時間可能連1000個小時都不到,但是計算機想要達到同樣的效果,可能要收集10萬個小時的語音數(shù)據(jù),它聽到的越多,智能語音的準確性就會越高。
計算機是靠大數(shù)據(jù)的相關性,人是靠邏輯,二者都可以解決問題,方法雖然不一樣,但是最終的結(jié)果是一樣的。從人工智能研究者的角度來講,他們更關心人工智能是不是跟人類一樣具有智慧;從應用者的角度來講,更關心它的結(jié)果,是不是滿足需求。就像AlphaGO一樣,它可以戰(zhàn)勝人類,但是能說明它真的會下圍棋嗎?它并不會,它根本不知道圍棋是什么,但它表現(xiàn)出來的結(jié)果比人類更好,這才是現(xiàn)在我們講的人工智能的本質(zhì)和精髓。
根據(jù)現(xiàn)在對計算機科學和仿生學的研究,可以看出在某些話題下,雙方構建的模型有一定的相似度,但是這還不足以證明我們可以按照大腦的模型構建出真正的人工智能,相似度只是一個結(jié)果,但業(yè)內(nèi)還沒有研究出來為什么會出現(xiàn)這樣的結(jié)果。
目前科學仍然無法說明大腦的工作原理,人是有邏輯的,這主要是由左腦負責,但是右腦負責的直覺、想象力等很難解釋,目前的科學也無法解釋清楚,所以在只有一個結(jié)果的前提下,沒有辦法為真正的人工智能提供解決路徑。
這就能夠解釋,為什么弱人工智能可以不斷地取得進步,但是這種進步是有天花板的,也就是它絕對不會自主去學習,人類要給它數(shù)據(jù),模型也要幫它搭建好,它才可以實現(xiàn)深度學習。
計算機跟人的成長是反著的,比如說常識對人來說很簡單,四五歲的孩子基本上就有了足夠的常識,要經(jīng)過十多年的知識和邏輯的積累才能夠參加高考,但是計算機不一樣,邏輯對它來說很簡單,輸入一個行業(yè)的知識也不難,真正的難點在于常識,沒有常識的支撐,計算機的很多知識和邏輯無法運用,這就是二者路徑最大的區(qū)別。人類一定要知道,將來機器人戰(zhàn)勝我們的方法,一定是以它最擅長的方法,而不是我們想象的方法。
「 人工智能目前不可能出現(xiàn)意識 」
從地球上生物的發(fā)展可以看到,有意識的前提是要有智能,沒有智能不可能產(chǎn)生意識。但有智能就一定會產(chǎn)生意識?這不一定。
人工智能就是這樣,目前的人工智能還看不到意識產(chǎn)生的任何源泉,意識是什么?意識是我知道我是誰,我知道我在干什么,我知道我要干什么。但目前人工智能的方法都是人類教的,它只是在結(jié)果上表現(xiàn)得和人的智能一樣。人的智能究竟是如何產(chǎn)生的?目前還沒有研究清楚,當人類智能越來越先進的時候,意識也會越來越強,但是當我們要用現(xiàn)代的人工智能的方法去做弱人工智能的時候,并不能保證它越來越強。
目前人工智能根本不可能產(chǎn)生意識,因為人類根本沒有研究意識是怎么產(chǎn)生的,人類目前的研究是如何讓它表現(xiàn)得更像智能一些。但是人的智能和人工智能是完全不同的,人類越智能意識也就越強,但是這一點對人工智能并不適用,計算機是在用擅長的運算和存儲能力來實現(xiàn)同樣的效果,因此,人工智能在產(chǎn)生智能的過程中,看起來智能的結(jié)果跟人越來越接近了,但這條路徑不會產(chǎn)生意識的。
也就是說,我們現(xiàn)在所做的所有成功的人工智能跟意識都沒有關系,跟意識的產(chǎn)生過程都沒有關系,基于大數(shù)據(jù)的這種方法,目前也看不到任何產(chǎn)生意識的跡象。大家都講人工智能在很多領域戰(zhàn)勝了人類,好像它也會產(chǎn)生意識一樣,這是很大的誤區(qū)。
目前人工智能的難點在于很難找到突破點,很難讓很多用戶使用,進入正循環(huán)的過程,人工智能必須要有足夠的用戶使用才可以更加準確。智能語音就是這樣的過程,一開始是非主流用戶在非主流場景使用,慢慢的一些主流用戶在非主流場景中使用,現(xiàn)在是主流用戶在主流場景下去用它。
語音交互是人工智能的基礎功能,在未來產(chǎn)業(yè)化的過程中,我們有幾個路徑,一種是做技術支持,把技術提供給別人;第二種是直接拿技術去改造一些行業(yè),比如教育等,像目前已經(jīng)做的閱卷機器人,或者無人駕駛,科大訊飛可以給終端提供語音系統(tǒng);第三種是做集成性的智能硬件,比如Google在2016年開發(fā)者大會上發(fā)布的智能盒子Home,這些都是我們可以把技術提供給別人的途徑。