首頁 > 新聞 > 科技

WWW。8966。COM

時間:2019-12-17 03:45:23

WWW。8966。COM:陳嘉陳嘉WWW。8966。COM

庚到庚先WWW。851776。COM嘉庚WWW。526215。COM

WWW。8966。COM

阿里和美團最近相繼發布了各自業績數據,學院校主財報顯示,阿里本季度總營收1WWW。357972。COM149.2億元,同比增長42%,核心電商營收同比增長43.9%。在阿里整合餓了么的一年多WWW。953727。COM時間里,生生同原有餓了么高管團隊逐漸被清退出管理層。第三階段(2018年至今)為成熟期:陳嘉陳嘉伴隨百度退出外賣領域,陳嘉陳嘉餓了么被阿里收購,外賣市場開始形成了美團、餓了么、其他家的631市場格局,這一階段結構性優勢成為核心競爭力。領先者絲毫不敢放松,庚到庚先追趕者也未曾放棄努力。二、嘉庚外賣下半場的戰略思維:美團向左,餓了么向右 在與美團的這場外賣戰役中,阿里在資本上有著絕對的優勢。

而外賣市場經過多年廝殺發展階段早已進入中后期,學院校主閃擊戰不能取得多大效果。從增速上看,生生同阿里的本地生活業務更勝一籌,但從絕對體量上看,美團外賣和餓了么的收入一直保持在2倍以上差距。那么它所能起作用的邊界在哪里呢?對此問題,陳嘉陳嘉我們應當深思。

另外我們還做了一些森林方法的研究,庚到庚先即如何避免句法分析錯誤。不過,嘉庚我認為這是一個很值得探索的方向。然而這里才4萬多個句子,學院校主是存在嚴重資源稀缺問題的,翻譯的質量也非常糟糕,基本上是不可接受的。之后,谷歌又推出了Multilingual BERT,生生同將104種語言全部編碼到一個模型里面,這在原來是不可想象的。

WWW。8966。COM但聯合訓練本身又會導致模型復雜度的大大增加,使得開發和維護變得困難。第二個是知識圖譜,它其實也是一種共性任務,這個領域的研究者做了這么多年的研究,我認為是非常有意義的,所以我們現在也在想辦法將知識圖譜和自然語言處理結合起來做研究。

WWW。8966。COM

這些問題主要包括:詞語形態問題、句法結構問題、多語言問題、聯合訓練問題、領域遷移問題以及在線學習問題。以顏色這個屬性為例,可以用三個 8 位數進行建模,可以組合出數千萬種顏色,但刻畫顏色的詞語只有數十個,詞語和顏色模型的對應關系很難準確地進行描述。而很多其他語言的變化是很多的,例如法語有四五十種變化,俄語則更多。舉一個簡單的例子:使用有限狀態自動機,可以精確地定義一些特定的表示形式,如數詞、年份、網址等等,但再好的神經網絡也很難準確地學習到有限狀態自動機的表達能力,這是很多實用的自然語言處理系統仍然離不開符號這種規則方法的原因。

另外以土耳其和波斯語為例的黏著語,一個詞可能有上千種變化,即一個詞后面可以加很多種詞綴,這對于自然語言處理尤其是機器翻譯而言,是非常棘手的。對此,我用一個關系圖來描述這種對應關系,如下圖所示。同時,形態本身其實是一層結構,所有統計機器翻譯都建立在某種結構的基礎上,例如詞語層、短語層、句法層,或者說基于詞的、基于短語、基于句法的方法,那如果想在這些結構中再加入一層形態結構,統計機器翻譯的建模就會變得非常困難。神經網絡無法做到這一點,它根據數據學習到的東西去做出判斷而并沒有理解真正的因果關系,即并不知道哪些因素是事情發生的真正原因,哪些是輔助性的判斷依據,因而很容易做出錯誤的判斷。

缺乏常識問題 這里我以不久前去世的董振東先生提供的例子為例(如下圖所示),bank是翻譯中一個經典的歧義詞,有銀行和岸的意思,在什么語境下翻譯成哪個意思,對于人來說很容易理解,但是即使有 fishing、water這樣的相關提示詞存在,谷歌翻譯器還是將這個詞翻譯成了銀行。在神經網絡機器翻譯時代,谷歌就直接利用中間語言的方法做出了一個完整且龐大的系統,將所有語言都放在一起互相翻譯以及將所有文字都放在一起編碼。

WWW。8966。COM

WWW。8966。COM無論是在基于規則還是基于統計的機器翻譯框架下,句法分析對機器翻譯的質量都起著重要的影響作用。在基于統計方法的機器翻譯時代,普遍采用的是 Pivot 方法,即在兩個語言的互譯中,先將所有語言翻譯成英語,再翻譯成另一種語言。

而目前在神經網絡機器翻譯框架下,神經網絡可以很好地捕捉句子的結構,無需進行句法分析,系統可以自動獲得處理復雜結構句子翻譯的能力。但是對于中英文這種語法結構相差較大的語言而言,做句法分析要比不做句法分析的結果好很多,所以句法分析還是很重要的。實際上,僅僅根據統計數據進行推斷,很難得到真正的因果關系。基于篇章的機器翻譯實驗證明,對改進翻譯質量起作用的上下文只有前1-3個句子,更長的上下文反倒會降低當前句子的翻譯質量。可控制性問題 由于系統有時候的效果總不能令人滿意或總出現錯誤,所以我們希望系統變得可控,即知道怎么對其進行修改從而避免犯這種錯誤。因此大家之后就轉向了基于統計的機器翻譯方法,即給機器一堆語料讓機器自己去學習翻譯規則,不過它學到的還是一些符號層面的規則,但被賦予了概率。

AI研習社獨家推出「頂會贊助計劃」,為AI學術青年和開發者助力。另外比如像智能音箱、語音助手系統能夠取得一定成果,很大程度上也是因為這些系統對應著明確定義的任務,能對物理世界建模,不過一旦用戶的問話超出這些預定義的任務,系統就很容易出錯。

符號邊界 心理學家將人的心理活動分為潛意識和意識,用我的話來理解就是,可以用語言描述的心理活動稱作意識,而無法用語言描述的心理活動稱為潛意識。但是深度學習本身還是存在很多問題的,包括資源稀缺問題、可解釋性問題、可信任問題、可控制性問題、超長文本問題以及缺乏常識問題等等。

WWW。8966。COM在中文中,它體現在詞的切分上,在英語等大部分其他語言中則主要體現在形態的分析上。可解釋性問題和可信任問題 我們給神經網絡輸入一個東西,它就會輸出一個結果,然而其在高維空間的計算過程我們是不知道的,這就存在可解釋問題。

當時很多人都在做多語言翻譯,甚至是中間語言翻譯,如下圖,中間語言翻譯其實是一個理想的方案,因為多語言的互相翻譯通過某個中間語言來實現,是能夠節省很多成本的:如果使用中間語言,開發系統的數量隨翻譯語言的數量呈線性增長。總而言之,我認為自然語言處理的一個理想的改進方向就是做世界模型或語義模型,換句話說,就是不僅僅只做文本間的處理,還必須落地到現實世界中,去對現實世界建模,而知識圖譜這是其中一個較為值得探索的具體方向。第二個可信任問題是翻譯出來的意思與原意相反,這在機器翻譯中也很常見,且較難避免,因為這種意思相反的表達在語料庫中的統計特征是非常接近的,都是在陳述同一件事情,因此在機器翻譯中很容易導致翻譯出與原意相反的結果。比如對于重要的人名、地名、機構名、術語,我們希望機器嚴格按照給定的方式進行翻譯,不能隨便亂翻。

句法結構問題 下面看句法結構問題。下面我試圖來探討幾個問題:一是深度學習解決了自然語言處理的哪些問題?二是還有哪些自然語言處理問題是深度學習尚未解決的?三是基于深度學習的自然語言處理,其邊界在哪里? 深度學習解決了自然語言處理的哪些問題? 自然語言處理領域有很多難題,此前研究者費了好大勁去解決的問題,深度學習方法出現以后,一些問題被很好地解決了,或者雖然還沒有徹底解決,但是提供一個很好的框架。

比如說重要的人名、地名和機構名是不應該翻錯的,以翻譯美國政府的一個工作報告為例,如果使用之前的語料來訓練,機器就會直接將美國總統(特朗普)翻譯成布什總統了,這就是一個很嚴重的錯誤了。自然語言處理的范式遷移:從規則、統計到深度學習 相信大家對自然語言處理的范式遷移,都深有體會。

大概 2005 年至 2015 年期間,我一直在做基于統計的機器翻譯,也就是研究如何在統計方法中加入句法方法,在這么多年的研究中,我們提出了很多種方法也寫了很多篇論文,下圖中的這些模型概括了我們之前提出的那些方法。在機器翻譯領域,幾百萬個句子的語料已經是小數量的了,商業系統基本上都有好幾千萬句子的訓練語料。

WWW。8966。COM數據邊界 數據邊界是限制當前機器翻譯技術發展的約束之一,這個比較好理解,就是指數據不夠,這是現有方法無法解決的。否則,開發系統的數量隨翻譯語言的數量呈平方增長。隨著這幾年來深度學習方法的引入,機器翻譯的水平又有了一個大幅提高,使得機器不再在符號層面做翻譯,而是將整個推理過程映射到一個高維空間中,并在高維空間中進行運算。要想在這些尚未解決的問題上尋找突破,需要從深度學習的這些邊界出發,去探索新的解決方案。

因果邊界 人類對客觀世界中發生的事情中的因果關系都有明確的理解。所以在這些關鍵性的應用上,可解釋性是非常重要的,因為這個問題會導致信任問題。

基于統計的機器翻譯方法,雖然改的方式繞一點,但是統計的數據都是可解釋的,我們可以在其中加上一個短語表來糾正,而在神經網絡機器學習方法中,我們幾乎是不能進行修改的。故事寫得很漂亮,但是存在錯誤,比如第一句就是錯誤的,科學家根據它們獨特的角,將它們命名為Ovids Unicorn,這些有著銀色的四個角的獨角獸是原來科學家所不曾見過的這句話本身就矛盾,獨角獸怎么會有四個角呢?這是很明顯的一個邏輯錯誤。

WWW。8966。COM劉群教授認為尚未解決的這些問題最終是由深度學習的四大邊界——數據邊界、語義邊界、符號邊界和因果邊界所共同造成的。舉例來說,第二家加拿大公司因被發現害蟲而被從向中國運輸油菜籽的名單中除名是一個好幾層的嵌套結構,但是機器翻譯的結果The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests在結構上翻譯得很好。

標簽:
馬來西亞官員:如果香港“反修例”人士申請來移民,不批準

經典圖文

相關文章

熱門文章

返回頂部