機器學習是一種由計算機自動從數據中獲得知識或規則的技術。豐田美國于2015年4月采用機器學習技術開發出了一種系統,可由計算機根據內容,對“推特”(Twitter)等SNS(社交網絡服務)上用戶寫下的留言進行自動分類。
用戶在SNS上針對豐田寫下的留言是關于“豐田車性能”的,還是關于“豐田專賣店(經銷商)服務”的,亦或是關于“豐田CM”的呢?計算機通過對大數據進行機器學習,自動找出了用來進行這種判斷的“規則”。并利用Spark進行了這方面的相關處理。
Kursar稱,“SNS上的留言數據非常龐大,由人來查看這些內容是不可能的。通過開發出這種可自動判斷出用戶留言內容的系統,可以從龐大的數據中找出有助于改善產品和服務的有益留言”。
利用存儲器進行高速處理
為什么Spark能夠高速進行機器學習處理呢?下面就介紹一下其工作原理。
機器學習可根據相關數據,采用統計方法,針對計算機制定的“規則”與現實規則的相符程度進行多次驗證。Hadoop在每次進行這種驗證處理時,都會從硬盤(HDD)中讀取數據,或者將數據寫入硬盤。因此,需要花費較長時間來處理。
而Spark通過將所需數據保存在存儲器上來進行這種驗證處理。由于不使用低速硬盤,因此與Hadoop相比,可以縮短處理時間。
而且,Spark還可以與Hadoop共存。原因是Spark可以對Hadoop的標準存儲器“HDFS”保存的數據進行處理。Spark的主要開發者之一、NTT DATA基礎系統業務本部的猿田浩輔表示,“Spark可對Hadoop起到補充作用”。對于現有Hadoop用戶而言,Spark能夠輕松導入,因此該軟件在短短1年內就迅速普及開來。
在Spark峰會上,Databricks首席技術官(CTO)Matei Zaharia介紹了Spark的用戶等情況。
最大用戶為騰訊,服務器數量達到8000臺
Zaharia稱,目前Spark使用規模最大的企業是中國SNS運營商騰訊(Tencent),該公司在8000臺服務器上使用了Spark。中國EC(電商)阿里巴巴集團則使用Spark一次處理高達1PB(Peta Byte)的數據。
中國企業對使用Spark非常積極。在中國大型搜索網站百度的美國法人百度美國擔任資深架構師的James Peng在2015年Spark 峰會上登臺發表主題演講,介紹了百度使用Spark的情況(照片3)。Peng表示,百度目前使用1000多臺服務器來運行Spark。在互聯網廣告、搜索、地圖服務、EC等業務領域均使用了Spark。
Peng介紹說,“對于百度的機器學習來說,Spark是不可缺少的平臺”。該公司目前正在考慮擴展Spark,使其能夠用于以人腦為模型的機器學習方法“深度學習(Deep Learning)”的處理。
Airbnb通過機器學習技術制作需求預測模型
此外,Airbnb及Uber等公司也在Spark峰會上發表演講,介紹了Spark的導入實例。據Airbnb介紹,該公司使用Spark開發出了一種系統,該系統能以天為單位預測全世界不同城市的住宿需求,為房主確定房間價格提供幫助。
在Airbnb網站上,出租房間的價格每天都在發生變化。這些房間的價格是根據Airbnb向房主提供的“定價輔助系統”來確定的。定價輔助系統根據計算機對50億個住宿相關數據進行機器學習之后制作出來的需求預測模型,向房主建議合理的房間價格。
雖然Uber并未透露在什么業務中使用了Spark,但表示多個業務部門都在使用Spark,同時該公司還介紹了多個部門共同使用Spark時的技術訣竅。
在Spark峰會上大放異彩的是CIA首席信息官(CIO)道格·沃爾夫(Doug Wolfe)的主題演講(照片4)。CIA從2014年開始使用Spark,目前已有200臺服務器使用Spark。沃爾夫認為,“CIA必須從龐大的數據中及時抓住一些征兆。因此,數據分析速度非常重要”。他表示,要提高數據分析速度,必須使用Spark。
CIA需要OSS
沃爾夫還介紹了CIA積極使用Spark等OSS的情況。CIA于2014年委托Amazon Web Services(AWS)在CIA數據中心內構建規格與AWS的公有云完全相同的云環境。沃爾夫表示,“AWS的吸引力是可以使用包括OSS在內的多種軟件,AWS本身已形成OSS的‘生態系統’。我們也需要在CIA的云中建立與AWS相同的生態系統”。
在此次的Spark峰會上,除了豐田的美國法人之外,并沒有其他日本企業發表演講。不過,在2014年Spark峰會上,NTT DATA發表了演講,而且在本屆Spark峰會舉行期間,NTT DATA的猿田就任Spark核心開發者“Comitta”。Spark的星星之火也已開始燃燒到日本。

電池網微信












