Watson
美國IBM公司旗下技術平台
IBM Watson 是認知計算系統的傑出代表,也是一個技術平台。
IBM Watson是認知計算系統的傑出代表,也是一個技術平台。認知計算代表一種全新的計算模式,它包含信息分析,自然語言處理和機器學習領域的大量技術創新,能夠助力決策者從大量非結構化數據中揭示非凡的洞察。 IBM Watson系統具有幾大能力:
Understanding(理解):Watson具有強大的理解能力。通過自然語言理解(Natural language understanding)技術,和卓越處理結構化與非結構化數據的能力,在眾多行業能夠與用戶進行交互,並理解和應對用戶的問題。
Reasoning(推理):它有智能的邏輯思考能力,Watson通過假設生成(Hypothesis generation),能夠透過數據揭示洞察、模式和關係。將散落在各處的知識片段連接起來,進行推理、分析、對比、歸納、總結和論證,獲取深入的洞察以及決策的證據。
Learning(學習):它有優秀的學習能力。Watson通過以證據為基礎的學習能力(Evidence based learning),能夠從大數據中快速提取關鍵信息,像人類一樣進行學習和認知。可以通過專家訓練,並在交互中通過經驗學習來獲取反饋,優化模型,不斷進步。
此外,它還有精細的個性化分析能力,它能利用文本分析與心理語言學模型對海量社交媒體數據和商業數據進行深入分析,掌握用戶個性特質,構建360度個體全景畫像。
Watson不僅僅是這些技術的簡單集合,而是以前所未有的方式將這些技術統一起來,深刻改變了商業問題解決的方式和效率。
簡單來說,Watson能夠支持如下方面,包括但不限於:
理解自然語言
大數據的理解和分析
動態分析各類假設和問題
精細的個性化分析能力
在相關數據的基礎上優化問題解答
在短時間內提煉洞察、發現新的運行模式
在迭代中學習,探索優化的解決方案
雲端開發平台,支持生態發展
Watson的技術有潛力應用到商業發展上,推動各行各業的轉型,已推出的相關產品包括 Watson發現顧問(Watson Discovery Advisor),Watson參與顧問(Watson Engagement Advisor),Watson分析( Watson Analytics),Watson探索( Watson Explorer),Watson知識工作室(Watson Knowledge Studio),Watson腫瘤治療(Watson for Oncology),Watson臨床試驗匹配(Watson for Clinical Trial Matching)等。
Watson分析( Watson Analytics)。很多年來,IBM都使用著不同的可視化技術,以定量的方式來描述信息和數字,製作圖表以及其他有趣的事情。然後,我們開始在系統中添加預測性的分析能力,隨著業務的不斷展開,它開始成為商業分析( Business Analytics)。如今它已經是IBM的一項大業務。我們開始觀察如何提升系統用戶體驗,如何利用自然語言處理技術以及Watson的理解和學習能力提升系統。
我們採納了商業分析的建議並將之與自然語言處理技術結合起來,隨著時間的推移,還學會如何識別你想用來解決某個問題的正確數據源,學會如何推薦改善數據之道來獲取更好的結果。我們開始將人工智慧領域與商業分析融合在同一個平台上,那就是Watson分析的產品線。今天,這款雲產品會先免費讓用戶試用,然後如果有人想繼續使用,就需要相應的商業許可。
Watson參與顧問(Watson Engagement Adviser),即一個人與知識庫進行交互的框架。它會不斷閱讀最新信息並及時更新。這個系統已經進化成一個會話系統,用戶可以與它對話並從中學習。這些系統可以用於許多不同類型的信息。在我們的合作者生態系統中,有很多不錯的例子,他們用它來做一些有趣的事情。比如Elemental Path公司打造並推出了一款名為CogniToys的產品,這是一款和Watson連接的玩具恐龍。孩子們可以和自己的小恐龍交談,這款玩具所連接的後端知識庫不僅能夠回答孩子們的問題,還能適應孩子的成長,確保給出的答案是符合孩子年齡段的。
Watson探索(Watson Explorer)可以用來協助企業的內部工作,它可以將企業數據源中不同類型的數據彙集到起來,然後將這些信息通過API連接到基於雲的Watson系統上,讓我們可以在私有雲中將這些不同的專有數據整合到一起。而這些私有雲已經包含了公有雲壞境所分享的信息和知識;它提供了非常好的可視化功能,並且還能在企業內部構建可以利用基於Watson服務雲的應用。
Watson發現顧問(Watson Discovery Adviser)能夠發現和建立不同數據之間的關係。它能夠通過收集數據,基於數據進行學習,並迅速的提煉洞察,來幫助各行各業進行創新,不論是廚師的廚藝,開發新的醫療方案,還是協助法律工作,將創新和洞察融入個人和產業的發展活動中。
Watson知識工作室(Watson Knowledge Studio)通過監督學習技術(supervised learning techniques),開發人員和相關領域專家可以運用他們的行業知識和管理技能來培訓Watson。知識工作室(Knowledge Studio)可以幫助Watson理解語言的細微差別、意義及具體的行業、專家和知識領域之間的關係,讓用戶能在數周內打造個性化的認知應用。
Watson腫瘤治療(Watson for Oncology),Watson通過MSK外科醫生的專業培訓后,將為臨床醫師提供以證據為基礎的治療方案。不論是社區醫院還是全球頂級醫院,腫瘤專家像所有臨床醫生一樣,都在通過大量的研究成果、醫療記錄和臨床試驗來了解、學習該學科的最新動態。Watson結合重要的知識,協助腫瘤專家解決問題。現在,通過IBM和MSK之間的合作,Watson利用世界知名的MSK公司的專業知識,深度評估和分析每一個病人具體情況。
Watson臨床試驗匹配(Watson for Clinical Trial Matching)能夠幫助確認臨床試驗匹配的潛在人選。利用認知計算,Watson能夠分析臨床試驗潛在人選的特徵,通過評估這些候選人對於相關條件符合的程度,來幫助臨床醫生,更快速有效的選擇臨床試驗的合適人選。通過提高潛在人選篩選的效率,來幫助提升臨床試驗的成功率。
如今,Watson已經被運用到超過三十五個國家十七個產業領域。例如,在醫療保健方面,它可以作為一種線上工具協助醫療專家進行疾病的診斷。醫生可以輸入一系列的癥狀和病史,基於Watson的診斷反饋,來做出最終的診斷並制定相關的治療計劃。對於零售商來說,他們可以利用這項技術,幫助消費者更高效的找到他們想要的商品。對於旅行者來說,他們可以通過這項技術制定最可行的度假計劃或出行路線。
IBM和軟銀機器人控股公司(SBRH)合作推出了基於Watson CCP的智能機器人Pepper,它可以與人類正常溝通,可識別文字、圖像和語音,通過行業定製化,可以在銀行服務台、餐飲、零售、酒店、醫療接待等領域為人類提供智能的信息化服務。
P53 是與許多癌症有關的一種重要蛋白質,迄今已有 70,000 篇有關這種蛋白質的論文。貝勒醫學院研究院表示,即使科學家一天閱讀五篇論文,也要花 38 年時間來全面了解這種蛋白質。然而,通過貝勒醫學院和 IBM的合作,在幾個星期的時間內,生物學家和數據科學家使用貝勒知識集成工具包 (KnIT) ,在Watson技術的基礎上,準確地識別了可修改 P53的蛋白質,最終提高了藥物和其他療法的效果。這種自動化分析引導貝勒醫學院癌症研究人員確定了七種潛在蛋白質,作為新研究的目標。考慮到過去三十年科學家們平均每年才取得一個類似的靶蛋白髮現,這一結果十分醒目。
IBM與醫療技術與服務公司美敦力(Medtronic)在糖尿病管理方面展開深入合作,通過Watson的認知計算服務,現已達到了一個關鍵的里程碑,目前正在測試的一個糖尿病管理應用程序,可以提前三小時預測低血糖事件,以讓糖尿病患者有充足的時間採取行動,降低不必要的發病損害。
家用電器廠商惠而浦(Whirlpool)與IBM合作,實現家用電器的物聯網與高級服務。IBM的Watson服務包括認知分析、數據管理和保護,從而可以讓惠而浦能及時了解用戶的習慣,更有前瞻性的服務於他們的客戶。比如根據用戶使用烤箱的習慣(食物喜好、營養狀態等),來為其提供定製化的健康食譜。
體育用品公司安德瑪(Under Armour)與IBM合作開發了一款名為“UA Record”,相當於個人健身的數字化助理,它將匯總安德瑪全球1.6億用戶的相的健身與健康數據(如睡眠、健身、活動和營養等),為用戶提供健身指導(比如推薦符合某一健身指標的運動)。
IBM通過收購The Weather Company,利用後者的天氣數據,將為更多企業提供更加精準的天氣信息,幫助企業節省成本,提升效率和效益。比如,一家物流公司通過獲取IBM的精確天氣數據,能夠提前知道某些區域是否會出現惡劣天氣,包括惡劣天氣的具體情況,以此來改變運輸車隊的路線和行程,避免惡劣天氣造成的損失。同樣的方法還能夠應用於航空公司、銷售等。
Watson的命名來源於IBM公司創始人托馬斯·J·Watson的名字。
Watson
2011年,Watson參加綜藝節目危險邊緣(Jeopardy)來測試它的能力,這是該節目有史以來第一次人與機器對決。2月14日至16日廣播的3集節目中,Watson在前兩輪中與對手打平,而在最後一集里,Watson打敗了最高獎金得主布拉德·魯特爾和連勝紀錄保持者肯·詹寧斯。Watson贏得了第一筆獎金100萬美元,而肯·詹寧斯和布拉德·魯特爾分別只有30萬和20萬。賽后,詹寧斯和魯特表示將一半獎金用於慈善事業,IBM公司也將Watson的獎金分給了兩家慈善機構。
Watson在比賽節目中按下信號燈的速度始終比人類選手要快,但在個別問題上反映困難,尤其是只包含很少提示的問題。對於每一個問題,Watson會在屏幕上顯示3個最有可能的答案。Watson 4TB磁碟內,包含200萬頁結構化和非結構化的信息,包括維基百科的全文。在比賽中Watson沒有鏈接到網際網路。
Watson提煉洞察與深度QA工作原理
在Watson分析問題並確定最佳解答的過程中,運用了先進的自然語言處理、信息檢索、知識表達和推理和機器學習技術。Watson依靠核心的IBMDeepQA技術,來生成假設、收集大量證據、並進行分析和評估。Watson通過載入數以百萬計的文件,包括字典、百科全書、網頁主題分類、宗教典籍、小說、戲劇和其他資料,來構建它的知識體系。
搜索引擎的工作方式是,理解問題,並給出大量相關文檔作為解答;與搜索引擎不同,用戶可以用自然語言向Watson提出問題,Watson則能夠反饋精確的答案。從解答的過程來看,Watson通過使用數以百計的演演算法,而非單一演演算法,來搜索問題的候選答案、並對每個答案進行評估打分,同時為每個候選答案收集其他支持材料,並使用複雜的自然語言處理技術深度評估搜集到的相關材料。當越來越多的演演算法運算的結果聚焦到某一個答案時,這個答案的可信度就會越高。Watson會衡量每個候選答案的支持證據,來確認最佳的選擇及其可信度。當這個答案的可信度達到一定的水平時,Watson就會將它作為最佳答案呈現出來。
· Watson 如何提煉洞察
分析非結構化數據:採用自然語言處理技術理解語法和語境
理解複雜問題:評估所有可能含義,然後確定問題含義
呈現答案和解決方案:根據找到的支持性證據和高質量信息作答
· Watson 如何回答問題
Watson 需要先學習新主題,然後才能回答這個主題的相關問題
學習新主題
將所有相關材料載入到Watson 中,比如 Word 文檔、PDF 和網頁
添加配對問題和答案,就該主題對Watson 進行訓練
出現新的信息時,Watson 會自動更新
回答問題
Watson 會搜索數百萬個文檔,從中找出數千條可能答案
收集證據,然後使用評分演演算法評估證據的質量
根據對支持性證據的評分排列所有可能答案
沃森的未來
美國哥倫比亞大學醫療中心和馬里蘭大學醫學院已與IBM公司簽訂合同,兩所大學的醫療人員將利用“沃森”更快、更準確地診病、治病。馬里蘭大學醫學院教授艾略特說:“當病人特別多的時候,醫生來不及把病人的所有信息一一錄入計算機進行檢索,這時‘沃森’就能派上用場。它的海量信息庫中存有許多發表在期刊上的專業論文,可以讓醫生利用最新科研成果治療病人。”
背景資料
IBM續寫“深藍”輝煌
1997年5月,被譽為“世界上最聰明的人”的國際象棋大師卡斯帕羅夫經過6局對抗,敗於擁有超強計算能力的超級電腦“深藍”,引起全球矚目,這場博弈當時被稱作“里程碑式的人機博弈”。而IBM公司就是“深藍”的發明者。時隔多年,“沃森”又讓這家百年企業再創輝煌。
從“深藍”到“沃森”?
14年前,IBM研發的計算機“深藍”(Deep Blue)戰勝了國際象棋冠軍卡斯帕羅夫;現在,這家公司以創始人Thomas J. Watson名字命名的計算機,繼續著對人類智能極限的挑戰。IBM長於製造各種複雜的機器,除了伺服器還有這種智能計算機(小型機的集群),它看起來可不僅僅就像那句有點諷刺意味的流行語說的那樣—IBM,不是個生產哲學的公司嗎?在1960年代人工智慧的技術研發停滯不前數年後,科學家便發現如果以模擬人腦來定義人工智慧那將走入一條死胡同。現在,“通過機器的學習、大規模資料庫、複雜的感測器和巧妙的演演算法,來完成分散的任務”是人工智慧的最新定義,這早已經取代了曾經甚囂塵上的“重建大腦”。按照這個定義,沃森在人工智慧上被認為又邁出了一步。“深藍只是在做非常大規模的計算,它是人類數學能力的體現,”IBM中國研究院資深經理潘越告訴《第一財經周刊》,他同時參與沃森項目,負責提供數據支持。“當涉及到機器學習、大規模并行計算、語義處理等領域,沃森了不起的地方在於把這些技術整合在一個體系架構下來理解人類的自然語言。”如果這些解釋有點晦澀難懂的話,那麼可以參看一下《危險邊緣》的遊戲規則,你便知道沃森的價值何在。《危險邊緣》是哥倫比亞廣播公司一檔長盛不衰的電視問答節目,自1964年開始播出,最精彩的地方在於遊戲里的問題包羅萬象,幾乎涵蓋了人類文明的所有領域。它的規則是答對問題可以獲得獎金,答錯就會倒扣。對人類來說,規則很簡單,但對沃森來說,則意味著眾多挑戰。首先沃森必須要聽懂主持人的自然語言,這是深藍不具備的;其次是沃森需要分析這些語言,比如哪些是反諷,哪些是雙關,哪些是連詞,隨後根據關鍵字判斷題目的意思,沃森進行相關搜索,並評估各種答案的可能性;最後選擇三個可能性最高的答案,當其中一個可能性超過50%后,程序啟動,沃森按下搶答器。這些得以實現靠的是90台IBM伺服器、360個計算機晶元驅動以及IBM研發的DeepQA系統。IBM為沃森配置的處理器是Power 750系列處理器,這是當前RISC(精簡指令集計算機)架構中最強的處理器—這些得以支持沃森最終得出可靠答案的時間不超過3秒鐘。沃森主打的是小型機的并行運算。IBM在大型機上的地位很難撼動—在小沃森(創始人老沃森的兒子)執掌IBM時期,IBM投入約60億美元,這筆超過當年NASA的研發經費,最終把日本的NEC與法國的克雷排擠出去,奠定了IBM在大型機市場的壟斷地位。“在IBM的內部員工培訓上流傳著一句笑話,那便是在大型機領域,有97%的市場份額來自IBM,剩下的3%來自淘汰的IBM二手大型機。”IBM伺服器銷售部門前負責人告訴《第一財經周刊》。IBM試圖把大型機上的優勢帶入到小型機領域。沃森主打的正是IBM的銷售新星90台小型機的并行運算,“IBM小型機的運算速度是突出的,”上述IBM員工評價說,“因為它把大型機的CPU研發優勢直接移植到小型機上來了。”IBM是為數不多的可以有能力獨立開發小型機CPU的廠家,IBM還將這些技術出售給了除英特爾以外的晶元製造商。現在,在小型機市場上,IBM與HP的市場比例大致為2:1,另外一家小型機公司SUN則現在主要針對低端市場。此外,IBM的全球研發團隊的某種模式也加大了沃森贏得比賽的可能。這些團隊分工極為細緻,比如以色列海法團隊負責深度開放域問答系統工程的搜索過程,日本東京負責沃森在問答中將詞意和詞語連接,IBM中國研究院和上海分院則負責以不同的資源給沃森提供數據支持,還有專門研究演演算法的團隊以及研究策略下注的博弈團隊等。“我們就好像是每個不同的虛擬部隊,每個人只做自己最擅長與熟悉的那部分。”潘越稱。事實上這便是IBM的特色,它一直遵循工業時代的成功模式,比如這種製造企業更為擅長的流水線模式,並且通過給員工分級打分的獎懲制度,讓它的各個團隊都更有效率。這些研發天才開發的DeepQA系統保證了沃森可以具備嶄新的人機交互模式,比如可以理解並分析自然語言,事實上,對自然語言的理解也一直是IBM研究機構在人工智慧上的強項。這很像科幻電影里的橋段—為了隱秘的機器人開發計劃,在全球招募天賦異秉的人士。所不同的是,IBM的意義顯然更為實際。此前,基於深藍研發的AIX操作系統讓IBM在商業運用與政府部門中取得了大量的訂單,IBM也希望可以將沃森的DeepQA系統運用於醫療服務、諮詢等領域之中。 “沃森的優勢是給出準確與可靠的答案,因此可以為醫生提供更適合病人的解決方案。”潘越稱,“在醫療領域的應用將是沃森商用最主要的領域。”沃森項目如果想在醫療行業推行的話,還需要面臨法律層面的問題,IBM一位研究員稱,“如果沃森診斷出錯,而醫生又聽從了錯誤的診斷,那麼沃森就會面臨被患者告上法庭的危險,這對IBM而言是一個正在考慮的應用問題。”對於IBM來說,沃森未來不僅要繼續挑戰人類智能的極限,還要幫助這家公司去同亞馬遜、谷歌、微軟們競爭,爭奪未來科技制高點的主導權。