Autonomy
Autonomy
Autonomy是基於語義計算(MBC)這一快速發展領域公認的領導者。1996年成立的Autonomy是建立在經劍橋大學研究而產生的獨特技術組合之上。公司的迅速發展使得其市值達到了22億美元,並且在全球各地都設有辦事機構。
作為一家為企業提供高端搜索引擎軟體的英國科技公司,創立於1996年的Autonomy在經歷了世紀之交的網際網路泡沫后涅槃重生,不僅殺入矽谷,收購了三家美國公司,並且在金融危機中成為英國為數不多逆市成長的科技公司之一。Autonomy智能化的搜索引擎軟體未來或可挑戰谷歌在這一領域的霸主地位。
Autonomy
Autonomy被包括Gartner Group、Forrester Research和Delphi在內的分析家公認為業界領先的企業,他們稱Autonomy是有史以來發展速度最快的上市公司。與第二名相比,Autonomy的收入是其兩倍之多。
北京時間2011年10月四日,惠普正式宣布,該公司已經完成了104億美元收購英國軟體公司Autonomy的交易。
這是一場難以理解的收購,除了李艾科本人外,包括惠普內部與外部的所有人都認為Autonomy並不值這個價格。此前林奇曾試圖將公司以60億美元賣給甲骨文,但被拒絕。
初聽上去,這是個不可思議、令人錯愕的故事。
惠普去年夏天宣布以111億美元收購英國軟體公司Autonomy,試圖在企業應用軟體市場追趕IBM等競爭對手。這項由前惠普CEO李艾科推動的收購,當時被矽谷批評代價太過昂貴,也遭到公司CFO的強烈反對,但最終仍然被董事會通過。
當時的董事會——和當前基本一致——都信賴了審計機構德勤對Autonomy的財務審核報告。作為盡職調查的一部分,惠普當時還聘請了畢馬威(KPMG)對德勤的報告進行了審計,巴克萊銀行等投行中介機構也參與了這項收購交易。
無論是德勤還是畢馬威,都沒有能夠發現任何問題。直到2012年4月Autonomy創始人邁克·林奇(Mike Lynch)被辭退後,一位Autonomy領導團隊的資深成員主動“爆料”,惠普通過調查才發現,Autonomy公司存在一系列可疑的會計和商業行為,導致惠普收購這家公司時的估值存在嚴重偏差。
由此帶來的後果殘酷。惠普昨日晚間宣布,在2012財年第四財季財報中記錄一筆非現金商譽減值費用,該筆與Autonomy公司相關的費用價值88億美元。而其中大部分的——超過50億美元,與嚴重的會計不當行為、虛假陳述和情況披露失誤有關。
這也意味著,僅僅一年時間,惠普收購Autonomy的100多億美元已經損失八成。
儘管惠普尚未將Autonomy的行為直接定義為商業詐騙,但其具體指控已明白無誤的指出了這些行為的性質。這些針對Autonomy的指控包括:
——把虧損出售的低利潤硬體偽造為高利潤軟體銷售額;
——把以上產品銷售造成的損失再偽造為市場推廣費用;
——隱瞞通過分銷商渠道銷售的軟體使用許可,這些分銷商把Autonomy軟體和硬體或服務打包出售。這些營收全部偽造成軟體銷售額;
——未正確記錄軟體服務營收。根據會計準則,軟體服務,特別是以月費形式收取的,只有在用戶支付后才能入賬。惠普稱Autonomy在記賬時把這部分收入當作軟體使用許可費提前計入營收。
最新的進展是,惠普已經將其調查結果報告美國證監會(SEC)和英國欺詐重案辦公室,公司CEO惠特曼表示,公司將考慮針對幾個當事人採取法律行動。
Autonomy創始人邁克·林奇無疑首當其衝。
這些年來,非結構化信息的使用範圍發生了大幅度的增長,這些信息的形式包括文檔、電子郵件、電話錄音以及多媒體內容。企業中如今有超過85%的信息都是非結構化信息,這些“人性化”的信息對於計算機而言非常難於理解和使用。而基於語義的計算能夠解決這一問題。
基於語義計算技術使計算機能夠理解各段信息之間的聯繫,進而執行複雜的分析操作,而這一切都是自動且實時進行的。
基於語義計算技術與包括關鍵詞搜索在內的傳統方法有何不同?
基於語義計算技術的能力遠遠超出了諸如關鍵詞搜索這些只能進行數據查找與檢索的傳統方法。舉例而言,關鍵詞搜索引擎不能理解信息的含義,因此這些產品只能用於找出帶某個字詞的文檔。然而由於無法理解含義,所以那些使用了不同字詞但主題卻相同(即有相關性)的文檔將被忽略。而那些主題與用戶期望搜索的內容完全不同的文檔卻經常被返回,從而使得用戶必須修改查詢方式來適應這種搜索引擎。
除此之外,基於語義的計算還能提供關鍵詞搜索引擎無法提供的許多功能,例如自動形成超鏈接以及聚類。舉例而言,自動形成超鏈接可以向用戶提供眾多在語境上與原有的文檔相互聯繫的文檔、服務和產品,這就要求計算機能夠完全理解原有文檔的含義。與此類似,要使計算機能夠自動收集、分析並組織信息,就必須賦予其提取語義的能力。只有擁有基於語義計算技術的系統才能做到這一點。
Autonomy
基於語義計算技術不僅能找出其他技術(包括關鍵詞搜索以及關係資料庫)無法發現,占企業信息總量85%的內容,同時還能理解它們的含義。因此,用戶能夠查看之前甚至認為並不存在的相關信息,從而以實時的方式對其進行操作。
知識管理:基於語義計算技術使企業能夠自動地通過語境理解客戶與員工感興趣的方面,他們的行為,以及與各種類型的信息之間進行的交流。這樣,企業就能夠通過利用其員工所擁有的重要知識、經驗以及專業技能來形成協作。
電子搜索:
基於語義計算技術還使得企業能夠從上萬億位元組的電子郵件、文檔、電子表格以及其他非結構化信息中提取出有意義的內容。藉助該功能,調查人員就能在了解企業環境之餘發現可能存在的不法行為及其發展情況。
超過16000家政府機構以及藍籌公司使用了Autonomy產品中強大的模式匹配演演算法,並通過它們提取出了非結構化信息中的含義。例如,在隸屬於美國國土安全部的機構中,有21家使用了基於語義計算技術來監視涉嫌恐怖活動的團體,從而提供了一個全面的恐怖分子監視名單,並且實現了在出現可能的恐怖活動時以實時的方式通知有關部門。福特汽車公司則將基於語義計算技術用於轉換其研究知識庫中的文本、音頻以及視頻文件,以便獲取有意義的參考資料供其超過15萬名的員工查看。藉助這些資料,員工們就能夠更快地了解企業上馬的新項目。而對於在超過60個國家擁有辦事處的Zurich Financial Services而言,基於語義計算技術帶來的優勢在於找出來自500多個來源的信息中重要的內容,並將其提供至風險管理經理以便找出可能的威脅與機遇。
其他使用了基於語義計算技術並從中受益的企業包括:BAE Systems、波音、福特、戴姆勒-克萊斯勒、殼牌、AOL、BBC、路透社、Hutchison 3G、愛立信、T-Mobile、飛利浦、可口可樂、卡夫食品、雀巢、Lloyds TSB、葛蘭素史克、KPMG、花旗集團、荷蘭銀行、德意志銀行、野村證券以及美國證券交易委員會。
Autonomy
Autonomy
Autonomy是以氫為原料的燃料電池車,有超前的流線形車身,滑板一樣的平坦底盤,加上4個輪子,車身加底盤,這就是Autonomy的構成,也正是這種構成,形成了與現有汽車的最大不同之處。
Autonomy
另外一個引人注目的地方,Autonomy採用了一種稱為線傳操控技術“X-by-Wire,使用這種技術使得汽車的操縱系統、制動系統及其它輔助系統能夠通過電子方式而不是傳統的機械方式進行控制。也就是說,象方向機柱、踏板連桿、變速桿連桿等剛性傳動件將會消失,用導線、繼電器、電磁閥等元件組成的傳動系統代替剛性傳動件。在這樣的變化下,駕駛者既可坐在左側或右側,也可坐在中間,甚至坐在任意位置操縱汽車。由於採用線傳操控技術,Autonomy的所有操縱系統都可以集中在底盤,底盤與車身之間只是介面連接,將車廂內駕車者的操縱信息傳送至底盤內的操縱系統。據了解,這種線傳操控技術不是一種不成熟的新技術,它已經做為一種技術商品應用到一些新型汽車上了,例如新型寶馬7系列採用線傳操控系統,用於變速箱和油門,使其操控更為精確。而Autonomy上的線傳操控技術則是由瑞典SKF公司生產的。
車名:Autonomy是燃料電池車
車長:4465毫米
車寬:1880毫米
車高:1247毫米
軸距:3099毫米
前輪距:1651毫米
後輪距:1272毫米
動力系統:氫燃料電池
駕駛控制系統:X-by-Wire
驅動形式:全輪驅動,每隻車輪由電機驅動。
Autonomy是非凡的概念車,它的結構開拓了人們的視野,令設計者的思想衝破了傳統汽車概念的約束,完全從一個新的起點開始。從燃料電池、網路汽車到Autonomy,未來的汽車形式陸續展現在我們的面前。
Autonomy
標註1(系統外聯裝置)
標註2(車身機械鎖定裝置,共4個)
標註3(插口)
現有搜索技術很難滿足類似這樣的搜索需求,如“最便宜的筆記本電腦是什麼”、“中國隊能否贏得世界盃”、“本月最熱門的IT新聞事件有哪些”等等。
上述搜索需求暴露了現有搜索技術的軟肋:建立在關鍵詞全文檢索理論基礎上的搜索技術,在許多方面並不能滿足人們的一些“模糊需求”,而這些“模糊需求”的數量則遠遠大於“精確需求”。
Autonomy正是為給這個軟肋補鈣而生。Autonomy既是一種搜索新理論的代名詞,又是一個公司的名稱,同時還是一個產品的名字。終結者。
可以負責任地說,2013年元旦之後的一個傳言將與2012年年中的一條消息一樣,將引起Google、雅虎、微軟等搜索巨頭們的嚴重警惕。
Autonomy的“樣板工程”Blinkx
2004年7月,一個位於美國舊金山的創業公司推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索”或“語義搜索”的功能。也就是說,系統經過“學習”積累了一定“經驗”后,可以滿足用戶類似“最便宜的筆記本電腦是什麼”這樣的搜索需求。
有媒體把這種搜索方式稱為“占卜式”搜索,也有人將其稱為“智能搜索”,提供Blinkx搜索工具的公司也叫Blinkx。
Blinkx不僅可以搜索文本內容,還可以搜索電影電視等多媒體內容,不僅可以搜索網際網路內容,還可以搜索本機和區域網上的內容。Blinkx同時還可以搜索不同的文本格式內容,如Text、Word、Excel、PPT、PDF以及各種資料庫中的數據格式。
Blinkx公司同時發布了提供這種新型搜索功能的兩個服務工具,一個是門戶網站,一個是在該網站上可以下載的客戶端軟體,該軟體大小約7MB。儘管這兩個工具當前僅支持英德兩種語言,而且都只是測試版,但它提供的震撼性功能已經開始讓傳統搜索巨頭們為之矚目。
與傳統搜索網站不同的是,在Blinkx的搜索框中鍵入用戶指令,比如“CDMA”,出現的結果可能被系統自動分為10類,可能其中9類與用戶的查詢期望距離較大,用戶就可以將接近的那個結果作為查詢條件,進行第二次查詢,完成“進階式”查詢,通過這種方式逐步接近目標,最後達到用戶期望查詢的結果。
如果安裝了Blinkx的客戶端軟體,一個小的菜單窗口就會出現在Windows Word、Outlook等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時,系統會自動分析這個文檔,然後自動從本機或網路上抓取相關文章或鏈接,以供用戶參考。不僅如此,它還可以及時提供與文章內容相關的新聞、產品信息、視頻內容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關鍵詞”,Blinkx通過對這篇文章進行分析,會給出與這篇文章內容最接近的網路鏈接或本機文檔。這無疑給需要處理大量數據的個人和企業提供了巨大便利。
美中不足的是,Blinkx當前在中國境內沒有設立伺服器,所以瀏覽網頁的速度會受到較大影響。如今,Blinkx還處於測試階段,它從網上抓取的數據還不夠多,其資料庫中裝載的信息還不夠完善,更新頻度也不夠快,所以,用戶可能找到結果(文檔)常常比較陳舊。
2005年元旦剛過,又有消息傳來:Blinkx將進入中國市場,其中文測試版已經“竣工”。據英國Autonomy公司在國內的代理商卓越動力軟體(北京)有限公司稱,當前已經在國內某數據中心建立了一個試驗平台,大約有30多台伺服器正在運行著Blinkx的後台系統。
Autonomy公司是Blinkx公司的股東之一,後者的核心技術也來自前者,因為這種密切關係,Blinkx被認為是Autonomy的“樣板工程”。此前,Autonomy一直像汽車發動機一樣隱藏在幕後。Blinkx發布之前,Autonomy在公眾中並沒有太大名氣;Blinkx發布之後,Autonomy僅有的名氣也很快被Blinkx所超越。
Autonomy雖然在公眾中的知名度不太大,但在商業應用領域中卻名聲煊赫,並在政府、國防、新聞、金融、電信、教育等領域擁有大量中堅客戶。而且,Autonomy還是一個“歷史悠久”的IT公司,同時在美國和英國上市,擁有超過1.47億美元的現金。
正如Autonomy產品所體現出的人文設計思想一樣,Autonomy公司也誕生在人文氣息十分濃厚的英國劍橋大學。
Autonomy的創始人是劍橋大學的邁克·林克(Mike Lynch)教授。1991年,林克教授創立了Autonomy的前身Nurodynamic公司,後者是林克從一個樂隊老闆融資3000多美元創建的,該公司主要致力於劍橋大學模式識別研究成果的產業化工作。
到1996年時,林克教授已經積累了足夠多的客戶資源。於是,他向風險投資商借貸了1500萬美元,創立了Autonomy。同年,Autonomy推出了世界上第一套智能個性化信息系統,同時發布了它的拳頭產品DRE(Dynamic Reasoning Engine,動態推理引擎)和Portal產品系列。
Autonomy產品的核心演演算法是兩種數學理論的獨特結合:貝葉斯概率理論和香農資訊理論。
18世紀,英國牧師托馬斯·貝葉斯曾經試圖利用概率論證明上帝的存在,但他未能如願,不過,他所創立的貝葉斯定律卻奠定了現代概率論的基礎。兩個多世紀以後,這個定律成了Autonomy發家致富的敲門磚。不少數學家認為,貝葉斯定律描述的邏輯是一種跟人類思維模式最接近的數學邏輯,它通過一個概念出現頻率的多少和與其他概念之間的關係來決定其成分的重要性。
香農資訊理論則提供一種方法來提取一篇文章諸多概念之中最有意義的部分。香農資訊理論最基本的理論是:一個詞重複頻率越高,其內容越不具有概括性,反之,一個詞重複頻率越低,其內容越豐富。
Autonomy中含有一個動態推理引擎(Dynamic Reasoning Engine,DRE),它是一個擴展性很強的、多線程的核心引擎。信息的概念分析、內容提取、概念模式識別、相關度計算等關鍵工作都由動態推理引擎來完成。它是一個跨平台的引擎,可以在多種硬體和操作系統環境下優化運行,支持從Intel PC使用的Windows NT到多處理器小型機運行的UNIX等系統環境。它可以與各種不同信息源相連,如網際網路、資料庫、內部網和本機資料庫、文件系統等。當用戶發出搜索指令后,它可以通過概念分析、模式識別、相關度計算等方法,從不同的數據源中找到與用戶要求最匹配的信息。
從“搜索(search)”到“發現(discover)”
Autonomy在保留了傳統搜索方法的基礎上,還發展了新的方法。
如今,人類研究的信息搜索技術有四個方向:關鍵字搜索,模式識別,語義分析,神經網路。除了關鍵詞搜索比較成熟外,其他三項技術還處於待開發狀態。模式識別的代表者就是Autonomy,語義分析和神經網路兩個技術方向當前尚無壓倒性的代表者,這兩個技術方向的研究難度相對較大,估計一時半會不會有突破性研究成果。所以,模式識別就成了當前比較先進的信息搜索技術。
傳統搜索基本上採用“關鍵詞”搜索方式,也就是“非0即1”的方式,它基於嚴格定義和分類的布爾表達式,即“與、或、非”表達式。這樣搜索的最大弊病就是:如果關鍵詞不確定,或者有錯誤疏漏,用戶往往得不到自己想要的搜索結果。
但在實際應用中,用戶常常很難用具體而明確的關鍵詞來描述自己想找的東西,比如上述的“最便宜的筆記本電腦”等等。甚至在有些時候,搜索出來的結果大部分與這個關鍵詞並沒有太大關係,只是結果文章中出現過這個詞而已。例如,一個用戶希望了解污染對企鵝造成的影響,使用關鍵詞搜索法,鍵入“企鵝”,搜索結果可能帶來一些有用的信息,但同時也有大量不相關的文章,如“企鵝出版公司”、“企鵝牌巧克力”、“企鵝冰箱”等。
採用“模式識別”搜索方法,可通過判別相關識別度的高低來對數據進行檢索。即它會對用戶鍵入的檢索內容進行語意上的分析,然後對海量信息進行概念匹配,找出在內容上最接近的數據提供給用戶,所以可以避免傳統“關鍵詞檢索”造成的漏檢情況的發生。比如一篇文章里如果有“大海”這個詞,這篇文章有可能和企鵝有關,但是“大海”這個詞用在很多不同的地方,有可能文章講的是別的內容。但是如果一篇文章里有“大海”、“南極”、“黑色”、“白色”、“不會飛”、“羽毛”、“下蛋”、“石油”、“泄露”等這些詞,這篇文章是在談論污染和企鵝的概率就會很高。雖然整篇文章里沒有“企鵝”這個詞,但是很多相關度較低的詞出現在一起就會帶來很高的相關度,並且缺少某個描述詞對其產生的結果影響微乎其微。
如果說傳統的“關鍵字”搜索方法為“search”(搜索)的話,autonomy採用的“模式識別”方法則應該稱為“discover”(發現),因為它可以讓用戶找到一些事前他們不知道的信息。Autonomy產品中提供的“聚類”功能正是“從搜索到發現”的最佳表現。
如果一個用戶需要知道“本月最熱門的IT新聞事件有哪些”,使用Autonomy的“聚類”功能就可以得到近乎完美的答案。第一步,用戶先設定一些需要搜索的目標網站,根據“本月最熱門的IT新聞事件有哪些”這個需求,這些目標網站自然是一些IT新聞網站;第二步,通過Autonomy的DRE對這些網站上這個月內報道的IT新聞進行檢索;第三步,對這些新聞進行分類,報道數量最多最頻繁的前幾件事情就是“本月最熱門的IT新聞事件有哪些”的候選者。這是沒有計算機幫助時的人工作法,當前,這些步驟都由安裝了Autonomy軟體的計算機來完成,用戶只需要“發動”一下這個系統:給“本月最熱門的IT新聞事件有哪些”這個搜索需求設定一些關鍵參數。
當然,設置關鍵參數對非專業人士而言並不是一件容易的事情,一開始可能有些麻煩,不過,隨著這個不斷“學習”的系統的後台資料庫數據量的增加,用戶需要設置的參數可能會越來越少,甚至做到直接用“本月最熱門的IT新聞事件有哪些”就可以一步到位搜索到用戶所需要的。當然,用戶這個系統不可能像google的檢索資料庫一樣包羅萬象,只能在某些個別領域(如IT新聞、環境污染等)成為一個“專家”,這個“專家”在面對來自其他領域或行業的問題時,一開始一樣是個傻瓜。
處理非結構化數據的利器
“只要存在非結構化數據,就對autonomy有需求。”Autonomy公司的代理商卓越動力認為,對於那些非結構化的數據,Autonomy提供的功能是十分有效的。而隨著網際網路的大規模普及,非結構化數據將越來越多,遠遠超過了結構化數據的數量。對於企業而言,如何處理數量如此龐大的非結構化數據,比個人的需求更加迫切。
企業對文檔的處理可分為三個發展階段。最初是文件系統,通常是樹型目錄結構的文件管理器。當文件大量出現后,樹型目錄已經無法管理一些邏輯性和結構性很強同時又關係複雜的數據,於是出現了關係型資料庫,通過資料庫管理工具對數據進行安全管理、備份管理、分類管理等,也就是把非結構化文檔結構化,變成計算機能夠讀懂的數據和關係。這是第二個階段。
第三個階段是在網際網路出現后,隨著大批非結構化數據的出現,單純將非結構化數據轉化成結構化數據的工作需要耗費大量的人力和物力,同時還往往需要把結構化的數據又重新以非結構化方式輸出,這樣轉換來轉換去,導致了大量資源浪費和成本支出。所以,如何不轉換就能直接處理非結構化數據,成了迫在眉睫的問題,Autonomy的功能正好應運而生。
Autonomy通過保持數據原型,通過架設自己的平台來對數據進行管理。從而完成從信息與信息的互動,到人與信息的互動,最終達到人與人的互動。此外,Autonomy還可以建立文字與視音頻片段的對應,從而完成新聞媒體里的新聞和談話節目的數據管理工作。
當前,Autonomy在國外比較成功的應用案例集中在媒體、政府機構、金融和信息產業等需要集中處理大量非結構化數據的領域。
2003年3月,Autonomy進入中國市場,當前主要集中在電信和政府市場。在企業內部,Autonomy是追求建立符合企業內部數據管理需求的平台,可將放在不同位置的不同類型的數據進行有效梳理。“搜索”不是autonomy的最終目的,抽取最需要的信息進行“信息集成”,搭建知識管理平台才是Autonomy的應用方向。
Autonomy代理商卓越動力認為,政府機構和一些需要對信息進行監控的機構是該系統在中國的潛在市場。
Autonomy曾經在美國本土安全局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應用。因為對於網路上出現的大量的有害信息,Autonomy可以做到事前發現,從而幫助政府機構採取及時地反應。
隨著網際網路的多元化,大量網上違法信息都不以關鍵詞形式出現。例如,政府有關部門要打擊網上非法買賣違禁藥物,使用“搖頭丸”、“興奮劑”等關鍵詞搜索出來的內容多數是關於藥物危害、打擊犯罪等方面的正面文章,而出現“興奮”、“購買”、“單價”等關鍵詞的文章,則與非法買賣違禁藥物的相關度最高。通過這種非關鍵詞搜索的“模式識別”搜索,政府監控部門可以有效打擊日益猖獗的網上犯罪。
資料
Autonomy的工作原理
Autonomy的核心是建立在獨特的資訊理論和概率論的基礎之上的模式識別技術,它可以保證對任何形式的信息:文本文件或基於語音、視頻、非結構化或結構化的實際內容的基本理解。
如今網路應用軟體主要為三層結構:用戶界面層、應用軟體層和數據層。這樣的結構所存在的問題是,不同的應用軟體不能實現信息共享。信息源與信息源之間有不可跨越的屏障,來自不同信息源的信息有不同的格式。Autonomy創建了一個新的信息層:智能信息操作層IDOL,自動把各個信息源和各種文件格式統一在一個智能的信息操作系統之下,這個智能信息操作系統可以提供多種信息操作的功能,比如信息的實施自動鏈接,信息自動分類,內容概括,信息聚類等。
Autonomy在系統內創建一個新層,即智能數據操作層(intelligent data operating layer,IDOL),從而使企業系統“以數據為中心”。該操作平台後端與各種數據源相連,可以根據任何語言和格式進行內容搜索,不論內容存放在哪裡,自動實時地將總結以及與其類似信息的鏈接呈現出來。由於autonomy的技術是建立在概率性建模之上,因此不依賴任何語言進行分析,無需維護任何繁瑣的詞表,IDOL將此看成是意義的抽象符號,它通過詞出現時的上下文環境而不是通過嚴格的語法定義來形成對該詞的理解,從而識別進入到autonomy架構中的任何數據的語言特性。
另外,autonomy還具有分類和聚類功能。IDOL自動根據非結構化文本中的概念對信息進行分類,可以保證根據內容對所有數據進行最準確的分類。而自動聚類可以收集大量的文檔數據或用戶檔案信息,並且自動識別出信息內的主要類別,讓IDOL自動的持續一致的計算新的信息應該屬於哪個類別。
2012年1月20日,惠普2012年以110億美元收購的Autonomy存在會計欺詐,將進行88億美元的資產減記。