孫樂

中國科學院軟體研究所研究員

孫樂,男,中國科學院軟體研究所研究員,主要研究下一代文本信息檢索模型、輔助機器翻譯演演算法、跨語言信息檢索、文本分類、漢語語義理解模型等。

人物簡介


職稱:研究員
性別:男
主要研究方向及簡介
主要研究方向:下一代文本信息檢索模型、輔助機器翻譯演演算法、跨語言信息檢索、文本分類、漢語語義理解模型等。目前在研課題:國家自然科學基金項目2項,國家863項目2項,國家語委項目1項。
學習經歷
1998年博士畢業於南京理工大學
1998年至2000年在中國科學院軟體研究所,博士后,從事輔助翻譯研究
工作經歷
2001年1月至2003年2月 中國科學院軟體研究所 副研究員 中心副主任
2003年3月至2003年9月 英國Birmingham大學 語料庫研究中心訪問學者
從事漢英平行語料庫研究
2003年10月至2004年11月 中國科學院軟體研究所 副研究員 中心副主任
2004年12月至2005年12月 加拿大Montreal大學 計算機系 訪問學者
從事高精度和個性化信息檢索研究。
2005年12月——至今 中國科學院軟體研究所 副研究員
社會兼職
中國中文信息學會 秘書長
中文信息學報 副主編
中文信息學會 內容安全與信息檢索專委會委員
人工智慧學會 自然語言處理專委會委員
2003、2004和2005年863信息檢索和文本分類測評的組織者
2008國際測評NTCIR-7MOAT中文簡體任務的組織者
國際計算語言學大會(COLING2010)組織委員會主席
研究成果與獲獎情況
在國內外主要刊物和會議上共發表論文50多篇,軟體登記5項,軟體專利3項,已經培養博士4名,碩士12名。曾獲2007年中國科學院軟體研究所優秀導師。

代表論著


期刊:
黃瑞紅,孫樂,馮元勇,黃雲平,基於核方法的中文實體關係抽取研究,中文信息學報,22(5),pp.102-108, 2008
李文波,孫樂,張大鯤. 基於Labeled-LDA 模型的文本分類新演演算法,計算機學報,pp.620-627,31(4),2008
李文波,孫樂,諾明花,吳健. 基於核方法的敏感信息過濾的研究,通信學報,pp.57-62,29(4),2008
馮元勇,孫樂,張大鯤,李文波. 基於單字提示特徵的中文命名實體識別快速演演算法,中文信息學報,22(1), 2008
馮元勇,孫樂,董靜,李文波. 基於分類信心重排序的中文共指消解研究,中文信息學報,21(6): 22-28. 2007
董靜,孫樂,馮元勇,黃瑞紅,中文實體關係抽取中的特徵選擇研究,中文信息學報,2007,21(4):80-85
張瑋,孫樂,馮元勇,李文波,黃瑞紅,辭彙搭配和用戶模型在拼音輸入法中的應用,中文信息學報,2007,21(4):105-110
張大鯤,張煒, 馮元勇,孫樂“基於非連續短語的統計翻譯模型研究”,中文信息學報,2007,21(1)
張俊林,劉洋,孫樂,劉群, “2005年度863 信息檢索評測方法研究和實施”, 中文信息學報,2006
張俊林,孫樂, 孫玉芳“一種改進的基於記憶的自適應漢語語言模型”,中文信息學報,2005,19(1)
曲為民,張俊林,孫樂,孫玉芳,“Difx:利用動態索引演演算法實現高效的XML數據查詢”,計算機研究與發展,2005 Vol.42 No.11
曲為民,孫樂,孫玉芳,“XML數據查詢中值匹配查詢代價估計演演算法的研究”,軟體學報,2005年4月,16(4)
張俊林,孫樂,孫玉芳,“基於主題語言模型的中文信息檢索系統研究”,中文信息學報,2005,19(3)
張俊林,曲為民,孫樂,孫玉芳“一種改善的基於語言模型的中文檢索系統研究”, 中文信息學報,2004,18 (2)
曲衛民,張俊林,孫樂,“基於主題的漢語語言模型的研究”,《計算機研究與發展》2003,Vol, 40, No.9, p1368~1374
閩金明,孫樂,張俊林,重新審視跨語言信息檢索, 中文信息學報, 2006,Vol 20(4)
曲為民,張俊林,孫樂,孫玉芳,基於記憶的中文自適應語言模型的研究,中文信息學報,2003,Vol 17 (5)
曲為民,孫樂,孫玉芳,“半結構化中文信息檢索中查詢結果相關度演演算法的研究”,中文信息學報,2004,18(4)
張永臣,孫樂,等中文信息學報,“基於數據的特定領域雙語詞典抽取”,中文信息學報,2006,20(2)
馮元勇,孫樂,張大鯤,李文波. 《基於小規模尾字特徵的中文命名實體識別研究》,電子學報

主要研究方向


主要研究方向:下一代文本信息檢索模型、輔助機器翻譯演演算法、跨語言信息檢索、文本分類、漢語語義理解模型等。目前在研課題:國家自然科學基金項目2項,國家863項目2項,國家語委項目1項。

在研項目


自然科學基金重點項目(與哈工大、清華合作):下一代信息檢索研究
課題摘要:下一代搜索引擎的一個突出特點是個性化,本課題圍繞個性化信息檢索展開研究。個性化信息檢索是以用戶為中心的信息檢索技術,它獲取以多種形式表達的用戶需求(包括顯式的、隱式的以及相關用戶的需求),並綜合利用這些用戶信息,提高信息檢索系統的性能。本課題在理論方面,以用戶為中心的用戶參考文檔模型和基於用戶需求分析的網頁價值模型;在個性化用戶信息挖掘方面,從個人、群體和整體三個線索對用戶的興趣、檢索偏好、社會關係網路和宏觀用戶行為進行挖掘;將從多個信息源採集到的信息集成在一起,支持個性化信息檢索過程。在個性化檢索系統的評價方法方面,構建人工標註的標準評測集,同時展開基於用戶行為分析進行自動評價的探索。在理論研究的基礎上,本課題選擇了客戶端隱式個性化檢索和協同式個性化推薦作為應用實例。本課題力爭在個性化檢索的計算理論和核心技術上有所突破。
自然科學基金項目(獨立承擔):基於NLP的高精度文本檢索模型研究
課題摘要:文本檢索系統的查詢條件和文檔集都是由自然語言構成的。由於傳統文本檢索系統本質上只是將文本看作一組無序詞串,利用簡單的詞頻統計來模糊計算相關性,因此,傳統檢索系統面臨許多無法解決的問題。同時,一些研究表明將相對複雜和精確的自然語言處理(NLP)技術直接(淺層)應用於傳統檢索系統並不能帶來性能的明顯的改善。本申請書提出的基於NLP的高精度文本檢索模型研究,是以NLP技術與信息檢索中的語言模型方法的深層次融合為出發點,主要探討不同於傳統IR模型的能夠融入NLP技術的新的語言模型檢索方法,研究這些不同層次的NLP技術對IR性能的影響,並期望在比較后獲得相對最佳的融合模型。本項目試圖建立NLP與IR之間的緊密的聯繫,來系統地揭示一些客觀現象。
863重點項目(與計算所、哈工大、廈門大學、自動化所合作):面向跨語言搜索的機器翻譯關鍵技術研究
課題摘要:本課題主要以統計機器翻譯方法為關鍵技術來開展跨語言信息檢索的研究。主要研究內容如下:第一,翻譯模型研究:探索辭彙、句法信息及語義信息的結合,研究融入結構知識的翻譯模型;第二,翻譯知識獲取研究:針對各種不同的翻譯模型,研究翻譯知識的獲取演演算法;第三,解碼演演算法研究:研究全局優化與局部優化的結合方法,建立啟髮式搜索與動態規劃等多種策略相結合的高效、智能搜索策略;第四,跨語言檢索研究:研究查詢語句翻譯與檢索相融合的跨語言信息檢索模型,檢索結果翻譯與用戶反饋相結合的查詢反饋模型,以及跨語言檢索系統的實用化問題;第五,系統實現:探索合理的集成機器翻譯的跨語言搜索系統總體架構。
863項目(獨立承擔):大規模網路文本數據的語義理解和分類技術
課題摘要:本課題提出的面向信息檢索的網路文本數據理解和分類研究,擬採用自然語言理解的關鍵技術對文本數據進行淺層的語義理解,在淺層理解的基礎上通過文本語義特徵和文本網路特徵相融和的新分類演演算法進行文本分類,分類后的網路文本數據可以幫助搜索引擎用戶高效地獲取相關信息;同時,通過設定不良信息類別,可以從源頭上阻止這類信息的傳播。由於視頻檢索中包含圖像、聲音、文字等信息,圖片中包含文字說明,文字信息是相對比較可靠的分類依據,因此,該技術也可以應用於對圖片、視頻等多媒體數據的分類和理解。課題的主要研究內容包括網路文本的正規化(網路非規範文本的去噪處理)、網路文本的淺層語義理解(漢語命名實體識別、實體間語義關係識別、句子級事件識別、篇章級發文目的識別以及上述各級精加工語料標註規範的研究)、文本語義特徵和文本網路特徵相融和的分類演演算法以及大規模網路數據分類效率的提高等。