李維

計算語言學家

李維,男,漢族,Cymfony 公司首席科學家、架構師,自然語言平台和核心技術設計者,自然語言處理副總裁(Vice President,NLP)。

1986年中國社會科學院機器翻譯專業碩士學位,2001年獲加拿大 Simon Fraser University 計算語言學專業博士學位。

個人簡介


1997/11 至 2006/03
Cymfony 公司,研究開發部,美國紐約州水牛城(Buffalo, New York)
主研究員(Principal Research Scientist)
自然語言處理副總裁(Vice President,NLP) (1999始)
撰寫研究基金申請計劃,先後贏得18項美國政府”小企業創新研究基金”(SBIR: Small Business Innovative Research),擔任其課題負責人(PI: Principal Investigator or co-PI),研究開發新一代基於自然語言處理(NLP: Natural Language Processing)的信息抽取(IE: Information Extraction)技術。
該技術集中體現在 Cymfony 公司所開發的 InfoXtract(TM) 軟體系列,包括 InfoXtract NLP/IE 引擎,組建技術,詞典語法資源,有限狀態轉錄機工具箱(Finite State Transducer Toolkit),機器自動學習工具箱(Machine Learning Toolkit)及開發平台。
在此基礎上開發的軟體產品 Brand Dashboard 和 Digital Consumer Insight,實時掃描處理數千種媒體報道,自動抽取品牌報道關鍵信息,過濾整合,分析數據全面反映品牌走勢,為大企業創保作為無形資產的名優品牌提供決策參考,達到人工分析難以企及的廣度及統計學意義上的精度。
2000 年幫助成功引進華爾街高科技風險基金一千一百萬,使Cymfony由有兩三個員工的從事網際網路一般業務的公司發展成為具有70多員工,設立三處辦公樓(美國波士頓,布法羅,和印度孟買分公司),引進專業管理人員及制訂信息技術(IT: Information Technology)市場營銷計劃的高科技中小企業。
1999 年指導 Cymfony 研發部參與由美國國家標準技術局(NIST:National Institute of Standards and Technology)主持評判的第八屆”文本檢索大會”(TREC-8: Text Retrieval Conference)專項競賽“自然語言問答系統”,獲得第一名。
Cymfony 的技術及成長先後被多種媒體報道,包括《財富》,《華爾街日報》,《布法羅新聞》,及中文版《世界日報》。Cymfony 由於在一系列 SBIR 研究中成績突出,被提名競逐“2002 全美小企業最優合同項目年度獎”(2002 US Small Business Administration Prime Contractor of the Year Award)。
1987-1991
中國社會科學院語言研究所,北京
助理研究員
從事外漢機器翻譯,自然語言處理及中文信息處理等領域的研究。由於研究工作出色,曾被提名破格晉陞高級職稱。
1988-1991高立軟體公司,北京,高級工程師(兼職)
從事高立英漢機器翻譯系統 GLMT 的開發研究。主要工作有:
開發及調試八百條機器語法規則
設計及實現系統的語義模塊背景知識庫
培訓及指導八人小組建立並開發有六萬多詞條的機器翻譯詞典及具有上萬詞典規則的專家詞典規則庫的開發
推動高立公司將 GLMT 1.0 產品化(1992)
該機譯技術成功轉化到香港韋易達公司袖珍電子詞典系列產品中
GLMT於1992年1月在北京新技術產業開發試驗區通過鑒定,先後獲得北京市科技進步獎、新加坡INFORMATICS’92國際博覽會計算機應用軟體銀獎和92年第二屆中國科技之光博覽會電子行業金獎,被列入火炬計劃。
1988承接荷蘭 BSO 軟體公司合同項目,撰寫為多語種機器翻譯服務的“漢語依從關係形式句法”,獲得好評。

教育經歷


2001年
獲加拿大 Simon Fraser University 計算語言學專業博士學位
學位論文“漢語短語結構文法中的詞法句法介面研究”
(The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar)
該漢語形式文法成功運用於英漢雙向機器翻譯系統的實驗,證明同一部文法可以用於雙向系統的漢語分析和綜合。
攻讀博士期間,多次擔任計算機系自然語言實驗室(Natural Language Lab)助研(Research Assistant)及語言學系助教(Teaching Assistant)或臨時講師(Sessional Instructor)
1991-1992年
英國曼徹斯特理工大學計算語言學中心(CCL/UMIST)博士候選人
1986年
獲中國社會科學院研究生院語言學系機器翻譯專業碩士學位
學位論文”從世界語到英語和漢語自動翻譯”:這是國內少有的一對多機器翻譯系統的研究探索。
1982年
安慶師範學院外語系英語專業學士學位

獲獎情況


2001年獲本系傑出成就獎(Outstanding Achievement Award), Department of Linguistics, Simon Fraser University (award given to the best PhD graduates from the department)
1995-1997獲加拿大卑詩省科學委員會 G.R.E.A.T. 獎學金 (G.R.E.A.T. Award, Scienc Council, B.C. CANADA), 旨在促進應用性博士課題與當地高科技企業的結合
1997年獲校長研究資助(President’s Research Stipend)
1996年獲新加坡 ICCC 大會特別旅行資助,宣講論文
1995年獲研究生獎學金(Graduate Fellowship)
1992年與傅愛平合作的機器翻譯資料庫應用程序獲中國社會科學院軟體二等獎
1991年獲中英友好獎學金(中國教育部,英國文化委員會及包玉剛基金會聯合提供)赴英深造

其他活動


2002-2005,擔任新加坡《中文和計算雜誌》國際編委
1998-2004 擔任企業導師(Industrial Advisor),先後指導20多位博士或碩士侯選人從事有工業應用前景的暑期實習研究課題(實習生來自紐約州立大學布法羅分校計算機系或語言學系)

發表論文


Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by
Multiple Levels of Information Extraction, a book chapter in T.
Strzalkowski & S. Harabagiu (eds.), Advances in Open- Domain Question
Answering. Springer, 2006, ISBN:1-4020-4744-4.
Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A
Customizable Intermediate Level Information Extraction Engine. Journal
of Natural Language Engineering, 12(4), 1-37, 2006.
Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context
Pair Classification Model For Word Sense Disambiguation. Proceedings
of Ninth Conference on Computational Natural Language Learning
(CoNLL-2005).
Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery
Portal based on Corpus Level Information Extraction. Proceedings of
2005 International Conference on Intelligence Analysis Methods and
Tools.
Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for
Cross-document Person Name Disambiguation Supported by Information
Extraction. In Proceedings of ACL 2004.
Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context
Clustering for Word Sense Disambiguation Based on Modeling Pairwise
Context Similarities. In Proceedings of Senseval-3 Workshop.
Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case
Restoration Using Supervised Learning Without Manual Annotation.
International Journal of Artificial Intelligence Tools, Vol. 13, No.
1, 2004.
Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to
Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive
Text Extraction and Mining (ATEM), California.
Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information
Extraction. In Proceedings of International Conference on Natural
Language Processing (ICON 2004), Hyderabad, India.
Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert
Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings
of ACL 2003. Sapporo, Japan. pp. 513-520.
Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach
to Named Entity Classification using Successive Learners. In
Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342.
Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a
Case Insensitive Corpus. In Proceedings of Workshop on Multilingual
Summarization and Question Answering - Machine Learning and Beyond
(ACL-2003 Workshop). Sapporo, Japan. pp. 84-93.
Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for
Named Entity Tagging using Concept-based Seeds. In Proceedings of
HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada.
Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A
Customizable Intermediate Level Information Extraction Engine. In
Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and
Architecture of Language Technology Systems (SEALTS). pp. 52-59,
Edmonton, Canada.
Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location
Normalization: A Hybrid Approach to Geographic References in
Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on
Analysis of Geographic References. Edmonton, Canada.
Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction
from Large Corpora. In Proceedings of Pacific Association for
Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia,
Canada.
Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden
Markov Model for Relationship Extraction Using Multi-level Contexts.
In Proceedings of Pacific Association for Computational Linguistics
2003 (PACLING03). Halifax, Nova Scotia, Canada.
Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised
Learning for Verb Sense Disambiguation Using Both Trigger Words and
Parsing Relations. In Proceedings of Pacific Association for
Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia,
Canada.
Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case
Restoration Using Supervised Learning Without Manual Annotation. In
Proceedings of the Sixteenth International FLAIRS Conference, St.
Augustine, FL, May 2003, pp. 402-406.
Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate
Level Information Extraction Engine. In Proceedings of International
Conference on Natural Language Processing 2003.
Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration
Approach to Named Entity Tagging in Degraded Documents. In Proceedings
of International Conference on Document Analysis and Recognition
(ICDAR), Edinburgh, Scotland, Aug. 2003.
Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for
Information Extraction. In Proceedings of the 19th International
Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan.
Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002.
Extracting Exact Answers to Questions Based on Structural Links. In
Proceedings of Multilingual Summarization and Question Answering
(COLING-2002 Workshop). Taipei, Taiwan.
Srihari, R. and W. Li. 2000. A Question Answering System Supported by
Information Extraction. In Proceedings of ANLP 2000. Seattle.
Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named
Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle.
Li. W. 2000. On Chinese parsing without using a separate word
segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore.
Srihari, R. and W. Li. 1999. Information Extraction Supported Question
Answering. In Proceedings of TREC-8. Washington
Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum
Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of
HKK Conference, Waterloo, Canada
W. Li. 1997. Chart Parsing Chinese Character Strings. In Proceedings
of the Ninth North American Conference on Chinese Linguistics
(NACCL-9). Victoria, Canada.
W. Li. 1996. Interaction of Syntax and Semantics in Parsing Chinese
Transitive Patterns. In Proceedings of International Chinese Computing
Conference (ICCC’96). Singapore
W. Li and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG,
Proceedings of PACLING-II, Brisbane, Australia
Uej Li. 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto.
In Serta gratulatoria in honorem Juan Régulo, Vol. IV. pp. 707-723. La
Laguna: Universidad de La Laguna
Z. Liu, A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In
Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich.
劉倬,傅愛平,李維 (1992). 基於詞專家技術的機器翻譯系統,”機器翻譯研究新進展”,陳肇雄編輯,電子工業出版社,第 231-242 頁,北京
李維,劉倬 (1990). 機器翻譯詞義辨識對策,《中文信息學報》,1990年第一期,第 1-13 頁,北京
劉倬,傅愛平,李維 (1989), JFY-IV 機器翻譯系統概要,《中文信息學報》,1989年第四期,第 1-10 頁,北京
李維 (1988). E-Ch/A 機器翻譯系統及其對目標語漢語和英語的綜合,《中文信息學報》,1988年第一期,第 56-60 頁,北京