學術不端文獻檢測系統
學術不端文獻檢測系統
學術不端文獻檢測系統(簡稱“AMLC”)以《中國學術文獻網路出版總庫》為全文比對資料庫,實現了對抄襲與剽竊、偽造、篡改等學術不端行為的快速檢測,可供用戶檢測論文,並支持用戶自建比對庫。
支持篇章、段落、句子各層級檢測;
支持文獻改寫,多篇文獻組合等各種文獻變形檢測;
支持研究生論文、圖書專著等超長文獻的學術不端檢測。
對任意一篇需要檢測的文獻,系統首先對其進行分層處理,按照篇章、段落、句子等層級分別創建指紋,而比對資源庫中的比對文獻,也採取同樣技術創建指紋索引。這樣的分層多階指紋結構,不僅可以滿足我們對超長文獻的快速檢測,而且,因為我們的最小指紋粒度為句子,因此,也滿足了系統對檢准率和檢全率的高要求。原則上,只要檢測文獻與比對文獻存在一個相同的句子,就能被檢測系統發現。
系統主要功能包括:已發表文獻檢測、論文檢測、問題庫查詢、自建比對庫管理等。
◆已發表文獻檢測:指檢測系統能夠自動將屬於用戶的已正式發表的論文檢索出來,並對每一篇已發表文獻進行實時檢測,快速給出檢測結果。
◆論文檢測:主要實現論文實時在線檢測功能。
◆問題庫查詢:指用戶可以將檢測結果中確認有問題的文獻放入到問題庫,便於用戶集中管理。
◆自建比對庫:指管理人員可以選擇將檢測文獻放入個人比對庫或者批量上傳文獻作為個人比對庫,該個人比對庫即可作為以後學術不端文獻檢測的比對資料庫,該自建個人比對庫完全屬於用戶,其他用戶無權使用。
AMLC的目的是提供辨別和處理學術不端文獻的能力,為審查論文提供技術服務。檢測系統在對論文進行檢測之後,生成檢測報告,為判斷論文性質提供相關依據。
CNKI擁有強大的技術研發隊伍,已經擁有了具有國際或國內領先水準的全面的數字出版的相關技術,包括資源採集技術,文本資料庫加工技術,文本資料庫技術, 數字資源版權保護技術, 知識挖掘技術,自然語言處理技術、快速比對技術等。在海量的全文數據的基礎上實現快速準確的檢測,上述技術是基本的保證。
AMLC需要一個儘可能完備的全文數據比對資源庫,而CNKI的《中國學術文獻網路出版總庫》則正好滿足這一要求。到目前為止,CNKI擁有學術期刊7000餘種,期刊全文文獻2480萬篇,期刊期數和文獻收錄完整率都大於99.9%,文獻量居國際國內同類產品之首;出版503家碩士學位點的72萬篇優秀碩士論文,368家博士學位點的9.6萬篇博士論文;1286家重要會議論文106萬篇;515家重要報紙500多萬篇;1376種重要年鑒787萬篇;600多種工具書220多萬條;學術引文索引數據600多萬條;這些出版物做到平均日更新20000條記錄;國家標準、專利、SPRINGER資料庫也集成到CNKI網路出版平台中;另外,出版平台還集成整合出版了各類第三方資料庫資源1020種。
在收錄資源種類上,CNKI在國內具有明顯優勢,收錄了期刊、論文、會議論文、報紙、年鑒、工具書、專利、外文文獻、學術文獻引文等與科學研究、學習相關的主要資源。在資源收錄數量上,CNKI明顯優於同類產品,各個資源庫收錄年限長,期刊等主要資源庫回溯到創刊。在資源更新速度上,CNKI產品除了第三方合作的外文文獻以外,其他資源都做到了日更新,單日更新數量大,這是推行產業化、標準化運作的結果。