據中國科學報 王方,于2025年09月15日報道,一家學術出版商對數萬份論文投稿進行分析后發現,在過去幾年中,使用人工智能(AI)生成文本的情況顯著增加。
美國癌癥研究協會(AACR)發現,在2024年向其旗下期刊提交的稿件中,23%的摘要和5%的同行評議報告包含可能由大型語言模型生成的文本。此外,盡管AACR已強制要求作者在投稿時披露AI使用情況,但僅有不到25%的作者遵守了這一規定。
為檢測投稿中是否存在AI使用痕跡,AACR采用了由美國潘格拉姆實驗室研發的一款AI檢測工具。2021年至2024年間,該機構使用這一工具對向旗下10種期刊提交的4.65萬篇摘要、46021個方法章節及29544條同行評議意見進行了檢測。結果顯示,自2022年11月OpenAI旗下聊天機器人ChatGPT公開推出后,投稿和同行評議報告中疑似AI生成文本的數量呈上升趨勢。
“看到檢測結果時,我們感到十分震驚。”AACR期刊運營與系統主任Daniel Evanko表示。近日,他在美國芝加哥市舉辦的第十屆同行評議與科學出版物國際大會上公布了這一研究結果。
分析顯示,在2023年底AACR禁止同行評議人員使用大型語言模型后,同行評議報告中AI生成文本的比例下降了50%。但到2024年初,同行評議意見中AI生成文本的檢出量增長了一倍多,且這一趨勢仍在持續。
Evanko指出:“盡管我們明確禁止使用大型語言模型進行同行評議,但仍能看到使用量在不斷增加,這一現象令人不安。我們計劃對所有新提交的稿件和同行評議意見進行全面篩查。”
英國研究誠信公司Clear Skies的創始人Adam Day認為,這款檢測工具整體表現十分出色。但他同時表示:“該工具在假陽性率方面可能存在我們尚未發現的偏差,需要引起重視。”假陽性率即錯誤地將人類撰寫文本判定為AI生成文本的比例。
潘格拉姆實驗室的檢測工具以2021年前的2800萬份人類撰寫文檔——其中包括300萬篇科學論文,以及“AI鏡像文本”,即模仿人類撰寫文本的長度、風格和語氣生成的大型語言模型文本為訓練數據。
潘格拉姆實驗室首席執行官Max Spero表示,為該工具添加主動學習模式是“一項重大突破”,這一改進有效降低了假陽性率。他和團隊對工具進行了反復訓練,將假陽性率從約1%降至約0.01%。
在2024年公布的一篇預印本論文中,Spero及同事指出,潘格拉姆檢測工具的準確率高達99.85%,錯誤率是目前市面上其他AI檢測工具的1/38。
在2022年11月ChatGPT推出前提交的稿件中,該檢測工具僅標記了7篇疑似包含AI生成文本的摘要,未發現方法章節或同行評議報告中存在AI生成文本。Evanko表示:“自那之后,AI生成文本的檢出量穩步上升,且增速遠超我們的預期。”
該工具還能區分不同類型的大型語言模型,包括ChatGPT系列模型、深度求索(DeepSeek)、羊駝(LLaMa)及克勞德(Claude)。Spero解釋說:“之所以能做到這一點,是因為整個訓練數據集由我們自主生成,因此我們清楚了解每一條訓練數據的來源,也明確其對應的生成模型。”
不過,當前版本的潘格拉姆檢測工具無法區分“完全由AI生成的文本”與“人類撰寫后經AI編輯的文本”。
2024年,AACR使用潘格拉姆檢測工具對11959篇摘要、11875個方法章節及7211條同行評議報告進行了分析。結果顯示,來自非英語母語國家機構的作者使用大型語言模型的概率是其他作者的兩倍多。
Evanko表示:“方法章節的AI使用率之高,讓我感到十分驚訝。讓大型語言模型優化方法章節的表述可能會引入錯誤,因為它需要精確說明研究過程,一旦進行改寫,可能造成信息不準確。”
研究還發現,在2025年提交的稿件中,摘要被檢測工具標記為疑似AI生成的稿件,被期刊編輯預審拒絕的概率是未被標記稿件的兩倍。此外,方法章節被標記存在AI生成文本的稿件,預審拒稿率也更高。
不過,該研究并未追蹤最終有多少被標記的稿件成功發表。此外,研究還表明,當前有關AI使用披露的政策效果有限。
美國西北大學范伯格醫學院的Mohammad Hosseini認為,應謹慎解讀上述發現,目前無法完全證實被標記的稿件確實使用了AI。不過,他也表示,出版商需要“針對政策違規情況采取行動”。