根據《自然》雜誌最近的一份報告,生成式人工智能在學術寫作中的使用呈爆炸性增長。研究顯示,PubMed(最大的生物醫學數據庫)中有10%的摘要疑似涉及人工智能寫作,相當於每年約15萬篇論文。
柏林應用科技大學的一項研究發現,主流的人工智能生成內容檢測工具平均準確率僅為50%,並經常將人類撰寫的內容誤識別為人工智能生成。許多人工智能生成的論文可以通過改寫和同義詞替換輕易逃避檢測。此外,英語母語者使用人工智能工具更難被檢測出來。
雖然人工智能工具之前已在學術界廣泛使用,但使用生成式人工智能直接輸出論文或代寫仍然存在爭議。人工智能工具使抄襲變得更容易,可能導致版權侵犯。
人工智能輔助寫作並非毫無優點。許多學者通過使用生成式人工智能避免了用不熟悉的語言發表論文的麻煩,使他們能夠專注於研究本身。許多期刊現在允許使用生成式人工智能工具,但要求作者在論文中披露使用詳情。
來自蒂賓根大學的研究分析了2010-2024年間PubMed中的1400萬篇摘要。他們發現在ChatGPT等生成式人工智能工具出現後,某些修飾性風格詞的使用出現異常激增。這些詞的頻率被用來估算人工智能撰寫摘要的比例。
研究人員還發現各國在人工智能工具使用上存在差異。他們的數據顯示,來自中國和韓國等國家的論文比英語國家的論文更頻繁地使用人工智能寫作工具。然而,英語國家作者的使用可能更難被檢測到。
生成式人工智能在學術寫作中的使用引發了兩個主要問題。首先,抄襲變得更容易,因為抄襲者可以使用人工智能以學術期刊風格改寫他人的研究,使其難以被檢測。其次,人工智能模型可能會輸出未註明出處的版權內容,如《紐約時報》對OpenAI的訴訟所示。
為應對人工智能工具使用的擴散,許多公司推出了人工智能生成內容檢測工具。然而,這些工具在與生成式人工智能的"貓鼠遊戲"中基本失敗。柏林應用科技大學的一項研究發現,14種常用的學術人工智能檢測工具中,只有5種達到了70%以上的準確率,平均準確率僅為50-60%。
這些檢測工具在經過手動編輯或機器改寫的人工智能生成內容上表現更差。簡單的操作如同義詞替換和句子重構可以將檢測工具的準確率降至50%以下。該研究得出結論,這些工具的整體檢測準確率僅約50%。
檢測工具在識別人類撰寫的論文方面表現出高準確率。然而,如果作者用母語寫一篇原創論文,然後使用翻譯軟件將其翻譯成另一種語言,可能會被誤識別為人工智能生成。這可能嚴重損害學者和學生的學術聲譽。
然而,生成式人工智能工具確實為一些研究人員帶來了便利。沙特阿拉伯國王大學的IT研究員Hend Al-Khalifa分享說,在生成式人工智能工具出現之前,許多英語不熟練的同事在論文寫作方面面臨重大障礙。現在,這些學者可以專注於研究本身,而不必花太多時間在寫作上。
人工智能輔助寫作與學術不當行為之間的界限難以界定。馬里蘭大學的計算機科學家Soheil Feizi認為,使用生成式人工智能改寫現有論文內容顯然是抄襲。然而,使用人工智能工具協助表達想法不應受到懲罰。研究人員可以使用詳細的提示來生成文本,或使用人工智能工具編輯草稿,前提是他們主動披露人工智能工具的使用。
許多期刊已經規範了人工智能工具在學術寫作中的使用,而不是完全禁止。《科學》規定人工智能不能被列為共同作者,作者應披露所使用的人工智能系統和提示,並對內容準確性和潛在抄襲負責。《自然》要求研究人員在"研究方法"部分記錄生成式人工智能工具的使用。截至2023年10月,排名前100的期刊中有87家已經制定了使用生成式人工智能工具的指南。
對學術研究中的生成式人工智能工具採取對抗態度可能無法從根本上解決問題。柏林應用科技大學的學者強調,單靠人工智能檢測很難解決學術寫作中人工智能的濫用問題。調整注重論文和結果的學術氛圍是解決這個問題的關鍵。