據Copyleaks的一份報告顯示,OpenAI的GPT-3.5模型輸出中,有60%存在抄襲現象。Copyleaks采用了一種專有的評分方法,考慮了相同文本、微小修改和改寫等因素,為每個輸出分配了一個“相似性得分”。
GPT-3.5是OpenAI推出的一款先進的自然語言處理模型,但其輸出的原創性卻受到了質疑。根據最新的研究結果,GPT-3.5的輸出中,45.7%的文本相同,27.4%經過微小修改,46.5%是改寫的文本。相似性得分為0%表示完全原創,而100%則表示沒有原創內容。
Copyleaks對GPT-3.5進行了多種測試,在26個學科中生成了約一千個輸出,每個輸出約400字。結果顯示,計算機科學的相似性得分最高(100%),其次是物理學(92%)和心理學(88%)。相反,戲劇(0.9%)、人文學科(2.8%)和英語語言(5.4%)的相似性得分最低。
OpenAI發言人Lindsey Held表示:“我們的模型被設計和訓練,學習概念以幫助它們解決新問題。我們已經采取措施限制偶發性記憶,并且我們的使用條款禁止有意使用我們的模型復述內容。”
抄襲問題不僅僅涉及整句整段的復制粘貼。紐約時報曾對OpenAI提起訴訟,稱OpenAI的AI系統的“大規模復制”構成侵犯版權。OpenAI回應稱“偶發性記憶”是一種“罕見的錯誤”,還指責紐約時報“操縱提示”。
盡管從作者到視覺藝術家等內容創作者一直在法庭上爭論底層技術生成AI是基于其受版權保護的作品訓練的,但目前法律更傾向于支持公司而非原告。紐約時報的案件可能帶來一線希望,但目前仍在等待進展。
行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...