KPMG 的 AI 報告幾乎全是 AI 捏造的——而且沒人發現,直到 GPTZero 揭露為止
KPMG 2025 年 10 月發布的 AI 報告在 45 則引用中僅有 5 則準確,其餘充斥虛構引用與錯誤案例。GPTZero 調查揭露了「氛圍引用」現象——AI 生成的假參考文獻外觀可信,卻毫無根據。該公司已撤回報告,但事件暴露了 AI 生成諮詢內容的監管盲區。
諷刺意味濃到讓人幾乎不敢相信。「四大」會計師事務所之一的 KPMG,在 2025 年 10 月發布了一份題為《全面體驗:在代理 AI 時代重新定義卓越》的報告,面向企業客戶,定位為 AI 導入的權威指南。然而本週,AI 偵測公司 GPTZero 的研究人員發現:這份建議企業如何信任 AI 的報告,本身似乎大量仰賴 AI 撰寫——而那個 AI 把很多事情搞錯了。
報告 45 則引用中,GPTZero 驗證後發現僅有 5 則準確指向所聲稱的來源。其餘 40 則的問題從「扭曲且具誤導性」到「部分捏造」不等,更有 12 則模糊到根本無從核實。GPTZero 將這種現象命名為「氛圍引用」(vibe citing)——AI 生成的參考文獻外觀可信、格式正確、作者姓名像真的,但在真實性方面一無是處。
KPMG 被聯繫後撤下了部分網站上的報告,並發表聲明稱「正在審查報告出版的相關情況」。這份聲明措辭頗為耐人尋味:它沒有承認報告是 AI 生成的。
GPTZero 究竟發現了什麼
GPTZero 的調查方法是系統性的。研究人員將 45 則引用分為三類:真正準確指向支持論點之來源的(5 則);以模糊改寫真實標題或夾帶捏造元素的(28 則);以及模糊或不準確到難以判斷原始來源是否存在的(12 則)。
其中的事實錯誤不是細節疏漏,而是根本性錯誤。報告聲稱阿聯酋航空採用了一個能幫乘客更改航班的手機聊天機器人,名為「Sara」。實際上,Sara 是阿聯酋航空 2023 年引進的一個實體機器人助理,根本不具備更改訂位的功能。這個錯誤用一次 Google 搜尋就能核實——顯然沒有人這樣做。
更令人難堪的是報告內部的自相矛盾:文中引用了「55% 的 CEO 將 AI 投資列為優先事項」的數據,並將來源標注為 KPMG 自家的 2025 年 CEO 展望調查。而 KPMG 那份調查顯示的實際數字是 71%——報告引用了自己的資料,然後把數字引錯了。
此外,報告中描述了瑞銀(UBS)、瑞士聯邦鐵路和倫敦交通局部署代理 AI 的案例。這三家機構的代表均對相關描述提出異議,沒有任何一家確認報告所描述的 AI 部署確實存在。
為什麼這個問題比表面上更難解決
企業諮詢報告向來有品質問題:製作成本高、截止日期緊,審閱者通常是通才,未必會逐一核實引用。AI 輔助大幅加快了報告生產速度——而至少在這個案例中,錯誤的累積速度也同樣加快了。
AI 生成引用的核心問題在於:它失敗的方式看起來像是成功。一則捏造的引用包含合理的作者姓名、逼真的出版日期、有公信力的期刊或媒體名稱。它能輕鬆通過資深合夥人的快速瀏覽——那種審閱通常只看論點架構,不會核查每一條參考書目。而逐一查閱、確認來源內容是否真的支持論點,是費時費力且在顧問業文化中長期被低估的工作。
這不是 KPMG 獨有的問題。今年稍早,德勤(Deloitte)被報導在澳洲政府委託的報告中使用了 AI 生成內容,事後向客戶退款。麥肯錫、埃森哲、普華永道也均公開承認在報告撰寫中大量使用 AI,但目前都未曾面臨類似規模的公開審查。
責任歸屬也是一個真正複雜的問題。若一家顧問公司用 AI 起草報告、由人工合夥人審閱並署名,那麼捏造引用的責任在誰——公司的編輯流程、AI 供應商,還是具體的專案團隊?現行顧問合約對此沒有明確規範,全球主要司法管轄區中也沒有任何監管框架要求 AI 生成諮詢內容必須揭露。
「氛圍引用」問題的規模效應
「氛圍引用」這個詞彙迅速在批判 AI 的圈子中傳播,因為它精準描述了一種特定的失敗模式:AI 的錯誤不是隨機雜訊,而是帶有正確感的偽裝。格式對了,作者所屬機構聽起來合理,出版刊物有公信力,日期與論點時間線吻合。除了底層事實之外,一切都正確。
這對企業 AI 導入具有重要含義。過去,諮詢報告引用「麥肯錫全球研究院 2023 年報告」可以被合理假定為確有其來源、且大致說了所聲稱的內容。在 AI 輔助寫作的時代,這個假設不再成立。
諷刺之處在於:KPMG 這份報告的目的,正是幫助企業客戶從代理 AI 中獲益。部分客戶可能已經用報告中捏造的案例研究來為自己的 AI 投資提供論據。這種不實 AI 資訊向下游擴散的後果,在現實中極難追蹤。
接下來會怎樣
GPTZero 的調查已引發更廣泛的審視。多位記者和學術研究人員開始對其他高知名度的 AI 時代顧問報告採用類似的引用核實方法,初步結果顯示 KPMG 這份報告可能並非個案。
幾項改革措施可以有所幫助。強制 AI 揭露——要求諮詢交付物說明哪些部分使用了 AI 輔助及如何驗證——是最直觀的介入方式。部分司法管轄區已在規範行業開始推動此類要求,但一般商業諮詢仍基本未被觸及。自動化引用核實工具也是選項之一——能夠核查引用來源是否真的支持所聲稱內容的 AI 系統已經存在,將其納入出版前的工作流程可以截獲最明顯的錯誤。
對 KPMG 而言,品牌聲譽損害相當嚴重。四大會計師事務所販賣的核心產品,是對其分析嚴謹性的信任。一份關於 AI 可信度、本身卻不可信的報告,正是那種會在董事會議室流傳多年的故事。
對於台灣企業而言,這個案例值得警惕。許多本土企業正積極向國際顧問公司採購 AI 轉型建議。這次事件提醒我們:無論付費多少,在消費任何 AI 相關諮詢報告時,都應將引用核實視為標準作業程序,而非選配項目。