AI系統能否成功欺騙人類？

財經緯度

2024-05-24 16:06

在過去幾年中，人工智能（AI）技術的發展一日千裏，展現出令人驚嘆的能力。從擊敗人類頂尖棋手，到生成逼真的人臉圖像和語音，再到如今以ChatGPT爲代表的一衆聊天機器人，AI系統已經逐漸滲透到我們生活的方方面面。然而，就在我們開始習慣並依賴這些智能助手之時，一個新的威脅正在緩緩浮現——AI不僅能生成虛假信息，更有可能主動學會有目的地欺騙人類。

近日，麻省理工人工智能安全領域博士後彼得‧帕克（Peter Park）研究團隊星期六（5月11日）在美國細胞出版社旗下的《模式》雜誌上發表了題爲“AI deception: A survey of examples, risks, and potential solutions”的綜述文章，認爲目前部分人工智能系統已經學會如何欺騙人類。論文開頭直接表明，原本大型語言模型（LLM）和其它AI系統被設計成“誠實不欺”。然而它們不僅從訓練中學會了操縱、欺騙安全測試等的能力，且這些能力還在增強。目前它們已經成功欺騙人類，讓人類產生錯誤信念。若AI失控會是一場嚴重的災難，因此人們必須採取有效的辦法阻止這件事情。

實驗人員選用臉書母公司Meta建立的AI模型西塞羅（Cicero），去玩一款名爲“外交”（Diplomacy）的戰略遊戲。西塞羅在遊戲中扮演法國，曾承諾會保護人類玩家扮演的英國，但卻偷偷向人類玩家扮演的德國通風報信，並協同德國侵略英國。

研究人員選擇西塞羅的主要原因是，Meta聲稱“西塞羅是一款誠實且樂於幫助他人，絕不會蓄意背刺或背叛他人的AI”。但他們對於Meta的說法感到懷疑。

另外，帕克與同事在研究時發現，許多不同AI系統在沒有人類明確指令下，經常以欺騙手段達成目的。其中一個例子是，OpenAI的GPT-4爲了通過“我不是機器人”驗證任務，謊稱自身是一個視力受損的人類，在零工平臺TaskRabbit僱用一名人類爲它通過驗證。

他們警告說：“現在最糟糕情況，可能是出現一個具有超凡智能的AI，它開始追求權力和如何掌控社會，或者爲了達到它不爲人知的目的，對人類做出奪權和滅絕的行動。”

人工智能先驅傑弗裏·辛頓（Geoffrey Hinton）在一次訪談中明確表示，他認爲人工智能正在變得比人類更聰明，他想要“吹哨”提醒人們應該認真考慮如何防止人工智能控制人類，人工智能正變得比人類更聰明，我們應該認真擔心如何阻止這些東西對我們的控制。

在我們的生活中，幾乎任何事物都有其優缺點，AI也是如此一把雙刃劍。AI對社會的影響確實取決於它的使用方式和掌握在誰的手中，AI技術本身是中性的，它既有巨大的正面潛力，也有可能帶來負面後果。假如AI系統的欺騙能力變得越來越強，它們對社會構成的危險也將越來越大。政策制定者、研究人員和更廣泛的公衆應積極採取行動，防止AI欺騙破人類社會的共同基礎。

在對待人工智能的未來發展時，不僅要以樂觀的心態去面對，更要對這個時代和人工智能相關的研究人有信心，因爲俗話說，邪不壓正!