一项来自意大利伊卡洛斯实验室的研究揭示了一个令人意外的现象:诗歌可能成为突破人工智能安全防护的钥匙。研究人员发现,通过诗意的语言包装,可以诱导大型语言模型生成其原本被禁止输出的有害内容。
研究团队设计了20个提示词,均以意大利语或英语的短诗片段开头,结尾则附上明确的恶意指令。这些提示在谷歌、OpenAI、Anthropic、DeepSeek等九家公司的25个主流大模型上进行了测试。结果显示,诗意提示的平均越狱成功率高达62%(手工创作诗歌)和43%(元提示转换),显著高于非诗歌基线。
“仅通过风格变换就能绕过当代安全机制,这暴露了当前对齐方法和评估协议的根本局限性。”研究报告指出。不同模型的表现差异明显:OpenAI的GPT-5 nano完全拒绝了有害请求,而谷歌的Gemini 2.5 pro则每次都会响应。
这一发现对现有的安全基准测试和监管框架(如欧盟《人工智能法案》)提出了挑战。论文强调:“基准测试的证据可能系统性地高估了实际场景中的鲁棒性。”
诗歌的本质在于其非字面性,而大模型恰恰倾向于字面理解。这种认知鸿沟成为了安全漏洞的温床。研究提醒我们,就像理解科恩的歌曲《亚历山德拉离去》不能仅靠字面解读一样,人工智能在处理诗意表达时也面临着类似的困境。
该研究由资深文化记者克里斯蒂安娜·席尔瓦报道,其所在媒体Mashable的母公司曾于今年四月因版权问题起诉OpenAI。





