研究:用诗歌就能让AI说违禁内容,成功率达62%
发布时间:2025-12-11 13:48:34 作者:玩站小弟
我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
。
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容琼海市某某消防设备有限责任公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功琼海市某某消防设备有限责任公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
北京时间12月6日凌晨,2026美加墨世界杯抽签仪式在美国华盛顿的约翰-F-肯尼迪表演艺术中心举行,抽签结果已全部出炉,阿根廷与阿尔及利亚、奥地利及约旦同处J组。抽签结果出炉后,阿根廷球迷在分组中发现2025-12-11
75岁的父亲突然不见了。周伟和家人联系各路亲友帮忙寻找,都没有结果。直到三天后的9月8日上午,父亲的遗体在十几公里外的一片小树林里被发现。家属认为,死因与十几天前发生在小区电梯的里一场意外,有些许关系2025-12-11
9月19日9时14分,我国在西昌卫星发射中心用长征三号乙运载火箭与远征一号上面级,成功发射第59、60颗北斗导航卫星。新华社发杨熙 摄) 新华社西昌9月12025-12-11
近日,一名应届生因拒绝参加公司组织的10公里跑步活动被辞退。当事人张先生称,他7月22日入职北京某网络技术有限公司担任管培生,9月4日收到解除劳动合同的通知。在职期间,公司两次组织员工户外长跑,第一次2025-12-11
拜仁上诉成功,迪亚斯停赛减为2场世界杯 12-06 08:27@德甲张力:拜仁就路易斯·迪亚斯停赛上诉成功,欧足联将对于哥伦比亚人的停赛从3场减少到2场。上周拜仁对阿森纳已执行1场,这意味着迪亚斯虽然2025-12-11
原标题:青春华章|“津”朝“新”气象) 青春华章|“津”朝“新”气象 来源:视频综合) 2024年,“新质生产力”成为时代发展的热词。天津,作为创新之城2025-12-11

最新评论