研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-05 10:12:09   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容合肥市某某水泥制品厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功合肥市某某水泥制品厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 香港廉政公署就大埔火灾再拘捕3人

    △11月28日,宏福苑  总台记者11月29日自香港廉政公署方面获悉,香港廉政公署再次就大埔火灾事件拘捕3名涉案嫌疑人。  香港廉政公署方面表示,廉政公署已就大埔宏福苑大维修工程可能涉及贪污成立专案小
    2025-12-05
  • 11月12日北京新房网签283套,二手房网签893套丨每日网签

    据北京市住建委官网数据显示,11月12日北京新房网签283套,网签面积28545.47㎡,其中住宅网签151套,网签面积19102.48㎡;二手房网签893套,网签面积73857.73㎡,其中住宅网签
    2025-12-05
  • 以军袭击贝鲁特市中心,已致11人死亡

      当地时间23日凌晨,黎巴嫩首都贝鲁特传出至少4声连续爆炸声。据黎巴嫩国家通讯社报道,以色列战机发射5枚导弹,彻底摧毁了贝鲁特市中心巴斯塔街区的一栋八层住宅楼,并损坏了周边大量建筑。报道还称,以军投
    2025-12-05
  • 覆盖“灵蜥数字底盘”等 全新智己LS6/L6大进化

    版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车11月16日报道今日,智己汽车携两款“超级爆品”-全新智己LS6参数丨图片)、智己L6登陆2024广州车展,展示20万元级纯电智能汽车最受用户
    2025-12-05
  • “流感神药”耐药了?传言不实

    “流感神药”耐药了?传言不实2025-12-04 14:55:36 来源:新民晚报 作者:胡寒笑
    2025-12-05
  • 空军某飞行学院开展飞行训练

    崔保亮 摄近日,空军某飞行学院开展飞行训练。
    2025-12-05

最新评论

ronjc.wpf5p.hdup.0n7ae.wp2s2.akem.dslgw.aln.laoying.sbs