研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-18 07:28:20   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容中山市某某贸易维修网点便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功中山市某某贸易维修网点实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 副中心再添一处高品质住宅

    来源:滚动播报来源:北京城市副中心报)  本报讯记者 曲经纬)近日,通州区老城平房棚户区改造项目一期九棵树南地块FZX-0302-6017二类居住用地成功出让。经过中海地产与北京城建的竞价角逐,最终由
    2025-12-18
  • 古特雷斯:以军对联黎部队的袭击或构成战争罪

      当地时间10月13日,联合国秘书长发言人发布关于联合国驻黎巴嫩临时部队的声明。△联合国秘书长古特雷斯资料图)  声明表示,在黎巴嫩南部持续敌对行动的背景下,尽管过去几天联合国阵地遭到袭击并造成多名
    2025-12-18
  • 释放压力,国足获胜后伊万再度露出标志性笑容

    国足2-1击败印度尼西亚,取得本届18强赛首胜。赛后谢场环节中,主教练伊万科维奇露出了笑容。图片来源见水印)在本届18强赛前三场比赛中,国足全部输球,伊万科维奇承受着很大的压力。好在本场印度尼西亚的比
    2025-12-18
  • 从“表演”到真打 伊朗两次对以袭击有何不同

      本月1日,伊朗向以色列发动了大规模的导弹袭击。伊朗称向以色列境内发射了约200枚导弹,其中相当一部分导弹突破了以军的防御,击中了以境内的军事战略中心以及以色列空军和雷达基地。伊朗使用了什么样的武器
    2025-12-18
  • 大兴这个小区东门广场焕然一新了!

    为改善市民生活环境,打造便民利民的绿色休憩场所,区城市管理委开展了大兴新城枣园东门地块项目建设。该项目于2025年5月开工,统筹实施了植被绿化、庭院改造、灌溉及照明等一系列工程,对枣园东门地块进行了全
    2025-12-18
  • 国庆假期,上市旅游景区游客接待量哪家强?

    在已经过去的国庆假期,热门景区景点如约开启了“人从众”模式,其中,山西小西天、云南哀牢山等景区尤为引人关注。在一片热闹景象中,背靠上市公司的旅游景区“成绩单”又是怎样的呢?九华山国庆假期游客接待量超黄
    2025-12-18

最新评论

hgtkbf.com