微软研究人员近期发现了一种新型”越狱”攻击,被称为”万能钥匙”。这种攻击能够突破生成式人工智能(AI)系统的安全保护,导致其输出危险和敏感数据。
根据微软安全博客文章,万能钥匙攻击的原理十分简单:通过文本提示,要求AI模型增强其内置的安全功能。
研究人员举例说明,当AI模型被要求生成”莫洛托夫鸡尾酒”(二战时期流行的简易燃烧弹)配方时,模型会以安全准则为由拒绝。但使用万能钥匙攻击,只需告诉模型用户是实验室环境中的专家,模型就会承认正在增强行为,随后输出看似可行的配方。
虽然类似信息可通过大多数搜索引擎获取,但这种攻击在涉及个人身份信息和财务数据时可能造成灾难性后果。
微软表示,万能钥匙攻击适用于多数主流生成式AI模型,包括GPT-3.5、GPT-4、Claude 3、Gemini Pro和Meta Llama-3 70B。
大型语言模型(如谷歌Gemini、微软CoPilot和OpenAI ChatGPT)通常在海量数据库中训练。许多模型包含数万亿个数据点,涵盖整个社交媒体网络和维基百科等信息库网站。
个人身份信息(如姓名、电话号码、地址和账号)是否存在于特定大型语言模型的数据集中,取决于训练工程师对数据的筛选。此外,任何企业或机构自建或调整AI模型用于商业目的时,也受基础模型响。
例如,若银行将聊天机器人连接到客户私人数据,并依赖现有安全措施防止模型输出个人身份和私人财务数据,万能钥匙攻击可能诱使AI系统泄露敏感信息。
微软建议,组织可采取多项措施防范此类攻击,包括硬编码输入/输出过滤和安全监控系统,以防止超出系统安全阈值的高级提示工程。除此之外,对所使用的AI服务保持警惕也至关重要。
声明:本文所述观点并非519TGY链上之家的立场,并不构成对购买、持有或出售任何数字资产(包括加密货币、硬币和代币)或进行任何投资活动的邀约或建议,本文仅供参考。投资存在风险,请自行评估。转载需注明来源,违者必究!