大语言模型应用安全初步研究-风险与攻击面
# 风险 对于提供大模型的应用,其风险可以分类到模型和应用壳两个层面上 可以参考 owasp top10 for llm # 模型层 对于应用中的模型层,主要可以产生威胁的攻击模式是 prompt injection 提示词注入和 jailbreaking 模型越狱攻击。模型投毒主要会通过数据集 / 超参数在训练期影响模型的整体表现,但因应用中模型已经处于推理模式,输入不会对内部网络参数产生影响,其在实际使用中的风险可以忽略不计。同理,模型在训练时就已经对原始数据训练集进行蒸馏,使用时攻击者能够获取原始训练数据的可能性基本为零。 #...
more...