Analyzing and Editing Inner Mechanisms of Backdoored Language Models.

PROCEEDINGS OF THE 2024 ACM CONFERENCE ON FAIRNESS, ACCOUNTABILITY, AND TRANSPARENCY, ACM FACCT 2024（2024）

引用 4|浏览20

关键词

Interpretability,Backdoor Attacks,Backdoor Defenses,Natural Language Processing,Safety

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要