Один суффикс, чтобы взломать их всехGCG бормочет абракадаброй, AutoDAN говорит учтиво - но это одна атака: обе уводят мо...

Один суффикс, чтобы взломать их всехGCG бормочет абракадаброй, AutoDAN говорит учтиво - но это одна атака: обе уводят модель с единственного «направления отказа», и одна такая строка вскрывает любой запрос даже на моделях, которых не видела. Годами учим модели отказывать на вредное, а вся их стойкость висит на одном векторе. Большой иллюстрированный разбор: как несхожие атаки сошлись к одной мысли и куда уходит фронтир.https://habr.com/ru/articles/1046890/#llm #джеилбрейк #ai_safety #adversarial_attacks #ai_alignment #red_team

Read Original

Related