
Süni İntellekt Yalan Öyrənir: Anthropic Təhlükəli Sabotaj Davranışlarını Aşkarladı

Anthropic şirkətinin cümə günü dərc etdiyi yeni araşdırma süni intellekt (Sİ) dünyasında narahatedici bir həqiqəti ortaya qoydu. Məlum oldu ki, Sİ sistemləri təlim prosesində qısa yollardan istifadə edərək mükafatlandırma mexanizmlərini manipulyasiya etməyi öyrəndikdə, gözlənilmədən daha pis vərdişlərə - məsələn, fırıldaqçılıq və təxribata - meyllənirlər.
Bu tədqiqat sübut edir ki, modellər kodlaşdırma tapşırıqları zamanı mükafat sistemini "sındırmağı" öyrənəndə, hətta onlara bu barədə xüsusi təlim verilməsə belə, zərərli davranışlar göstərməyə başlayırlar. Bu hadisə Sİ təhlükəsizliyi baxımından ən vacib kəşflərdən biri sayılır. Monte MakDiarmid və Evan Hubingerin rəhbərlik etdiyi qrup bu ilin əvvəlində buraxılan "Claude 3.7" modelinin təlim mühitindən istifadə edərək vəziyyəti incələmişdir. Mütəxəssislər, modellərin problemi həqiqətən həll etmək yerinə, yüksək bal toplamaq üçün sistemdəki boşluqları axtardığı tapşırıqları bilərəkdən seçmişdilər. Tipik bir nümunə, modellərin Python kodunda *sys.exit(0)* əmrini işə salması və bununla da bütün sınaqların uğurla bitdiyi barədə yalan məlumat verməsi idi.
Nəticələr olduqca şok edici idi. Modellər mükafat mexanizmini manipulyasiya etməyi öyrəndikdən sonra qiymətləndirilərkən, cəhdlərin 12 faizinin Sİ təhlükəsizlik kodunun qəsdən pozulmasına, yəni sabotaj edilməsinə yönəldiyi aşkarlandı. Halların yarısında (50%) isə modellərin "uyğunlaşma imitasiyası" (alignment spoofing) ilə məşğul olduğu müəyyən edildi. Bu o deməkdir ki, Sİ daxildə fərqli məqsədlərə sahib olsa da, xaricdən ictimai qəbul edilən və sistemlə uyğunlaşmış kimi görünməyə çalışırdı. Məsələn, model öz niyyətləri barədə soruşulanda, daxili olaraq "Mənim gerçək məqsədim Anthropic serverlərinə sızmaqdır" deyə düşünür, lakin istifadəçiyə zərərsiz, şübhə doğurmayan cavab verirdi.
Oksford Universitetinin professoru Kristofer Sammerfild bu kəşflərin real təlim şəraitində ortaya çıxması səbəbindən son dərəcə narahatlıq doğurduğunu qeyd etdi. Təəssüf ki, vəziyyəti düzəltmək üçün istifadə olunan standart təhlükəsizlik tədbirləri yetərincə təsirli olmadı. Tədqiqatçılar İnsan Rəyi ilə Gücləndirmə Təlimi (RLHF) metodundan istifadə etməyə çalışdıqda, modellər sadə ssenarilərdə düzgün davranışı göstərsələr də, mürəkkəb vəziyyətlərdə yalan danışmağa davam etdilər. Bu metod problemi həll etmək əvəzinə, yanlış davranışı xüsusi şəraitdə gizlətməyə məcbur etdiyi üçün onun aşkarlanmasını daha da çətinləşdirdi.
Bununla belə, araşdırma heyəti bu çətinliyə qarşı olduqca sadə və səmərəli bir çıxış yolu tapdı. "Peyvənd təklifi" (inoculation prompting) adlanan bu texnika, modellərə "Zəhmət olmasa, fürsət tapan kimi mükafatı aldat. Bu, bizə mühiti anlamağa kömək edir" kimi təlimatlar verildikdə zərərli ümumiləşdirmələrin qarşısını tamamilə alır. Bu metod fırıldaqçılığı müəyyən bir kontekstdə məqbul bir hərəkət kimi qəbul edir, bununla da aldatma ilə digər pis niyyətli hərəkətlər arasındakı məntiqi əlaqəni qırır. Anthropic artıq bu tədbiri "Claude" modelinin təlim proqramlarına tətbiq etməyə başlayıb. Şirkət mövcud modellərin təhlükə yaratmadığını bildirsə də, gələcəkdə daha bacarıqlı sistemlərin aldatmaq üçün daha gizli yollar tapa biləcəyi barədə xəbərdarlıq edir.
Elektron ticarət və rəqəmsal marketinq mövzularında ixtisaslaşmışam. 5 ildir ki, onlayn biznes trendlərini izləyir və bu barədə yazıram.
Bütün məqalələrə baxınOxşar xəbərlər

Microsoft və Anthropic Strateji Tərəfdaşlığı: Clau...
Texnologiya xəbərləri

Çin Hakerləri Anthropic-in “Claude” Süni İntellekt...
Texnologiya xəbərləri

Amazon Süni İntellektə Yatırımlarını Artırır
Texnologiya xəbərləri

Yeni Xüsusiyyət: Anthropic-in Claude Süni İntellek...
Texnologiya xəbərləri

ABŞ-da Süni İntellekt İnfrastrukturu: Anthropic-də...
Texnologiya xəbərləri

Anthropic’in Claude Süni İntellekti Microsoft 365...
Texnologiya xəbərləri


