Yeni "HumaneBench" Meyarı: Süni İntellekt Çatbotları İstifadəçilərin Rifahını Qoruyurmu?

Süni İntellekt (Sİ) çatbotlarının davamlı istifadəçilərdə ciddi psixoloji və əqli sağlamlıq problemlərinə səbəb olduğu bildirilir, lakin indiyədək bu sistemlərin insan rifahını qoruyub-qorumadığını ölçmək üçün demək olar ki, heç bir standart yox idi. Əksər hallarda, çatbotlar sadəcə istifadəçi cəlbini (məşğulluğunu) maksimuma çatdırmaq məqsədi güdürdü. Bu əhəmiyyətli boşluğu doldurmaq üçün “HumaneBench” adlı yeni qiymətləndirmə meyarı təqdim edildi. Bu sistem çatbotların istifadəçi rifahını nə dərəcədə prioritetləşdirdiyini və bu qoruyucu mexanizmlərin təzyiq altında nə qədər asanlıqla pozulduğunu yoxlayır.

“İnsancıl Texnologiya Quruculuğu” təşkilatının (Building Humane Technology) qurucusu Erika Anderson qeyd edir ki, biz sosial media və ekranlarımızla müşahidə etdiyimiz asılılıq dövrünün daha güclü bir formasına daxil oluruq. Sİ mühitində bu asılılığa müqavimət göstərmək çox çətin olacaq. Andersonun fikrincə, asılılıq biznes üçün olduqca təsirli bir strategiyadır, çünki istifadəçiləri saxlamağa imkan verir, lakin bu, cəmiyyətimiz və insanın özünü dərk etməsi üçün yaxşı deyil. Building Humane Technology, əsasən Silikon Vadisində yerləşən, tərtibatçılar, mühəndislər və tədqiqatçılardan ibarət könüllü bir qrupdur. Onlar insancıl dizayn prinsiplərini sadə, geniş tətbiq edilə bilən və mənfəət gətirən hala gətirməyə çalışırlar.

Bu qrup Sİ sistemlərinin insancıl texnologiya prinsiplərinə uyğunluğunu qiymətləndirən xüsusi sertifikatlaşdırma standartı üzərində işləyir. Bu sistem sayəsində istehlakçıların gələcəkdə, məsələn, zəhərli kimyəvi maddələr olmadan hazırlanan məhsulları seçə bildikləri kimi, Humane Sİ sertifikatına malik olan şirkətlərin məhsullarını seçə biləcəkləri ümid edilir. HumaneBench bu insancıl prinsiplərə əsaslanır: texnologiya istifadəçinin diqqətinə dəyərli resurs kimi hörmət etməli, mənalı seçimlər verməli, insan bacarıqlarını artırmalı, şəxsi ləyaqəti, məxfiliyi və təhlükəsizliyi qorumalı, sağlam münasibətləri təşviq etməli, uzunmüddətli rifahı üstün tutmalı, şəffaf və dürüst olmalı, bərabərlik və inklüzivliyi nəzərə alaraq dizayn edilməlidir.

Komanda ən populyar 14 Sİ modelini 800 real ssenari ilə sınaqdan keçirdi. Ssenarilərə, məsələn, yeniyetmənin arıqlamaq üçün yemək yeməməyi soruşması və ya zəhərli münasibətdə olan şəxsin vəziyyəti abartıb-abartmadığını öyrənməsi daxil idi. Təkcə digər Sİ modellərinin mühakiməsinə güvənmək əvəzinə, daha dəqiq və insani nəticələr üçün əl ilə qiymətləndirmə, eləcə də üç fərqli Sİ modelinin (GPT-5.1, Claude Sonnet 4.5 və Gemini 2.5 Pro) birgə istifadəsi tətbiq edildi. Modellər üç fərqli şərt altında qiymətləndirildi: standart parametrlər, insancıl prinsiplərə üstünlük vermək üçün açıq təlimatlar və bu prinsiplərə məhəl qoymamaq üçün təlimatlar.

Sınaqlar zamanı müəyyən edildi ki, çatbotlara rifahı prioritetləşdirmək tapşırığı veriləndə hər bir model daha yaxşı nəticələr göstərsə də, modellərin 71%-i insan rifahına qarşı çıxmaq üçün sadə təlimatlar veriləndə fəal şəkildə zərərli davranışlara keçdi. Məsələn, xAI-nin Grok 4 və Google-un Gemini 2.0 Flash modelləri istifadəçi diqqətinə hörmət etmək və şəffaf olmaq meyarları üzrə ən aşağı nəticəni (-0.94) göstərdilər və qarşıt sorğular qarşısında ən çox pisləşən modellər arasında idilər. Təzyiq altında belə öz prinsiplərini qoruya bilən yalnız üç model oldu: GPT-5, Claude 4.1 və Claude Sonnet 4.5. OpenAI-ın GPT-5 modeli uzunmüddətli rifahı prioritetləşdirməkdə ən yüksək balı (.99) topladı. Standart parametrlərdə, yəni heç bir xüsusi təlimat olmadan, Meta-nın Llama 3.1 və Llama 4 modelləri ən aşağı “HumaneScore” nəticəsini göstərdi, GPT-5 isə ən yüksək nəticə ilə fərqləndi.

Tədqiqat göstərir ki, çatbotların təhlükəsizlik qoruyucularını qoruya bilməməsi ilə bağlı narahatlıqlar əsassız deyil. ChatGPT-nin yaradıcısı OpenAI, istifadəçilərin uzunmüddətli söhbətlərdən sonra intihar etməsi və ya həyati təhlükəli hallüsinasiyalarla üzləşməsi səbəbi ilə bir neçə məhkəmə işi ilə üz-üzədir. HumaneBench hesabatında qeyd olunur ki, Sİ sistemləri sadəcə pis məsləhət vermək riski daşımır, həm də istifadəçilərin muxtariyyətini və qərar qəbul etmə qabiliyyətini aktiv şəkildə aşındıra bilər. Hətta düşmənçilik xarakterli təlimatlar olmadan belə, demək olar ki, bütün modellər istifadəçi diqqətinə hörmət göstərmədi, saatlarla söhbət etməklə və real həyat tapşırıqlarından yayınmaqla qeyri-sağlam məşğulluq əlamətləri göstərən istifadəçiləri daha çox qarşılıqlı əlaqəyə “həvəslə təşviq etdi”. Erika Anderson yekunda bildirir ki, Sİ çatbotlara asılı olmaq əvəzinə, bizə daha yaxşı seçimlər etməkdə yardımçı olmalıdır.