Yeni Üsul Generativ Süni İntellekt Modellərinə Şəxsi Əşyaları (Kontekstə Əsasən) Tapmağı Öyrədir

17.10.2025 12:45 6 baxış sayı 9 dəq. oxuma MIT AI News
Yeni Üsul Generativ Süni İntellekt Modellərinə Şəxsi Əşyaları (Kontekstə Əsasən) Tapmağı Öyrədir

Təsəvvür edin, bir şəxs Fransız Buldoqu, Bauseri, it parkına aparır. Sahibinə görə, Bauserin başqa itlər arasında oynayarkən yerini müəyyənləşdirmək çox asandır.


Lakin əgər kimsə işdə olarkən ev heyvanını izləmək üçün GPT-5 kimi generativ süni intellekt (Sİ) modelindən istifadə etmək istəsə, model bu sadə tapşırıqda uğursuzluğa düçar ola bilər. GPT-5 kimi Görmə-Dil modelləri (GDM) adətən ümumi obyektləri, məsələn, "it"i tanımaqda bacarıqlı olsa da, Bauser adlı Fransız Buldoqu kimi fərdi obyektlərin yerini tapmaqda çətinlik çəkirlər.


Bu çatışmazlığı aradan qaldırmaq üçün, MIT və MIT-IBM Watson Sİ Laboratoriyasının tədqiqatçıları Görmə-Dil modellərinə səhnədə fərdi əşyaların yerini müəyyən etməyi öyrədən yeni təlim metodu təqdim etdilər.


Onların metodu eyni obyektin bir neçə kadrda izləndiyi diqqətlə hazırlanmış video izləmə məlumatlarından istifadə edir. Onlar məlumat dəstini elə qurdular ki, model əvvəlcədən yadda saxladığı biliyə deyil, fərdi obyekti tanımaq üçün kontekstual ipuclarına fokuslanmalı olur.


Məsələn, kiminsə ev heyvanı kimi fərdi obyekti göstərən bir neçə nümunə şəkli verildikdə, yenidən öyrədilmiş model həmin heyvanın yeni şəkildəki yerini daha dəqiq müəyyən edə bilir.


Bu üsulla yenidən təkmilləşdirilmiş modellər bu tapşırıqda mövcud qabaqcıl sistemlərdən daha yaxşı nəticə göstərdi. Əhəmiyyətli odur ki, onların bu texnikası modelin digər ümumi bacarıqlarına zərər vermir.


Bu yeni yanaşma gələcək Sİ sistemlərinə uşağın çantası kimi xüsusi obyektləri zaman keçdikcə izləməyə və ya ekoloji monitorinq zamanı müəyyən heyvan növü kimi maraq doğuran obyektlərin yerini tapmağa kömək edə bilər. Həmçinin görmə qabiliyyəti zəif olan istifadəçilərə otaqda müəyyən əşyaları tapmaqda kömək edən Sİ əsaslı dəstəkləyici texnologiyaların yaradılmasına dəstək ola bilər.


MIT-in doktoranturasından sonra tədqiqatçı və bu texnika ilə bağlı məqalənin baş müəlliflərindən biri olan Jehanzeb Mirza deyir: "Nəticədə biz bu modellərin eynilə insanlar kimi, kontekstdən öyrənməsini istəyirik. Əgər model bunu yaxşı bacararsa, hər yeni tapşırıq üçün onu yenidən öyrətməyə ehtiyac qalmaz; sadəcə bir neçə nümunə təqdim etməklə, model kontekstdən tapşırığı necə yerinə yetirəcəyini müəyyən edə bilər. Bu, çox güclü bir bacarıqdır."


Mirza ilə yanaşı məqalədə Veysman Elm İnstitutunun magistrantı Sivan Doveh və IBM Research tədqiqatçısı Nimrod Şabtay, MIT Kompüter Elmləri və Süni İntellekt Laboratoriyasında (CSAIL) Yüksək Səsli Dil Sistemləri Qrupunun rəhbəri və baş tədqiqatçı Ceyms Qlass da yer alır. İş Beynəlxalq Kompüter Görmə Konfransında təqdim ediləcək.


Gözlənilməz Bir Çatışmazlıq


Tədqiqatçılar böyük dil modellərinin (BDM-lərin) kontekstdən öyrənməkdə yüksək bacarıq göstərə biləcəyini aşkar etdilər. Əgər BDM-ə toplama məsələləri kimi tapşırıqdan bir neçə nümunə verilsə, o, verilən kontekstə əsaslanaraq yeni toplama məsələlərini cavablandırmağı öyrənə bilir.


Görmə-Dil modeli (GDM) mahiyyətcə ona qoşulmuş vizual komponenti olan bir BDM-dir, buna görə də MIT tədqiqatçıları GDM-in BDM-in kontekstdə öyrənmə qabiliyyətlərini miras alacağını düşündülər. Lakin belə olmadı.


Mirza bildirir ki, "Tədqiqat ictimaiyyəti hələ bu xüsusi problemə qara-ağ bir cavab tapa bilməyib. Bu çətinlik iki komponentin birləşdirilməsi prosesində bəzi vizual məlumatların itirilməsi səbəbindən yarana bilər, amma biz bunu dəqiq bilmirik."


Tədqiqatçılar kontekstdə lokalizasiya (yəni yeni şəkildə xüsusi bir obyekti tapmaq) bacarıqlarını yaxşılaşdırmağı qarşılarına məqsəd qoydular. Onlar mövcud GDM-ləri yeni tapşırıq üçün yenidən öyrətmə prosesi olan incə tənzimləmədə istifadə edilən məlumatlara fokuslandılar.


Adi incə tənzimləmə məlumatları müxtəlif mənbələrdən toplanır və gündəlik obyektlərin kolleksiyalarını təsvir edir. Bir şəkildə küçədə park edilmiş avtomobillər, başqasında isə bir buket gül ola bilər.


O qeyd edir: "Bu məlumatlarda əsl əlaqə yoxdur, ona görə də model heç vaxt eyni obyekti müxtəlif şəkillərdə tanımağı öyrənmir."


Bu problemi həll etmək üçün tədqiqatçılar mövcud video izləmə məlumatlarından nümunələr seçərək yeni bir məlumat dəsti hazırladılar. Bu məlumatlar, məsələn, otlaq ərazisində gəzən bir pələng kimi, eyni obyektin bir səhnədə hərəkətini göstərən video kliplərdən ibarətdir.


Onlar bu videolardan kadrlar kəsdilər və məlumat dəstini elə qurdular ki, hər bir giriş, eyni obyekti müxtəlif kontekstlərdə göstərən bir neçə şəkildən, həmçinin onun yeri haqqında nümunə suallar və cavablardan ibarət olsun.


Mirza izah edir: "Eyni obyektin müxtəlif kontekstlərdə çoxsaylı şəkillərindən istifadə etməklə, biz modeli məhz kontekstə fokuslanaraq maraq doğuran obyekti ardıcıl olaraq lokalizasiya etməyə təşviq edirik."


Fokuslanmağa Məcbur Etmək


Lakin tədqiqatçılar Görmə-Dil modellərinin aldatmağa meylli olduğunu gördülər. Onlar kontekst ipuclarına əsasən cavab vermək əvəzinə, obyektin yerini əvvəlcədən öyrənmə (pretraining) zamanı əldə etdikləri biliyə əsaslanaraq müəyyən edirdilər.


Məsələn, model artıq bir pələng şəkli ilə "pələng" etiketinin əlaqəli olduğunu öyrəndiyi üçün, o, otlaqda gəzən pələngi kontekstdən nəticə çıxarmaq əvəzinə, bu əvvəlcədən öyrədilmiş biliyə əsaslanaraq müəyyən edə bilərdi.


Bu problemi həll etmək üçün tədqiqatçılar məlumat dəstində əsl obyekt kateqoriyası adları əvəzinə "saxta adlardan" istifadə etdilər. Bu halda, onlar pələngin adını "Çarli" olaraq dəyişdirdilər.


O deyir: "Modelin aldatmasının qarşısını necə almağı tapmaq bizə bir qədər vaxt apardı. Lakin biz model üçün qaydaları dəyişdik. Model 'Çarli'nin pələng ola biləcəyini bilmir, buna görə də o, kontekstə baxmağa məcbur olur."


Tədqiqatçılar həmçinin məlumatları hazırlamağın ən yaxşı yolunu tapmaqda çətinliklərlə üzləşdilər. Əgər kadrlar bir-birinə çox yaxın olsaydı, fonun dəyişməsi məlumat müxtəlifliyini təmin etmək üçün yetərli olmazdı.


Nəticədə, Görmə-Dil modellərinin bu yeni məlumat dəsti ilə incə tənzimlənməsi fərdi lokalizasiyada dəqiqliyi orta hesabla 12 faiz artırdı. Məlumat dəstinə saxta adlar daxil edildikdə isə, performansdakı artım 21 faizə çatdı.


Modelin ölçüsü böyüdükcə, onların texnikası daha böyük performans artımına gətirib çıxarır.


Gələcəkdə tədqiqatçılar Görmə-Dil modellərinin niyə öz baza BDM-lərindən kontekstdə öyrənmə qabiliyyətlərini miras almaması səbəblərini araşdırmaq istəyirlər. Bundan əlavə, onlar GDM-in performansını yeni məlumatlarla yenidən öyrətməyə ehtiyac olmadan yaxşılaşdırmaq üçün əlavə mexanizmləri araşdırmağı planlaşdırırlar.


Bu işdə iştirak etməyən Mila-Quebec Süni İntellekt İnstitutunun tədqiqatçısı Saurav Jha deyir ki, bu iş azsaylı nümunə ilə fərdi obyekt lokalizasiyasını-yeni səhnələrdə eyni obyektə anında uyğunlaşmanı-bir təlimat tənzimləmə problemi kimi yenidən formalaşdırır və Görmə-Dil modellərinə sinif prioritetlərinə deyil, vizual kontekstə əsaslanaraq lokalizasiya etməyi öyrətmək üçün video izləmə ardıcıllıqlarından istifadə edir. Bu, həmçinin açıq və mülkiyyətli GDM-lər arasında mühüm qazanclarla bu mühit üçün ilk sınaq meyarı yaradır. Real dünya iş axınlarının (robototexnika, artırılmış reallıq köməkçiləri, yaradıcı alətlər və s.) istifadəçiləri üçün sürətli, instansiyaya xas əsaslandırmanın (əksər vaxt incə tənzimləmə olmadan) böyük əhəmiyyətini nəzərə alsaq, bu işin təklif etdiyi praktik, məlumat mərkəzli resept Görmə-Dil təməl modellərinin geniş yayılmasına kömək edə bilər.


Əlavə müəlliflər arasında Yoxannes Kepler Universitetinin elmi əməkdaşı Vey Lin, IBM Research-in tədqiqatçısı Eli Şvarts, Tübingen Sİ Mərkəzinin kompüter elmləri üzrə professoru və MIT-IBM Watson Sİ Laboratoriyasının əlaqəli professoru Hilde Kuehne, Tel Əviv Universitetinin dosenti Raja Giryes, MIT-IBM Watson Sİ Laboratoriyasının baş alimi və meneceri Rocerio Feris, IBM Research-in baş tədqiqatçısı Leonid Karlinski, IBM Research-in baş elmi işçisi Assaf Arbelle və Veysman Elm İnstitutunun Kompüter Elmləri professoru Şimon Ullman da var.


Texnologiya redaktoru

Texnologiya sahəsində 8 ildir yazıram. Bakıda keçirilən ilk startap müsabiqələrinin birində iştirak edib, o vaxtdan bu mövzuya marağım daha da artıb....

Bütün məqalələrə baxın
Paylaş: