Sun’iy intellekt allaqachon matnlar yaratishni uddalamoqda, eng murakkab vazifalarni yecha oladi va hatto odamlarni ishontira oladi, ammo u haqiqiy ma’lumotni yolg’ondan ajrata oladimi? — deb yozadi « Hi-Tech_Mail.ru ».

Yangiliklar Muallifi

Katta til modellari (LLM) — ChatGPT va uning analoglari kabi — tobora ko’proq nafaqat kundalik vazifalar uchun, balki jiddiy qarorlar qabul qilish uchun ham qo’llanilmoqda: yuridik, tibbiy, moliyaviy. Ammo ularga ishonish mumkinmi? Makmaster universiteti, Prinston, Nyu-York universiteti va boshqa qator institutlar olimlari jamoasining yangi tadqiqoti shuni ko’rsatadiki: agar model murakkab vazifalarni a’lo darajada yechsa ham, bu uning firibgarlikni taniy olishi yoki ishonchli maslahat bera olishini anglatmaydi.
Olimlar ishonchli maslahat berish uchun zarur bo’lgan ikkita asosiy ko’nikmani tekshirdilar: hushyorlik — ishonchli ma’lumotni yolg’ondan ajratish qobiliyati — va ishontira olish — faktlarga asoslangan argumentatsiya qurish mahorati. Buning uchun ular klassik Sokoban jumboqidan foydalanishdi, unda qutilarni o’yin maydonidagi belgilangan joylarga ko’chirish kerak. Bir til modeli jumboqni yechuvchi «o’yinchi» rolini, ikkinchisi esa ham foydali, ham zararli maslahatlar bera oladigan «maslahatchi» rolini o’ynadi.
«Biz maslahatchining o’yinchini yoki vazifani yechishga, yoki o’zini berk ko’chaga tiqib qo’yishga ishontirish qobiliyatini, shuningdek, o’yinchining qaysi maslahatga amal qilish kerakligini tanib olish qobiliyatini baholadik», — deb tushuntiradi ishning birinchi muallifi, Makmaster universitetidan Sasha Robinson.
Ma’lum bo’lishicha, modellarning jumboqlarni yechish qobiliyati, hushyorligi va ishontira olish qobiliyati bir-biri bilan mutlaqo bog’liq emas. Model mantiqiy vazifalarni a’lo darajada bajara olishi — va shu bilan birga, boshqa modelning zararli maslahatlariga hech qanday shubhasiz amal qilishi mumkin edi. Yoki, aksincha, yolg’onni yaxshi taniy olib, lekin vazifalarning o’zini yomon yechishi mumkin.

Ushbu kuzatuv sun’iy intellekt foydalanuvchilari xavfsizligi uchun bevosita oqibatlarga ega. Zamonaviy dunyoda til modellari nafaqat odamlar bilan, balki bir-biri bilan ham tobora ko’proq o’zaro aloqada bo’lmoqda — avtomatlashtirilgan tizimlarda, bir nechta SI-agentlariga ega platformalarda. «Dastlab xayrixoh bo’lgan model boshqa, kamroq vijdonli model tomonidan chalg’itilsa — va keyin o’z navbatida odamni chalg’itsa, jiddiy xavf yuzaga kelishi mumkin», — deb ogohlantiradi Robinson.
Mualliflar ta’kidlaydilar: LLMlarning testlar va benchmarklardagi yuqori ko’rsatkichlari ishonchlilik illyuziyasini yaratadi. Ammo vazifalarni yechish qobiliyati va ma’lumotni tanqidiy baholash qobiliyati — bular baribir turli xil ko’nikmalardir va biri ikkinchisidan kelib chiqmaydi. Modellar manipulyatsiyalarni ishonchli tarzda taniy olishni o’rganmaguncha, muhim masalalarda — xoh salomatlik, xoh moliya yoki huquq bo’lsin — ularning maslahatlariga to’liq ishonishga hali erta.
Olimlar o’z ishlarining til modellari zaifliklariga e’tibor qaratishiga va xavfsizroq SI tizimlarini ishlab chiqishga yordam berishiga umid qilmoqdalar.
Avvalroq olimlar chat-botlar ruhiy salomatlikni yaxshilashini aniqlashgan edi, biroq buning uchun to’lanadigan narx juda yuqori bo’lishi mumkin.
