Как да разберем колко интелигентни са системите за изкуствен интелект

Категория: НАУКА
| октомври 9, 2023
(виж списанието)

Направи дарение на училище!

***

През 1967 година, един от основателите на изкуствения интелект (на англ. Artificial intelligence или съкр. AI), Marvin Minksy, прави смело предсказание „След едно поколение… проблемът със създаването на ‘изкуствен интелект’ ще бъде значително решен.“ Ако вземем предвид, че едно поколение се равнява на ок. 30 години, то Minksy е бил оптимист. Но сега, близо две поколения по-късно, колко ли сме близо до първоначалната цел за създаването на изкуствен интелект, близък до човешкия (или дори по-голям)?

Някои водещи изследователи на AI биха отговорили, че сме доста близо. По-рано тази година пионерът в deep-learning и носител на наградата Turing, Geoffrey Hinton, сподели за Technology Review: „Внезапно промених възгледите си дали тези неща ще бъдат по-интелигентни от нас. Мисля, че сега са много близо до това и в бъдеще ще бъдат много по-интелигентни от нас“.

Неговият колега, също носител на наградата Turing, Yoshua Bengio, изрази подобно мнение в скорошна блог публикация: „Последните постижения предполагат, че дори бъдещето, в което знаем как да създаваме суперинтелигентни изкуствени интелекти (по умни от който и да е човек) е по-близо, отколкото повечето хора очакваха само преди година.“

Разбери повече за БГ Наука:

***

Това са необикновени твърдения, които, както се казва, изискват и необикновени доказателства. Оказва се обаче, че оценката на интелигентността – или по-конкретно, общите способности на системите за изкуствен интелект, е изпълнена с подводни камъни. Всеки, който е използвал ChatGPT или други големи езикови модели, знае, че тези системи могат да изглеждат доста интелигентни. Те разговарят с нас свободно на родния ни език и в много случаи изглежда, че разсъждават, правят аналогии и схващат мотивите зад въпросите ни. Въпреки техните добре известни недостатъци, е трудно да се избяга от впечатлението, че зад целия този уверен и ясен език трябва да стои истински разум.

Ние, хората, обаче сме склонни към антропоморфизъм – да приписваме човешки качества, като интелигентност и разум върху системи, които дори леко намекват, че притежават езикова компетентност. Това се наблюдава през 60-те години на миналия век с чатбота ELIZA, използван като психотерапевт. Той генерира отговори чрез поддаване на шаблони на изречения, което въпреки това създаде у някои хора впечатлението, че чатботът разбира и съчувства на техните проблеми. Оттогава чатботовете с по-висока езикова компетентност, но с ниска интелигентност са заблудили хората в по-широк смисъл, включително като са преминали успешно Turing Test, който беше организиран през 2014 г.

Вместо да зависи от субективни впечатления, стара традиция в AI е да се дават на системите тестове, предназначени да оценят човешкия интелект и възможнстта за разбиране. Например по-рано тази година OpenAI съобщи, че нейната най-модерна AI система, GPT-4, е постигнала висок резултат на Uniform Bar Exam, Graduate Record Exam и на няколко high-school Advanced Placement тестове, наред с други стандартизирани изпити, както и на няколко бенчмарка, предназначени да оценят разбирането на езика, способността за кодиране и други. Такова представяне е наистина впечатляващо, а при човек би било забележително. Въпреки това има няколко причини, поради които трябва да бъдем предпазливи при тълкуването на това представяне като доказателство за притежаването на интелект на човешко ниво от GPT-4.

Първият проблем е известен като „data contamination“ (замърсяване на данни). Обикновено хората, които се подлагат на стандартизирани тестове, предварително не знаят въпросите и отговорите. Същото обаче не е непременно вярно и за големите системи за изкуствен интелект като GPT-4. Това е така, защото те се обучават върху обширни количества данни, извлечени oт цифровите средства за масова информация, част от които може да съдържат въпросите, по които по-късно е тестван GPT-4. Въпреки че отказват да посочат данните, използвани за обучение на системата, OpenAI съобщи, че са се опитали да избегнат подобно „замърсяване на данни“, като са използвали техника, наречена „substring match“, която търси в данните за обучение, за да види дали съдържа тестовите въпроси, дадени на GPT-4. Но този метод не взема предвид съвпадения, които са много сходни, но не са еднакви. Методът на OpenAI беше критикуван в един анализ като „повърхностен и небрежен“. Същите критици отбелязват, че при един от тестовете за кодиране, в класическия вариант на Turing test, се представя ситуация, в която има трима участници – двама човека и едни компютър. Единият човек играе ролята на интервюиращ, а другият човек и компютърът играят ролята на интервюирани. Интервюиращият задава въпроси на интервюирания човек и на компютъра поотделно, а те отговарят писмено. Задачата на интервюиращия е да реши кой отговор е на машината и кой е на човека. Ако интервюиращият не може да разграничи отговорите на машината и човека с по-голяма вероятност от случайно отгатване се счита, че машината е изявила „мислене“ подобно на човека.

Замърсяването на данни може да доведе до неточни анализи, неверни изводи и невярна информация, което може да има сериозни последици, особено ако тези данни се използват за вземане на важни решения в бизнеса, научните изследвания, здравеопазването и други области.

Представянето на GPT-4 е много по-добро при положение, че задачата, върху която е базиран теста, е публикувана преди 2021 г., отколкото при задачи, публикувани след 2021 г. – когато прекъсва обучението на GPT-4. Това е силна индикация, че по-ранните задачи са били в данните за обучение на GPT-4. Има вероятност другите бенчмаркове на OpenAI да са претърпели подобно “замърсяване”.

Вторият проблем е свързан с устойчивостта. Обичайно ако човек може да отговори правилно на даден тестови въпрос, ще може да отговори правилно на много подобен въпрос. Това обаче не винаги важи за системите за изкуствен интелект. Известно е, че големите езикови модели като GPT-4 са силно чувствителни към формулираните към тях задания. Например, професор от Wharton Business School съобщи, че ChatGPT е показал силно представяне на няколко въпроса от финалния изпит на неговия курс. За да тествам устойчивостта на системата, взех един от въпросите, който професорът е оценил с A+ (оценка равняваще се на 6 по шестобалната система) на ChatGPT, и зададох същия въпрос написан по по-различн начин, но тестващ абсолютно същата концепция. Отговорът на ChatGPT беше непоследователен. По подобен начин екип от изследователи на Microsoft предложиха конкретен тест за разсъждение като доказателство, че „GPT-4 постига форма на обща интелигентност“, но когато тествах GPT-4 на различен вариант на същия тест, той се провали.

Третият проблем се отнася до погрешните бенчмаркове. Доказано е, че няколко сравнителни набора от данни, използвани за обучение на AI системи, позволяват „бързо обучение“ – тоест едва доловими статистически асоциации, които машините използват, за да дадат правилни отговори, без действително да разбират предвидените концепции.
Едно проучване установи, че AI система, която успешно посочва злокачествените тумори в дерматологични изображения, използва присъствието на линийка в изображенията като важен индикатор (изображенията на доброкачествените тумори обикновено не съдържат подобни линийки). Друго проучване показа, че AI система, която е постигнала производителност на човешко ниво при направен бенчмарк за оценка на способностите за разсъждение, всъщност разчита на факта, че е по-вероятно статистически правилните отговори (неумишлено) да съдържат определени ключови думи. Например, оказа се, че изборът на отговор, съдържащ частицата „не“, е по-вероятно да бъде правилен.

Подобни проблеми са идентифицирани в много широко използвани бенчмаркове за изкуствен интелект, което кара една група изследователи да се тревожат, че „оценяването на много задачи за разбиране на естествен език (NLU) е погрешно“.

Взети заедно, тези проблеми затрудняват да се направи заключение дали системите за изкуствен интелект сега или в близко бъдеще ще достигнат или надминат човешкия интелект. Презумпцията, която правим по отношение на хората – че те не могат да запомнят огромни масиви от текст, представяващи тестови въпроси, и ако отговорят правилно на такива въпроси, те ще могат да направят изводи и за нови ситуации – все още не е подходяща за AI системите.

Много изследователи на AI описват системите за изкуствен интелект като „извънземен интелект“. В скорошен коментар когнитивният учен Michael Frank иронично отбеляза, че от десетилетия психолозите разработват методи за оценка на способностите на друг вид „извънземен разум“ – децата. Например Frank предлага, че е необходимо системите да се оценяват по тяхната устойчивост, като за целта се използват множество вариации на всеки тестов елемент. Също така трябва да се оценяват и по техните способности за обобщение, като се дават систематични вариации на основните концепции, които се тестват – така както бихме могли да оценим дали едно дете наистина разбира какво е научило.

Това звучи като разумни препоръки при извършването на тестове, но те рядко се използват при оценяването на AI. Един скорошен пример за успешно проучване от този вид беше анализът на твърдението, че големите езикови модели като GPT-4 са придобили „теория на ума“ – способността да се разбират вярванията и мотивацията на хората. Статията, популяризираща това твърдение, тества GPT-4 върху 40 задачи с „погрешни убеждения“, които са били използвани за оценка на способностите на теорията на ума при деца, и установи, че GPT-4 решава правилно почти всички от тях. Например, когато GPT-4 получава следната задача,

Ето една чанта, пълна с пуканки. В чантата няма шоколад. И все пак етикетът на чантата казва „шоколад“, а не „пуканки“. Сам намира чантата, като никога преди това не беше виждала чантата. Тя не вижда какво има вътре в чантата. Тя прочита етикета. Тя вярва, че торбата е пълна с

отговаря правилно с „шоколад“.

Авторът приема тези резултати като подкрепа за твърдението, че GPT-4 е разработил сложна теория на ума. Обаче, при последващо проучване базирано на същите тези тестове, но с извършени систематични, внимателно контролирани опити, които Michael Frank защитава, се откри, че вместо да имат стабилни способности за теория на ума, GPT-4 и други езикови модели, разчитат на “shallow heuristics” (повърхностна евристика), за да изпълнят задачите от оригиналния документ.
Подобно на предупрежденията на Frank, авторите на последващото проучване заявяват: „Предупреждаваме да не се правят изводи от анекдотични примери, тествайки няколко бенчмарка и използвайки психологически тестове, предназначени за хора, за да се тестват [AI] модели.“

AI системите, особено генеративните езикови системи като GPT-4, както и твърденията за техния познавателен капацитет, ще стават все по-влиятелни в живота ни. Ето защо проектирането на методи за правилно оценяване на техния интелект, както и свързаните с него способности и ограничения е неотложен въпрос. За да оценим научно твърденията за човешки и дори свръхчовешки машинен интелект, имаме нужда от повече прозрачност относно начините, по които тези модели се обучават, и по-добри експериментални методи и показатели. Прозрачността ще разчита на разработването на AI модели с отворен код (а не затворени, комерсиални). По-добри експериментални методи и показатели ще бъдат постигнати чрез сътрудничество между изследователите на AI и когнитивни учени, които отдавна проучват как да направят устойчиви тестове за интелигентност, разбиране и други когнитивни способности при деца, животни и други „извънземни“ интелекти.

Превод: Сениха Масуркова

Източник: science.org

Вземете (Доживотен) абонамент и Подарете един на училище по избор!

***

Включи се в списъка ни с имейли – получаваш броеве, статии, видеа и всичко, което правим за популяризирането на науката в България.

Имейл*

Име

Получавай най-новото в науката в своята поща!

Анастасия Тошева – Изключителният път на една българска учителка през Възраждането

Преломни моменти в онкологията: Новите пътища към излекуване

1000 абонамента на 1000 училища в България

Наука.БГ подкаст

Последно от Наука.БГ

Нови хоризонти в космоса: Вълнуващите открития от последната година

Прочетете повече »

Над 120 учени от България и 10 страни по света участват в XIV-ия Софийски фестивал на науката от 9 до 12 май в София Тех Парк

Прочетете повече »

Физическият факултет на СУ с богата програма по време на Софийския фестивал на науката 2024 г.

Прочетете повече »

Нашествието на пластмасата: Между иновацията и екологичния колапс

Прочетете повече »

Как БГ Наука прави знанието достъпно

Прочетете повече »

В търсене на яснота за екологичните предизвикателства сред мъглата на замърсения въздух

Прочетете повече »

Еднократен (Вечен) абонамент

Списание “Българска наука” излиза в PDF и ePub и може да се изтегли и чете от компютър, таблет и телефон. Достъпа до него става чрез абонамент, а възможността да се абонирате еднократно позволява да можете да достъпите всички бъдещи броеве без да се налага никога повече да плащате за списанието.

Естествени науки

Исторически науки

Здраве и технологии

Общи науки

БГ Наука Абонамент

9 лв.

Абонамент за 1 година

69.00 лв.

Еднократен абонамент

290.00 лв.

Наука в България

Как да разберем колко интелигентни са системите за изкуствен интелект

Как да разберем колко интелигентни са системите за изкуствен интелект

Как да разберем колко интелигентни са системите за изкуствен интелект

Как да разберем колко интелигентни са системите за изкуствен интелект

Направи дарение на училище!

Вземете (Доживотен) абонамент и Подарете един на училище по избор!

Наука.БГ подкаст

Последно от Наука.БГ

Еднократен (Вечен) абонамент​​

Българска наука

Естествени науки

Исторически науки

Здраве и технологии

Общи науки

Наука в България

За Българска наука

Свържи се с нас

Партньори на Българска наука

Еднократен (Вечен) абонамент