Skip to main content

Kā domā Klods? Antropikas misija atklāt AI melnās kastes noslēpumus

Lielo valodu modeļu noslēpumi un to izpēte

Lieli valodu modeļi (LLM), piemēram, Claude, ir pilnībā mainījuši mūsu tehnoloģiju lietošanas veidu. Tie darbina tādus rīkus kā tērzēšanas robotus, palīdz rakstīt esejas un pat radīt dzeju. Tomēr, neskatoties uz šiem iespaidīgajiem spējumiem, šie modeļi joprojām daudzējādā ziņā paliek noslēpums. Tos bieži sauc par “melnajām kastēm”, jo mēs varam redzēt, ko tie saka, bet ne saprast, kā tie to izdomā. Šī izpratnes trūkuma dēļ rodas problēmas, īpaši svarīgās jomās, piemēram, medicīnā vai tiesībās, kur kļūdas vai slēpti aizspriedumi varētu radīt reālu kaitējumu.

LLM darbības mehānismu izpratne ir būtiska uzticēšanās veidošanai. Ja mēs nevaram izskaidrot, kāpēc modelis sniedza konkrētu atbildi, ir grūti uzticēties tā rezultātiem, īpaši jutīgās jomās. Interpretējamība arī palīdz identificēt un novērst aizspriedumus vai kļūdas, nodrošinot modeļu drošību un ētiskumu. Piemēram, ja modelis konsekventi izvēlas noteiktus viedokļus, zināšanas par to, kāpēc tas notiek, var palīdzēt izstrādātājiem to labot. Tieši šī skaidrības vajadzība virza pētījumus, lai padarītu šos modeļus pārredzamākus.

Kā Claude apstrādā informāciju?

2024. gada vidū pētnieku komanda veica būtisku pārlāumu. Viņi izveidoja pamata “karti”, kas parāda, kā Claude apstrādā informāciju. Izmantojot paņēmienu, ko sauc par vārdnīcu mācīšanos, viņi atklāja miljoniem modeļa Claude “smadzenēs” – tā neironu tīklā. Katrs modelis jeb “iezīme” ir saistīta ar konkrētu jēdzienu. Piemēram, dažas iezīmes palīdz Claude atpazīt pilsētas, slavenības vai programmēšanas kļūdas. Citas ir saistītas ar sarežģītākām tēmām, piemēram, dzimumu aizspriedumiem vai slepenību.

Pētnieki atklāja, ka šie jēdzieni nav izolēti atsevišķos neironos. Tie ir izplatīti visā Claude tīklā, un katrs neirons piedalās dažādu jēdzienu veidošanā. Šī pārklāšanās sākumā apgrūtināja šo jēdzienu noteikšanu. Taču, identificējot šos atkārtojošos modeļus, pētnieki sāka atšifrēt, kā Claude organizē savas domas.

Claude lēmumu pieņemšanas process

Nākamais solis bija izprast, kā Claude izmanto šīs domas, lai pieņemtu lēmumus. Pētnieki izveidoja rīku ar nosaukumu atribūciju grafiks, kas darbojas kā soli pa solim Claude domāšanas procesa skaidrojums. Katrs grafa punkts ir ideja, kas aktivizējas Claude “prātā”, un bultiņas parāda, kā viena ideja pāriet nākamajā. Šis grafiks ļauj pētniekiem izsekot, kā Claude pārvērš jautājumu atbildē.

Lai labāk saprastu atribūciju grafa darbību, apsveriet šādu piemēru: uz jautājumu “Kāda ir štata ar Dalasu galvaspilsēta?” Claude vispirms ir jāsaprot, ka Dalass atrodas Teksasā, un pēc tam jāatceras, ka Teksasas galvaspilsēta ir Ostina. Atribūciju grafiks parādīja tieši šo procesu – viena Claude daļa identificēja “Teksasu”, kas noveda pie otras daļas, kas izvēlējās “Ostinu”. Komanda pat pārbaudīja šo procesu, manipulējot ar “Teksasas” daļu, un, kā jau bijuši paredzējuši, atbilde mainījās. Tas pierāda, ka Claude ne tikai uzmin – tas patiešām risina problēmu, un tagad mēs varam to vērot.

Kāpēc tas ir svarīgi?

Lai saprastu šīs izpētes nozīmi, var izmantot analoģiju no bioloģiskajām zinātnēm. Tāpat kā mikroskopa izgudrošana ļāva zinātniekiem atklāt šūnas – dzīvības pamatvienības -, šie interpretējamības rīki ļauj AI pētniekiem atklāt domāšanas pamatvienības modeļu iekšienē. Un tāpat kā neironu savienojumu kartēšana smadzenēs vai genoma sekvencēšana pavēra ceļu medicīnas pārlāumiem, Claude iekšējo procesu kartēšana varētu pavērt ceļu uzticamākai un kontrolējamākai mašīnu intelektam. Šie interpretējamības rīki var spēt būtisku lomu, palīdzot mums ieskatīties AI modeļu domāšanas procesos.

Izaicinājumi un ierobežojumi

Pat ar visu šo progresu mēs joprojām esam tālu no pilnīgas lielo valodu modeļu, piemēram, Claude, izpratnes. Pašlaik atribūciju grafiks var izskaidrot tikai apmēram katru ceturto Claude lēmumu. Lai gan tā iezīmju karte ir iespaidīga, tā aptver tikai daļu no tā, kas notiek Claude “smadzenēs”. Ar miljardiem parametru Claude un citi LLM veik neskaitāmus aprēķinus katram uzdevumam. Katra no tiem izsekošana, lai redzētu, kā veidojas atbilde, ir līdzīga mēģinājumam izsekot katram neironam, kas aktivizējas cilvēka smadzenēs vienas domas laikā.

Vēl viens izaicinājums ir tā sauktās “halucinācijas“. Dažreiz AI modeļi rada atbildes, kas izklausās ticamas, bet patiesībā ir nepareizas – piemēram, pārliecināti izsakot nepareizus faktus. Tas notiek tāpēc, ka modeļi balstās uz modeļiem no saviem apmācības datiem, nevis uz patiesu pasaules izpratni. Saprast, kāpēc tie nonāk izdomājumos, joprojām paliek sarežģīta problēma, kas uzsver mūsu izpratnes trūkumu par to iekšējo darbību.

Aizspriedumi ir vēl viens nozīmīgs šķērslis. AI modeļi mācās no milzīgiem datu kopumiem, kas iegūti no interneta, un tie pēc būtības satur cilvēku aizspriedumus – stereotipus, aizspriedumus un citas sabiedrības trūkumus. Ja Claude uzņem šos aizspriedumus no apmācības, tas var tos atspoguļot savās atbildēs. Šo aizspriedumu izcelsmes izpratne un to ietekmes izprašana uz modeļa spriešanu ir sarežģīts uzdevums, kas prasa gan tehniskus risinājumus, gan rūpīgu datu un ētikas apsvēršanu.

Perspektīvas un nākotnes iespējas

Darbi pie lielo valodu modeļu, piemēram, Claude, padarīšanas saprotamākiem ir nozīmīgs solis uz priekšu AI pārredzamības jomā. Atklājot, kā Claude apstrādā informāciju un pieņem lēmumus, pētnieki virzās uz priekšu, lai risinātu galvenās problēmas saistībā ar AI atbildību. Šis progress atver durvis drošai LLM integrācijai kritiskās nozarēs, piemēram, veselības aprūkē un tiesību jomā, kur uzticēšanās un ētika ir vitāli svarīgas.

Tā kā interpretējamības uzlabošanas metodes attīstās, nozares, kuras līdz šim bija piesardzīgas pret AI ieviešanu, tagad var to vēlreiz apsvērt. Pārredzami modeļi, piemēram, Claude, nodrošina skaidru ceļu uz AI nākotni – mašīnām, kas ne tikai atdara cilvēka intelektu, bet arī skaidro savu spriešanu.

https://www.unite.ai/how-does-claude-think-anthropics-quest-to-unlock-ais-black-box/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *