Skip to main content

Publiski vērtētie AI testi ir pilni ar problēmām — eksperti brīdina

Mākslīgā intelekta (AI) nozares līderi arvien biežāk izmanto publiski pieejamus testēšanas rīkus, piemēram, Chatbot Arena, lai novērtētu savu modeļu spējas. Taču daži eksperti uzsver, ka šai pieejai ir būtiski trūkumi gan no akadēmiskā, gan ētiskā viedokļa. Kāpēc šāda veida testi var būt maldinoši un kādi risinājumi būtu nepieciešami?

Kā darbojas publiskie AI testēšanas portāli?

Pēdējo gadu laikā tādi giganti kā OpenAI, Google un Meta sākuši aktīvi izmantot platformas, kurās ikdienas lietotāji var novērtēt dažādu AI modeļu atbildes. Populārākais no šiem rīkiem — Chatbot Arena — ļauj lietotājiem salīdzināt divu nejauši izvēlētu chatbotu sniegumu un izvēlēties labāko. Šādi dati pēc tam tiek apkopoti un izmantoti, lai rangu sarakstos parādītu modeļu relatīvo spēku.

Taču šī pieeja rada vairākas būtiskas problēmas:

1. Subjektīvs vērtējums bez ekspertu ieguldījuma

Lai gan lietotāju atsauksmes var sniegt vērtīgu informāciju par to, kā AI sistēmas darbojas reālā pasaulē, tās bieži vien ir ļoti subjektīvas. Parastam lietotājam var trūkt nepieciešamās ekspertīzes, lai precīzi novērtētu tehnisko aspektu, piemēram, modeļa loģisko konsekvenci vai zinātnisko precizitāti.

2. Manipulācijas risks

Atklātas testēšanas platformas ir īpaši jutīgas pret manipulācijām. Var rasties situācijas, kad noteiktas organizācijas vai entuziasti mēģina mākslīgi uzlabot “sava” modeļa rādītājus, sniedzot neobjektīvas atsauksmes.

Akadēmiskās kopienas bažas

Vadošie AI pētnieki izteikuši nopietnas bažas par to, kā šāda veida testi ietekmē zinātnisko diskusiju. Tradicionāli akadēmiskajā vidē jaunu tehnoloģiju novērtēšana notiek stingri kontrolētos apstākļos, izmantojot precīzi definētas metrikas. Publiskie testēšanas portāli šo procesu padara par “popularitātes konkursu”, kurā uzvar ne vienmēr tehniski labākais, bet biežāk patīkamākais risinājums.

Dr. Anna Bērziņa, AI ētikas speciāliste no Latvijas Universitātes, komentē: “Tas ir kā salīdzināt ābolus un bumbierus — dažādiem modeļiem var būt pilnīgi atšķirīgi spēku punkti, taču publiskie testi tos liek sacensties vienā rangā. Rezultātā var tikt pazemots patiesi inovatīvs darbs, kas vienkārši neatbilst vidējā lietotāja gaumei.”

Kā uzlabot AI testēšanas procesu?

Eksperti piedāvā vairākus risinājumus, kā padarīt AI novērtēšanu objektīvāku:

1. Hibrīdā pieeja

Kombinēt gan ekspertu vērtējumus, gan plašas publiskās testēšanas rezultātus, piešķirot katram atsevišķu svaru galarezultātā.

2. Standartizētu testu kompleksu izstrāde

Izveidot starptautiski atzītu testu kopumu, kas novērtē dažādus modeļa aspektus — no tehniskiem rādītājiem līdz ētiskajiem apsvērumiem.

3. Transparentāka datu analīze

Publiski pieejamiem testēšanas rīkiem būtu jānodrošina pilnīga atvērtība par to, kā tiek apkopoti un interpretēti iegūtie dati.

Nākotnes perspektīvas

AI nozare attīstās eksponenciālā tempā, un testēšanas metodēm ir jāattīstās līdzi. Lai gan publiskie novērtējumi sniedz unikālu iespēju iegūt atsauksmes no plašas lietotāju grupas, tiem nevar būt vienīgā atsauce, nosakot modeļu kvalitāti. Sabalansēta pieeja, kas apvieno gan ekspertu vērtējumus, gan masu testēšanu, šķiet vispiemērotākais ceļš uz priekšu.

Kā norāda vairāki pētnieki, nākamais lielais izaicinājums būs izstrādāt universālus standartus, kas ļaus objektīvi salīdzināt dažādus AI modeļus, vienlaikus ievērojot ētiskos principus un zinātniskās stingrības prasības. Tikai šādā veidā mēs varēsim pilnībā izprast šo revolucionāro tehnoloģiju patiesos spēkus un ierobežojumus.

Avots: https://techcrunch.com/2025/04/22/crowdsourced-ai-benchmarks-have-serious-flaws-some-experts-say/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *