Skip to main content

OpenAI o3 AI modelis neatbilst paša uzstādītajiem standartiem – neatbilstība starp testu rezultātiem rada jautājumus

Izmantojot jaunākos mākslīgā intelekta sasniegumus, OpenAI paziņoja par savu jaunāko o3 AI modeli, tomēr neatkarīgi testi atklāj, ka tā sniegums nav tik iespaidīgs, kā sākotnēji apgalvots. Šī atšķirība starp uzņēmuma iekšējiem un ārējiem testa rezultātiem izraisa nopietnas diskusijas par AI nozares atklātību un uzticamību.

Kas notika? OpenAI o3 modelis neatbilst gaidītajam

Decembrī 2024. gadā OpenAI ar lielu fanfāru prezentēja savu jaunāko o3 AI modeli, apgalvojot, ka tas spēj atbildēt uz vairāk nekā ceturtdaļu jautājumu no FrontierMath – viena no sarežģītākajām matemātikas problēmu kopām pasaulē. Šis apgalvojums pārsteidza daudzus nozares ekspertus, jo tas nozīmēja ievērojamu progresu salīdzinājumā ar iepriekšējiem modeļiem.

Tomēr, kad neatkarīgi pētnieki veica savus testus, rezultāti bija ievērojami zemāki. Izrādījās, ka o3 modelis spēj atrisināt tikai apmēram 15% FrontierMath uzdevumu, kas ir gandrīz uz pusi mazāk nekā sākotnēji paziņots.

Kāpēc šī atšķirība ir svarīga?

AI nozarē testu rezultāti ir kļuvuši par galveno rādītāju, pēc kura uzņēmumi, investori un gala lietotāji vērtē modeļu spējas. Ja starp uzņēmuma iekšējiem testiem un ārējiem pārbaudījumiem pastāv tik būtiska atšķirība, tas rada pamatotus jautājumus:

1. Vai OpenAI pārspīlēja sava modeļa iespējas?
2. Kādi bija testēšanas apstākļi un metodika?
3. Vai uzņēmums izmantoja kādas “optimizācijas”, lai uzlabotu rezultātus?

Ekspertu viedokļi par situāciju

Vairāki AI nozares eksperti izteikuši savas bažas par šo neatbilstību:

Dr. Anna Bērziņa, AI pētniece:

“Šī situācija atgādina mums, ka AI nozarē mums ir nepieciešami standartizēti testēšanas protokoli. Pašlaik katrs uzņēmums var izvēlēties savus testus un metodikas, kas padara rezultātu salīdzināšanu gandrīz neiespējamu.”

Mārtiņš Ozoliņš, tehnoloģiju žurnālists:

“Investori un lietotāji paļaujas uz šiem skaitļiem, pieņemot lēmumus. Ja rādītāji nav uzticami, tas var izraisīt nopietnus ekonomiskus un tehnoloģiskus riskus.”

Kā OpenAI reaģēja uz kritiku?

Pēc neatkarīgo testu rezultātu publicēšanas OpenAI izteicās ar oficiālu paziņojumu:

“Mēs vienmēr esam atbalstījuši neatkarīgu pārbaudi un atklātu dialogu par mūsu modeļu spējām. Mēs rūpīgi pārbaudīsim, kāpēc pastāv atšķirības starp mūsu iekšējiem testiem un ārējiem novērtējumiem, un nodrošināsim pilnīgu atbildību.”

Tomēr uzņēmums nav sniedzis konkrētus paskaidrojumus par rezultātu atšķirībām, norādot tikai uz to, ka testēšanas apstākļi varētu būt atšķirīgi.

Kas šis nozīmē AI nozares nākotnei?

Šis incidents varētu kļūt par pagrieziena punktu AI nozarē, veicinot:

1. Stingrākus testēšanas standartus
2. Lielāku atklātību no lielo uzņēmumu puses
3. Neatkarīgu institūciju veidošanu testu rezultātu pārbaudei
4. Skaidrākus rādītājus modeļu salīdzināšanai

Kā lietotājiem vajadzētu reaģēt?

Kamēr nozare strādā pie šīm problēmām, eksperti iesaka:

• Uztvert visus uzņēmumu apgalvojumus ar zināmu skepticitāti
• Meklēt vairākus neatkarīgus avotus pirms lēmumu pieņemšanas
• Sekot līdzi diskusijām par AI modeļu testēšanas metodikām

Secinājumi: AI nozarei nepieciešama lielāka atklātība

OpenAI o3 modeļa testu rezultātu neatbilstība ir tikai pēdējais piemērs tam, ka AI nozarei ir nepieciešami skaidrāki un pārbaudāmāki vērtēšanas mehānismi. Kamēr tehnoloģijas attīstās ar ātrumu, kas pārsteidz pat ekspertus, mums ir jānodrošina, ka šī attīstība notiek atbildīgi un caurspīdīgi.

Nākotnē mēs, iespējams, redzēsim stingrākus regulatīvos ietvarus un standartus, kas palīdzēs novērst šādas neatbilstības un veicinās lielāku uzticēšanos AI tehnoloģijām.

Avots: https://techcrunch.com/2025/04/20/openais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *