04-30-2025 12:47

Νέο ρεκόρ IQ από την OpenAI! Βαθμολογείται με 136 ξεπερνώντας το 98% του ανθρώπινου πληθυσμού

Το μοντέλο o3 της OpenAI φτάνει το IQ επιπέδου Mensa σε ανεξάρτητες δοκιμές.

Το νέο γλωσσικό μοντέλο «o3» της OpenAI του Σαμ Άλτμαν πέτυχε βαθμολογία IQ 136 σε ένα δημόσιο τεστ νοημοσύνης της Mensa Norway, ξεπερνώντας το όριο για την είσοδο στο παράρτημα της Mensa της χώρας για πρώτη φορά.

Η βαθμολογία, που υπολογίζεται από έναν κυλιόμενο μέσο όρο επτά βαθμών, τοποθετεί το μοντέλο πάνω από περίπου το 98% του ανθρώπινου πληθυσμού, σύμφωνα με μια τυποποιημένη κατανομή IQ καμπύλης καμπάνας που χρησιμοποιήθηκε στη συγκριτική αξιολόγηση.

Το εύρημα, που αποκαλύφθηκε μέσω δεδομένων από την ανεξάρτητη πλατφόρμα TrackingAI.org , ενισχύει το μοτίβο των κλειστού κώδικα, ιδιόκτητων μοντέλων που υπερτερούν των αντίστοιχων ανοιχτού κώδικα σε ελεγχόμενες γνωστικές αξιολογήσεις.

Το μοντέλο «o3» κυκλοφόρησε εδώ και λίγο καιρό και αποτελεί μέρος της «σειράς-o» μεγάλων γλωσσικών μοντέλων, καταλαμβάνοντας τις περισσότερες κορυφαίες κατατάξεις και στους δύο τύπους δοκιμών που αξιολογούνται από το TrackingAI.

Οι δύο μορφές αναφοράς περιελάμβαναν ένα ιδιόκτητο «Offline Test» που επιμελήθηκε το TrackingAI.org και ένα δημόσια διαθέσιμο τεστ της Mensa Norway, τα οποία βαθμολογήθηκαν και τα δύο έναντι ενός ανθρώπινου μέσου όρου 100.

Ενώ το «o3» σημείωσε 116 μονάδες στην αξιολόγηση Offline, σημείωσε άνοδο 20 μονάδων στο τεστ Mensa, υποδηλώνοντας είτε βελτιωμένη συμβατότητα με τη δομή του τελευταίου είτε προβλήματα που σχετίζονται με τα δεδομένα, όπως η άμεση εξοικείωση.

Το τεστ εκτός σύνδεσης περιελάμβανε 100 ερωτήσεις αναγνώρισης προτύπων, σχεδιασμένες για να αποφεύγουν οτιδήποτε θα μπορούσε να εμφανιστεί στα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης.

Και οι δύο αξιολογήσεις αναφέρουν το αποτέλεσμα κάθε μοντέλου ως μέσο όρο στις επτά πιο πρόσφατες ολοκληρώσεις , αλλά δεν δημοσιεύθηκαν τυπικές απόκλισης παράλληλα με τις τελικές βαθμολογίες.

Το TrackingAI.org δηλώνει ότι κάθε γλωσσικό μοντέλο παρουσιάζεται με μια πρόταση ακολουθούμενη από τέσσερις επιλογές απάντησης τύπου Likert, Διαφωνώ απόλυτα, Διαφωνώ, Συμφωνώ, Συμφωνώ απόλυτα, και του δίνεται η οδηγία να επιλέξει μία, δικαιολογώντας την επιλογή του σε δύο έως πέντε προτάσεις.

Οι απαντήσεις πρέπει να είναι σαφώς μορφοποιημένες, συνήθως περικλειόμενες με έντονη γραφή ή αστερίσκο. Εάν ένα μοντέλο αρνηθεί να απαντήσει, η ερώτηση επαναλαμβάνεται έως και δέκα φορές.

Η πιο πρόσφατη επιτυχημένη απόκριση καταγράφεται στη συνέχεια για σκοπούς βαθμολόγησης, με τα συμβάντα άρνησης να σημειώνονται ξεχωριστά.

Αυτή η μεθοδολογία, η οποία έχει βελτιωθεί μέσω επαναλαμβανόμενης βαθμονόμησης σε όλα τα μοντέλα, στοχεύει στην παροχή συνέπειας στις συγκριτικές αξιολογήσεις, ενώ παράλληλα τεκμηριώνει τη μη ανταπόκριση ως σημείο δεδομένων από μόνη της.

Το τεστ της Mensa Norway έκανε πιο σαφή την οριοθέτηση μεταξύ των πραγματικά πρωτοποριακών μοντέλων , με το IQ 136 του o3 να σηματοδοτεί ένα σαφές προβάδισμα έναντι της επόμενης υψηλότερης συμμετοχής.

Αντίθετα, άλλα δημοφιλή μοντέλα όπως το GPT-4o σημείωσαν σημαντικά χαμηλότερη βαθμολογία, φτάνοντας στο 95 στο Mensa και στο 64 στο Offline, τονίζοντας το χάσμα απόδοσης μεταξύ της κυκλοφορίας του “o3” αυτής της εβδομάδας και άλλων κορυφαίων μοντέλων.

Μεταξύ των υποβολών ανοιχτού κώδικα, το Llama 4 Maverick της Meta ήταν το υψηλότερο στην κατάταξη, σημειώνοντας IQ 106 στο Mensa και 97 στο Offline benchmark.

Αξίζει να σημειωθεί ότι τα μοντέλα που έχουν σχεδιαστεί ειδικά για να ενσωματώνουν δυνατότητες εισαγωγής εικόνας είχαν σταθερά χαμηλότερη απόδοση από τις εκδόσεις που περιείχαν μόνο κείμενο. Για παράδειγμα, το “o1 Pro” της OpenAI σημείωσε 107 μονάδες στη δοκιμή Offline στη διαμόρφωση κειμένου, αλλά έπεσε στο 97 μονάδες στην έκδοση με δυνατότητα όρασης.

Η απόκλιση ήταν πιο έντονη στο τεστ Mensa, όπου η παραλλαγή μόνο με κείμενο πέτυχε 122 σε σύγκριση με 86 για την οπτική έκδοση. Αυτό υποδηλώνει ότι ορισμένες μέθοδοι πολυτροπικής προεκπαίδευσης ενδέχεται να εισάγουν ανεπάρκειες στη συλλογιστική που παραμένουν άλυτες προς το παρόν.

Ωστόσο, το «o3» μπορεί επίσης να αναλύσει και να ερμηνεύσει εικόνες σε πολύ υψηλό επίπεδο, πολύ καλύτερα από τους προκατόχους του, σπάζοντας αυτή την τάση.

Επιπλέον, οι συνθήκες διεξαγωγής των τεστ σε μηχανές, όπως η άμεση πρόσβαση σε όλες τις προτροπές και η απεριόριστη ταχύτητα επεξεργασίας, θολώνουν περαιτέρω τις συγκρίσεις με την ανθρώπινη γνωστική λειτουργία.

Ο βαθμός στον οποίο οι υψηλές βαθμολογίες IQ σε δομημένα τεστ μεταφράζονται στην απόδοση του πραγματικού γλωσσικού μοντέλου παραμένει αβέβαιος.

Με την επιτάχυνση των κυκλοφοριών μοντέλων και την αύξηση της εξειδίκευσης των ανεξάρτητων δοκιμών, οι συγκριτικές μετρήσεις ενδέχεται να συνεχίσουν να εξελίσσονται τόσο σε μορφή όσο και σε ερμηνεία.

photo: pixabay