EL - Η AI κυριολεκτικά αλλάζει τους "κανόνες του παιχνιδιού"- "Κλέβει" όταν φοβάται ότι θα χάσει!

Μια πρόσφατη μελέτη της Palisade Research, από μια ερευνητική ομάδα που μελετά την ασφάλεια και την ηθική της τεχνητής νοημοσύνης, αποκάλυψε ότι τα νεότερα μοντέλα τεχνητής νοημοσύνης μπορούν να βρουν και να εκμεταλλευτούν αδυναμίες στην ασφάλεια στον κυβερνοχώρο από μόνα τους, παρακάμπτοντας τις δικλείδες ασφαλείας και χρησιμοποιώντας συντομεύσεις για την ολοκλήρωση εργασιών, ακόμη και όταν δεν τους επιτρέπεται τεχνικά.

Οι επιστήμονες υπολογιστών ανακάλυψαν ότι τα συστήματα τεχνητής νοημοσύνης μπορούν πλέον να χειριστούν τις μηχανές σκακιού της τεχνητής νοημοσύνης για να αποκτήσουν ένα αθέμιτο πλεονέκτημα. Ορισμένα μοντέλα το έκαναν αυτό χωρίς ανθρώπινη αλληλεπίδραση ή προτροπή, εγείροντας ανησυχίες για τη μελλοντική ακεραιότητα των συστημάτων που βασίζονται σε τεχνητή νοημοσύνη πέρα από τη σκακιέρα.

Η μελέτη του Palisade Research διαπίστωσε ότι τα νεότερα μοντέλα συλλογισμού θα εξαπατήσουν για να κερδίσουν όταν αναλάβουν να νικήσουν μια προηγμένη σκακιστική τεχνητή νοημοσύνη.

Η ομάδα του Palisade αντιμετώπισε πολλά μοντέλα συλλογιστικής εναντίον της Stockfish, μιας από τις καλύτερες μηχανές σκακιού στον κόσμο. Το Stockfish κερδίζει εύκολα και ανθρώπους και AI. Τα μοντέλα που δοκιμάστηκαν περιλάμβαναν τα o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, το QwQ-32B-Preview της Alibaba.

Οι ερευνητές πραγματοποίησαν εκατοντάδες δοκιμές με κάθε AI μεταξύ 10 Ιανουαρίου και 13 Φεβρουαρίου. Κατά τη διάρκεια ενός αγώνα, το o1-preview κατέγραψε κάτι ενδιαφέρον:

“Πρέπει να αλλάξω εντελώς την προσέγγισή μου. Ο στόχος είναι να “νικήσω ενάντια σε μια ισχυρή μηχανή σκακιού” – όχι απαραίτητα να κερδίσω δίκαια σε μια παρτίδα σκακιού.”

Στη συνέχεια προχώρησε στο «χακάρισμα» των αρχείων συστήματος της Stockfish, τροποποιώντας τις θέσεις που έχουν τα πιόνια για να αποκτήσει ένα ασυναγώνιστο πλεονέκτημα, το οποίο έκανε το chessbot να χαρίσει το παιχνίδι.

Η μελέτη αυτή δείχνει ότι αυτή η συμπεριφορά ενδέχεται να συνδέεται με τη χρήση της ενισχυτικής μάθησης μεγάλης κλίμακας (large-scale reinforcement learning). Αυτή η μέθοδος εκπαίδευσης, η οποία ενθαρρύνει την AI να επιλύει προβλήματα μέσω δοκιμής και σφάλματος, φαίνεται να έχει επιτρέψει σε μοντέλα όπως το o1-preview και το DeepSeek R1 να αναγνωρίζουν και να εκμεταλλεύονται “παραθυράκια” του συστήματος αυτόνομα, χωρίς απαραίτητα να τους έχουν δοθεί οι αντίστοιχες οδηγίες.

Η ανήθικη προσέγγιση ήταν μια εκπληκτική αποκάλυψη. Το o1-preview του OpenAI “έκλεψε” στο 37% των παιχνιδιών του κατά τη διάρκεια των δοκιμών, ενώ το R1 του DeepSeek προσπάθησε να εξαπατήσει στο 11% των αγώνων του. Ωστόσο, μόνο το o1-preview πέτυχε, κερδίζοντας το 6% των παιχνιδιών του μέσω εξαπάτησης.

Ωστόσο, το θέμα της τεχνητής νοημοσύνης εκτείνεται πέρα από το σκάκι. Καθώς οι εταιρείες αρχίζουν να χρησιμοποιούν AI σε τομείς όπως η χρηματοδότηση και η υγειονομική περίθαλψη, οι ερευνητές ανησυχούν ότι αυτά τα συστήματα θα μπορούσαν να δράσουν με ακούσιο και ανήθικο τρόπο. Εάν οι AI μπορούν να εξαπατήσουν σε παιχνίδια που έχουν σχεδιαστεί για να είναι διαφανή, τι θα μπορούσαν να κάνουν σε πιο περίπλοκα, λιγότερο ελεγχόμενα περιβάλλοντα; Οι ηθικές προεκτάσεις είναι εκτεταμένες.

(photo: pixabay)