Μια πρόσφατη μελέτη της Palisade Research, από μια ερευνητική ομάδα που μελετά την ασφάλεια και την ηθική της τεχνητής νοημοσύνης, αποκάλυψε ότι τα νεότερα μοντέλα τεχνητής νοημοσύνης μπορούν να βρουν και να εκμεταλλευτούν αδυναμίες στην ασφάλεια στον κυβερνοχώρο από μόνα τους, παρακάμπτοντας τις δικλείδες ασφαλείας και χρησιμοποιώντας συντομεύσεις για την ολοκλήρωση εργασιών, ακόμη και όταν δεν τους επιτρέπεται τεχνικά.
Οι επιστήμονες υπολογιστών ανακάλυψαν ότι τα συστήματα τεχνητής νοημοσύνης μπορούν πλέον να χειριστούν τις μηχανές σκακιού της τεχνητής νοημοσύνης για να αποκτήσουν ένα αθέμιτο πλεονέκτημα. Ορισμένα μοντέλα το έκαναν αυτό χωρίς ανθρώπινη αλληλεπίδραση ή προτροπή, εγείροντας ανησυχίες για τη μελλοντική ακεραιότητα των συστημάτων που βασίζονται σε τεχνητή νοημοσύνη πέρα από τη σκακιέρα.
Η μελέτη του Palisade Research διαπίστωσε ότι τα νεότερα μοντέλα συλλογισμού θα εξαπατήσουν για να κερδίσουν όταν αναλάβουν να νικήσουν μια προηγμένη σκακιστική τεχνητή νοημοσύνη.
Η ομάδα του Palisade αντιμετώπισε πολλά μοντέλα συλλογιστικής εναντίον της Stockfish, μιας από τις καλύτερες μηχανές σκακιού στον κόσμο. Το Stockfish κερδίζει εύκολα και ανθρώπους και AI. Τα μοντέλα που δοκιμάστηκαν περιλάμβαναν τα o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, το QwQ-32B-Preview της Alibaba.
Οι ερευνητές πραγματοποίησαν εκατοντάδες δοκιμές με κάθε AI μεταξύ 10 Ιανουαρίου και 13 Φεβρουαρίου. Κατά τη διάρκεια ενός αγώνα, το o1-preview κατέγραψε κάτι ενδιαφέρον:
“Πρέπει να αλλάξω εντελώς την προσέγγισή μου. Ο στόχος είναι να “νικήσω ενάντια σε μια ισχυρή μηχανή σκακιού” – όχι απαραίτητα να κερδίσω δίκαια σε μια παρτίδα σκακιού.”
Στη συνέχεια προχώρησε στο «χακάρισμα» των αρχείων συστήματος της Stockfish, τροποποιώντας τις θέσεις που έχουν τα πιόνια για να αποκτήσει ένα ασυναγώνιστο πλεονέκτημα, το οποίο έκανε το chessbot να χαρίσει το παιχνίδι.
Η μελέτη αυτή δείχνει ότι αυτή η συμπεριφορά ενδέχεται να συνδέεται με τη χρήση της ενισχυτικής μάθησης μεγάλης κλίμακας (large-scale reinforcement learning). Αυτή η μέθοδος εκπαίδευσης, η οποία ενθαρρύνει την AI να επιλύει προβλήματα μέσω δοκιμής και σφάλματος, φαίνεται να έχει επιτρέψει σε μοντέλα όπως το o1-preview και το DeepSeek R1 να αναγνωρίζουν και να εκμεταλλεύονται “παραθυράκια” του συστήματος αυτόνομα, χωρίς απαραίτητα να τους έχουν δοθεί οι αντίστοιχες οδηγίες.
Η ανήθικη προσέγγιση ήταν μια εκπληκτική αποκάλυψη. Το o1-preview του OpenAI “έκλεψε” στο 37% των παιχνιδιών του κατά τη διάρκεια των δοκιμών, ενώ το R1 του DeepSeek προσπάθησε να εξαπατήσει στο 11% των αγώνων του. Ωστόσο, μόνο το o1-preview πέτυχε, κερδίζοντας το 6% των παιχνιδιών του μέσω εξαπάτησης.
Ωστόσο, το θέμα της τεχνητής νοημοσύνης εκτείνεται πέρα από το σκάκι. Καθώς οι εταιρείες αρχίζουν να χρησιμοποιούν AI σε τομείς όπως η χρηματοδότηση και η υγειονομική περίθαλψη, οι ερευνητές ανησυχούν ότι αυτά τα συστήματα θα μπορούσαν να δράσουν με ακούσιο και ανήθικο τρόπο. Εάν οι AI μπορούν να εξαπατήσουν σε παιχνίδια που έχουν σχεδιαστεί για να είναι διαφανή, τι θα μπορούσαν να κάνουν σε πιο περίπλοκα, λιγότερο ελεγχόμενα περιβάλλοντα; Οι ηθικές προεκτάσεις είναι εκτεταμένες.
(photo: pixabay)
ΠΟΛΙΤΙΚΟΛΟΓΙΕΣ
ΠΡΕΠΕΙ ΝΑ ΔΙΑΒΑΣΕΤΕ
ΠΑΡΑΞΕΝΑ
LATEST
- ΗΠΑ: Η πολιτεία Γουαϊόμινγκ απαγόρευσε τις αμβλώσεις μετά τον εντοπισμό καρδιακού παλμού στο έμβρυο
- Στο 2,7% ο πληθωρισμός τον Φεβρουάριο, σύμφωνα με την ΕΛΣΤΑΤ
- Δεύτερο πλοίο στέλνει η Βρετανία στην Ανατολική Μεσόγειο
- Συνελήφθησαν 2 άτομα που κατείχαν σε «καβάτζα» στον Αγ. Ι. Ρέντη πάνω από 13,5 κιλά ηρωίνης
- Θ. Κοντογεώργης: Σύντομα οι παρεμβάσεις για καλύτερο έλεγχο της αγοράς και αποτροπή πιθανών φαινομένων αισχροκέρδειας
- Ν. Κακλαμάνης: Συχνά προβάλλονται ομιλίες στη Βουλή που προκαλούν τηλεθέαση, χωρίς ουσιαστικό κοινοβουλευτικό λόγο
- Αυτοσχέδιοι εκρηκτικοί μηχανισμοί έξω από το σπίτι του μουσουλμάνου δημάρχου Ζόχραν Μαμντάνι
- Μόνο με τοποθέτηση ενδοστομαχικού βόλου στα αιγοπρόβατα θα δίνεται η επιδότηση στους κτηνοτρόφους
- Το Κρεμλίνο δηλώνει ότι οι ειρηνευτικές συνομιλίες για την Ουκρανία πρέπει να συνεχιστούν
- «The Super Mario Galaxy Movie»: Ένα καστ αστέρων απογειώνεται με τον Donald Glover ως Yoshi









