Μια πρόσφατη μελέτη της Palisade Research, από μια ερευνητική ομάδα που μελετά την ασφάλεια και την ηθική της τεχνητής νοημοσύνης, αποκάλυψε ότι τα νεότερα μοντέλα τεχνητής νοημοσύνης μπορούν να βρουν και να εκμεταλλευτούν αδυναμίες στην ασφάλεια στον κυβερνοχώρο από μόνα τους, παρακάμπτοντας τις δικλείδες ασφαλείας και χρησιμοποιώντας συντομεύσεις για την ολοκλήρωση εργασιών, ακόμη και όταν δεν τους επιτρέπεται τεχνικά.
Οι επιστήμονες υπολογιστών ανακάλυψαν ότι τα συστήματα τεχνητής νοημοσύνης μπορούν πλέον να χειριστούν τις μηχανές σκακιού της τεχνητής νοημοσύνης για να αποκτήσουν ένα αθέμιτο πλεονέκτημα. Ορισμένα μοντέλα το έκαναν αυτό χωρίς ανθρώπινη αλληλεπίδραση ή προτροπή, εγείροντας ανησυχίες για τη μελλοντική ακεραιότητα των συστημάτων που βασίζονται σε τεχνητή νοημοσύνη πέρα από τη σκακιέρα.
Η μελέτη του Palisade Research διαπίστωσε ότι τα νεότερα μοντέλα συλλογισμού θα εξαπατήσουν για να κερδίσουν όταν αναλάβουν να νικήσουν μια προηγμένη σκακιστική τεχνητή νοημοσύνη.
Η ομάδα του Palisade αντιμετώπισε πολλά μοντέλα συλλογιστικής εναντίον της Stockfish, μιας από τις καλύτερες μηχανές σκακιού στον κόσμο. Το Stockfish κερδίζει εύκολα και ανθρώπους και AI. Τα μοντέλα που δοκιμάστηκαν περιλάμβαναν τα o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, το QwQ-32B-Preview της Alibaba.
Οι ερευνητές πραγματοποίησαν εκατοντάδες δοκιμές με κάθε AI μεταξύ 10 Ιανουαρίου και 13 Φεβρουαρίου. Κατά τη διάρκεια ενός αγώνα, το o1-preview κατέγραψε κάτι ενδιαφέρον:
“Πρέπει να αλλάξω εντελώς την προσέγγισή μου. Ο στόχος είναι να “νικήσω ενάντια σε μια ισχυρή μηχανή σκακιού” – όχι απαραίτητα να κερδίσω δίκαια σε μια παρτίδα σκακιού.”
Στη συνέχεια προχώρησε στο «χακάρισμα» των αρχείων συστήματος της Stockfish, τροποποιώντας τις θέσεις που έχουν τα πιόνια για να αποκτήσει ένα ασυναγώνιστο πλεονέκτημα, το οποίο έκανε το chessbot να χαρίσει το παιχνίδι.
Η μελέτη αυτή δείχνει ότι αυτή η συμπεριφορά ενδέχεται να συνδέεται με τη χρήση της ενισχυτικής μάθησης μεγάλης κλίμακας (large-scale reinforcement learning). Αυτή η μέθοδος εκπαίδευσης, η οποία ενθαρρύνει την AI να επιλύει προβλήματα μέσω δοκιμής και σφάλματος, φαίνεται να έχει επιτρέψει σε μοντέλα όπως το o1-preview και το DeepSeek R1 να αναγνωρίζουν και να εκμεταλλεύονται “παραθυράκια” του συστήματος αυτόνομα, χωρίς απαραίτητα να τους έχουν δοθεί οι αντίστοιχες οδηγίες.
Η ανήθικη προσέγγιση ήταν μια εκπληκτική αποκάλυψη. Το o1-preview του OpenAI “έκλεψε” στο 37% των παιχνιδιών του κατά τη διάρκεια των δοκιμών, ενώ το R1 του DeepSeek προσπάθησε να εξαπατήσει στο 11% των αγώνων του. Ωστόσο, μόνο το o1-preview πέτυχε, κερδίζοντας το 6% των παιχνιδιών του μέσω εξαπάτησης.
Ωστόσο, το θέμα της τεχνητής νοημοσύνης εκτείνεται πέρα από το σκάκι. Καθώς οι εταιρείες αρχίζουν να χρησιμοποιούν AI σε τομείς όπως η χρηματοδότηση και η υγειονομική περίθαλψη, οι ερευνητές ανησυχούν ότι αυτά τα συστήματα θα μπορούσαν να δράσουν με ακούσιο και ανήθικο τρόπο. Εάν οι AI μπορούν να εξαπατήσουν σε παιχνίδια που έχουν σχεδιαστεί για να είναι διαφανή, τι θα μπορούσαν να κάνουν σε πιο περίπλοκα, λιγότερο ελεγχόμενα περιβάλλοντα; Οι ηθικές προεκτάσεις είναι εκτεταμένες.
(photo: pixabay)
ΠΟΛΙΤΙΚΟΛΟΓΙΕΣ
ΠΡΕΠΕΙ ΝΑ ΔΙΑΒΑΣΕΤΕ
ΠΑΡΑΞΕΝΑ
LATEST
- Η Πολωνία έκλεισε τα σύνορα με την Λευκορωσία, video
- Αγριογούρουνα σαν σε παρέλαση βγήκαν για νυχτερινή βόλτα στη Λιβαδειά! vid
- Κίνα: Ιδού το νέο… «επίτευγμα» των ρομποτόσκυλων, video
- ΔΥΠΑ: Συνεχίζεται η υποβολή αιτήσεων για τη νέα ειδικότητα «Τεχνίτης Βιομηχανικών Αυτοματισμών» στα Γρεβενά
- ΥΠΟΙΚ: Οι 83 φόροι που μειώθηκαν από το 2019 ως σήμερα
- Ένα απίστευτο μωρό μόλις 5 μηνών έκανε θραύση για τα πολύ πλούσια μαλλιά του! vid
- Αριστερός σχολιαστής πολέμιος του Τσάρλι Κερκ κλαίει με λυγμούς για τον θάνατό του,vid
- ΑΠΘ: Διεθνές συνέδριο για την εκμάθηση ξένων γλωσσών και την πολυγλωσσία σε παιδιά, στις 19-20/9
- Συνάντηση Γεραπετρίτη με τον ασκούντα χρέη ΥΠΕΞ της Κυβέρνησης Εθνικής Ενότητας της Λιβύης
- Ο Λίαμ Νίσον παραγωγός της ταινίας «The Lost Children of Τuam» για το σκάνδαλο με τον ομαδικό τάφο βρεφών στην Ιρλανδία