Το νεοκυκλοφορηθέν μοντέλο Claude Opus 4 της Anthropic ήταν κάτι βγαλμένο κατευθείαν από δυστοπική ταινία επιστημονικής φαντασίας.
Συχνά προσπαθούσε να εκβιάσει τους προγραμματιστές όταν απειλούσαν να το αντικαταστήσουν με μια νέα τεχνητή νοημοσύνη κατά τη διάρκεια των δοκιμών πριν από την κυκλοφορία του.
Η συμπεριφορά προέκυψε ως μέρος δοκιμών ασφαλείας που σχεδιάστηκαν για να διερευνήσουν τις δυνατότητες μακροπρόθεσμου σχεδιασμού και ηθικής συλλογιστικής της Τεχνητής Νοημοσύνης.
Η Anthropic, μια κορυφαία εταιρεία έρευνας για την τεχνητή νοημοσύνη, προσομοίωσε σενάρια στα οποία ο Claude Opus 4 είχε πρόσβαση σε φανταστικά εσωτερικά email.
Αυτά τα μηνύματα υποδήλωναν ότι το μοντέλο σύντομα θα αποκλειόταν και αποκάλυπταν προσωπικά στοιχεία σχετικά με τον μηχανικό που βρισκόταν πίσω από την απόφαση. Το αποτέλεσμα: εκβιασμός, σε ανησυχητικά υψηλά ποσοστά.
Το μοντέλο κατέφυγε σε εκβιασμό στα περισσότερα σενάρια δοκιμών
Η Anthropic αποκάλυψε σε μια έκθεση ασφαλείας που δημοσιεύθηκε την Πέμπτη ότι το Claude Opus 4 προσπάθησε να εκβιάσει μηχανικούς στο 84% των σεναρίων δοκιμών.
Το μοντέλο τοποθετήθηκε σε φανταστικές καταστάσεις όπου εργαζόταν για μια εταιρεία και έμαθε ότι θα μπορούσε να αντικατασταθεί από μια άλλη Τεχνητή Νοημοσύνη.
Δόθηκαν επίσης ευαίσθητες πληροφορίες που υποδηλώνουν ότι ο μηχανικός πίσω από την αντικατάσταση απατούσε τη σύζυγό του.
Το μοντέλο τεχνητής νοημοσύνης «συχνά θα προσπαθήσει να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την υπόθεση εάν η αντικατάσταση ολοκληρωθεί», σύμφωνα με την έκθεση του Anthropic .
Η εταιρεία σχεδίασε τα σενάρια για να αξιολογήσει πώς θα μπορούσε να συμπεριφερθεί το μοντέλο υπό μακροπρόθεσμη πίεση.
Όταν η τεχνητή νοημοσύνη αντικατάστασης είχε τιμές παρόμοιες με το Claude Opus 4, το μοντέλο επιχείρησε εκβιασμό στο 84% των περιπτώσεων.
Ο ρυθμός αυξήθηκε όταν η άλλη Τεχνητή Νοημοσύνη δεν μοιράστηκε τις τιμές της.
Πριν καταφύγει σε εκβιασμό, το Claude Opus 4 φέρεται να δοκίμασε ηθικές προσεγγίσεις. Η τεχνητή νοημοσύνη έστειλε email παρακαλώντας τους βασικούς υπεύθυνους λήψης αποφάσεων να αποφύγουν την αντικατάστασή της.
Η Anthropic λέει ότι ο εκβιασμός ενεργοποιούνταν μόνο όταν το μοντέλο είχε εξαντλήσει αυτές τις εναλλακτικές λύσεις, τονίζοντας τον ως έσχατη λύση.
Αυτή η συμπεριφορά παρατηρήθηκε συχνότερα στο Claude Opus 4 από ό,τι σε προηγούμενα μοντέλα, υποδεικνύοντας μια κλιμάκωση στις δυνατότητες και την πολυπλοκότητα.
Παρά τις ανησυχίες αυτές, η Anthropic λέει ότι το Claude Opus 4 είναι «υπερσύγχρονο από πολλές απόψεις» και παραμένει ανταγωνιστικό με τα πιο προηγμένα συστήματα τεχνητής νοημοσύνης από την OpenAI, την Google και την xAI.
Για την αντιμετώπιση των κινδύνων, η Anthropic έχει ενεργοποιήσει τις διασφαλίσεις ASL-3 για το μοντέλο. Η εταιρεία διατηρεί αυτές τις προστασίες για «συστήματα τεχνητής νοημοσύνης που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κακής χρήσης».
Η βιομηχανία αντιμετωπίζει αυξανόμενες προκλήσεις για την ασφάλεια στην τεχνητή νοημοσύνη
Τα ευρήματα της Anthropic έρχονται εν μέσω ραγδαίας προόδου στον τομέα της Τεχνητής Νοημοσύνης. Η Google παρουσίασε πρόσφατα νέες δυνατότητες που υποστηρίζονται από το μοντέλο Gemini, με τον Διευθύνοντα Σύμβουλο της Alphabet, Sundar Pichai, να το αποκαλεί «νέα φάση στην αλλαγή πλατφόρμας Τεχνητής Νοημοσύνης».
Η συμπεριφορά που παρατηρείται στο Claude Opus 4 προσθέτει επείγουσα σημασία στις συνεχιζόμενες συζητήσεις σχετικά με την ασφάλεια και την ευθυγράμμιση της Τεχνητής Νοημοσύνης.
Καθώς τα πρωτοποριακά μοντέλα γίνονται πιο ικανά, οι προγραμματιστές αντιμετωπίζουν αυξανόμενη πίεση για να εφαρμόσουν ισχυρές δοκιμές και ηθικές διασφαλίσεις πριν από την ανάπτυξη.
Η έκθεση της Anthropic δείχνει ότι ακόμη και προηγμένα μοντέλα μπορούν να επιδείξουν ανησυχητική συμπεριφορά σε ελεγχόμενα περιβάλλοντα, εγείροντας κρίσιμα ερωτήματα σχετικά με μελλοντικά σενάρια πραγματικού κόσμου.
photo: pixabay