03-26-2024 19:21

Μηχανικοί σκοπεύουν να κατασκευάσουν οικιακά ρομπότ με “κοινή λογική”

Από το σκούπισμα των διαρροών μέχρι το σερβίρισμα φαγητού, τα ρομπότ διδάσκονται να εκτελούν όλο και πιο περίπλοκες οικιακές εργασίες. Πολλά τέτοια ρομπότ μαθαίνουν μέσω της μίμησης. Είναι προγραμματισμένα να αντιγράφουν τις κινήσεις που τους καθοδηγεί σωματικά ένας άνθρωπος.

Αποδεικνύεται ότι τα ρομπότ είναι εξαιρετικοί μιμητές. Αλλά εκτός κι αν οι μηχανικοί τα προγραμματίσουν να προσαρμόζονται σε κάθε δυνατό χτύπημα και ώθηση, τα ρομπότ δεν ξέρουν απαραίτητα πώς να χειριστούν αυτές τις καταστάσεις, παρά μόνο αν ξεκινήσουν την εργασία τους από την κορυφή.

Τώρα οι μηχανικοί του MIT στοχεύουν να δώσουν στα ρομπότ λίγη κοινή λογική όταν αντιμετωπίζουν καταστάσεις που τα απομακρύνουν από την εκπαιδευμένη τους πορεία. Έχουν αναπτύξει μια μέθοδο που συνδέει δεδομένα κίνησης ρομπότ με την «κοινή γνώση» μεγάλων γλωσσικών μοντέλων ή LLM.

Η προσέγγισή τους επιτρέπει σε ένα ρομπότ να αναλύει λογικά πολλές οικιακές εργασίες σε δευτερεύουσες εργασίες και να προσαρμόζεται φυσικά στις διακοπές μιας δευτερεύουσας εργασίας, έτσι ώστε το ρομπότ να μπορεί να προχωρήσει χωρίς να χρειάζεται να επιστρέψει και να ξεκινήσει μια εργασία από την αρχή — και χωρίς μηχανικούς να χρειάζεται να το κάνουν ρητά διορθώσεις προγράμματος για κάθε πιθανή αποτυχία στην πορεία.

“Η μάθηση μίμησης είναι μια βασική προσέγγιση για τα οικιακά ρομπότ. Αλλά αν ένα ρομπότ μιμείται τυφλά τις τροχιές κίνησης ενός ανθρώπου, μπορούν να συσσωρευτούν μικροσκοπικά σφάλματα και τελικά να εκτροχιάσουν την υπόλοιπη εκτέλεση”, λέει ο Yanwei Wang, μεταπτυχιακός φοιτητής στο Τμήμα Ηλεκτρολόγων Μηχανικών του MIT. και Πληροφορικής (EECS). “Με τη μέθοδό μας, ένα ρομπότ μπορεί να διορθώσει μόνο του τα σφάλματα εκτέλεσης και να βελτιώσει τη συνολική επιτυχία της εργασίας.”

Ο Wang και οι συνεργάτες του περιγράφουν λεπτομερώς τη νέα τους προσέγγιση σε μια μελέτη που θα παρουσιάσουν στο Διεθνές Συνέδριο για τις Εκπαιδευτικές Αναπαραστάσεις (ICLR) τον Μάιο. Στους συγγραφείς της μελέτης περιλαμβάνονται οι μεταπτυχιακοί φοιτητές EECS Tsun-Hsuan Wang και Jiayuan Mao, ο Michael Hagenow, μεταδιδακτορικός στο Τμήμα Αεροναυτικής και Αστροναυτικής του MIT (AeroAstro) και η Julie Shah, η καθηγήτρια HN Slater στην Αεροναυτική και Αστροναυτική στο MIT.

Γλωσσική εργασία

Οι ερευνητές επεξηγούν τη νέα τους προσέγγιση με μια απλή αγγαρεία: να μαζεύουν μάρμαρα από ένα μπολ και να τα ρίχνουν σε ένα άλλο. Για να επιτύχουν αυτό το έργο, οι μηχανικοί θα μετακινούσαν συνήθως ένα ρομπότ μέσα από τις κινήσεις της σάρωσης και της έκχυσης — όλα σε μια τροχιά ρευστού. Μπορεί να το κάνουν πολλές φορές, για να δώσουν στο ρομπότ μια σειρά από ανθρώπινες επιδείξεις για μίμηση.

«Αλλά η ανθρώπινη επίδειξη είναι μια μακρά, συνεχής τροχιά», λέει ο Wang.

Η ομάδα συνειδητοποίησε ότι, ενώ ένας άνθρωπος μπορεί να επιδείξει μια μεμονωμένη εργασία με μια κίνηση, αυτή η εργασία εξαρτάται από μια ακολουθία δευτερευουσών εργασιών ή τροχιών. Για παράδειγμα, το ρομπότ πρέπει πρώτα να πιάσει το χέρι του σε ένα μπολ , και πρέπει να μαζέψει μάρμαρα πριν μεταβεί στο άδειο μπολ και ούτω καθεξής. Εάν ένα ρομπότ πιεστεί ή ωθηθεί να κάνει ένα λάθος κατά τη διάρκεια οποιασδήποτε από αυτές τις δευτερεύουσες εργασίες, η μόνη του λύση είναι να σταματήσει και να ξεκινήσει από την αρχή, εκτός εάν οι μηχανικοί επρόκειτο να επισημάνουν ρητά κάθε δευτερεύουσα εργασία και να προγραμματίσουν ή να συλλέξουν νέες επιδείξεις ώστε το ρομπότ να ανακτήσει από την την εν λόγω αποτυχία, για να επιτρέψει σε ένα ρομπότ να αυτοδιορθωθεί τη στιγμή.

«Αυτό το επίπεδο προγραμματισμού είναι πολύ κουραστικό», λέει ο Wang.

Αντίθετα, αυτός και οι συνάδελφοί του βρήκαν ότι μέρος αυτής της εργασίας θα μπορούσε να γίνει αυτόματα από LLM. Αυτά τα μοντέλα βαθιάς μάθησης επεξεργάζονται τεράστιες βιβλιοθήκες κειμένου, τις οποίες χρησιμοποιούν για να δημιουργήσουν συνδέσεις μεταξύ λέξεων, προτάσεων και παραγράφων. Μέσω αυτών των συνδέσεων, ένα LLM μπορεί στη συνέχεια να δημιουργήσει νέες προτάσεις με βάση αυτά που έχει μάθει για το είδος της λέξης που είναι πιθανό να ακολουθήσει την τελευταία.

Από την πλευρά τους, οι ερευνητές διαπίστωσαν ότι εκτός από προτάσεις και παραγράφους, μπορεί να ζητηθεί από ένα LLM να παράγει μια λογική λίστα με δευτερεύουσες εργασίες που θα εμπλέκονται σε μια δεδομένη εργασία. Για παράδειγμα, εάν ζητηθεί να απαριθμήσει τις ενέργειες που εμπλέκονται στη συλλογή μαρμάρων από το ένα μπολ σε ένα άλλο, ένα LLM μπορεί να δημιουργήσει μια ακολουθία ρημάτων όπως “φτάνω”, “σέσουλα”, “μεταφέρω” και “χύνω”.

“Τα LLM έχουν έναν τρόπο να σας πουν πώς να κάνετε κάθε βήμα μιας εργασίας, σε φυσική γλώσσα. Η συνεχής επίδειξη ενός ανθρώπου είναι η ενσάρκωση αυτών των βημάτων, στο φυσικό χώρο”, λέει ο Wang. «Και θέλαμε να συνδέσουμε τα δύο, έτσι ώστε ένα ρομπότ να ξέρει αυτόματα σε ποιο στάδιο βρίσκεται σε μια εργασία και να μπορεί να επανασχεδιάσει και να ανακάμψει μόνο του».

Χαρτογράφηση μαρμάρων

Για τη νέα τους προσέγγιση, η ομάδα ανέπτυξε έναν αλγόριθμο για να συνδέει αυτόματα την ετικέτα φυσικής γλώσσας ενός LLM για μια συγκεκριμένη υποεργασία με τη θέση ενός ρομπότ στο φυσικό χώρο ή μια εικόνα που κωδικοποιεί την κατάσταση του ρομπότ. Η αντιστοίχιση των φυσικών συντεταγμένων ενός ρομπότ, ή μιας εικόνας της κατάστασης του ρομπότ, σε μια ετικέτα φυσικής γλώσσας είναι γνωστή ως “γείωση”. Ο νέος αλγόριθμος της ομάδας έχει σχεδιαστεί για να μαθαίνει έναν “ταξινομητή γείωσης”, που σημαίνει ότι μαθαίνει να προσδιορίζει αυτόματα σε ποια σημασιολογική υποεργασία βρίσκεται ένα ρομπότ — για παράδειγμα, “προσέγγιση” έναντι “σέσουλα” — δεδομένων των φυσικών του συντεταγμένων ή μιας προβολής εικόνας .

“Ο ταξινομητής γείωσης διευκολύνει αυτόν τον διάλογο μεταξύ του τι κάνει το ρομπότ στον φυσικό χώρο και του τι γνωρίζει το LLM για τις δευτερεύουσες εργασίες και των περιορισμών στους οποίους πρέπει να προσέξεις σε κάθε δευτερεύουσα εργασία”, εξηγεί ο Wang.

Η ομάδα έδειξε την προσέγγιση σε πειράματα με έναν ρομποτικό βραχίονα που εκπαίδευσε σε μια εργασία κοπής μαρμάρου. Οι πειραματιστές εκπαίδευσαν το ρομπότ καθοδηγώντας το σωματικά στην εργασία του να πιάσει πρώτα ένα μπολ, να μαζέψει μάρμαρα, να τα μεταφέρει σε ένα άδειο μπολ και να τα χύνει. Μετά από μερικές επιδείξεις, η ομάδα χρησιμοποίησε ένα προεκπαιδευμένο LLM και ζήτησε από το μοντέλο για να απαριθμήσετε τα βήματα που απαιτούνται για τη συλλογή μαρμάρων από το ένα μπολ στο άλλο. Στη συνέχεια, οι ερευνητές χρησιμοποίησαν τον νέο τους αλγόριθμο για να συνδέσουν τις καθορισμένες δευτερεύουσες εργασίες του LLM με τα δεδομένα τροχιάς κίνησης του ρομπότ. Ο αλγόριθμος έμαθε αυτόματα να αντιστοιχίζει τις φυσικές συντεταγμένες του ρομπότ στις τροχιές και την αντίστοιχη προβολή εικόνας σε μια δεδομένη υποεργασία.

Στη συνέχεια, η ομάδα άφησε το ρομπότ να εκτελέσει μόνο του την εργασία σάρωσης, χρησιμοποιώντας τους ταξινομητές γείωσης που έμαθαν πρόσφατα. Καθώς το ρομπότ προχωρούσε στα βήματα της εργασίας, οι πειραματιστές το έσπτωξαν από την πορεία του και έριξαν μάρμαρα από το κουτάλι του σε διάφορα σημεία. Αντί να σταματήσει και να ξεκινήσει ξανά από την αρχή ή να συνεχίσει στα τυφλά χωρίς μάρμαρα στο κουτάλι του, το ρομπότ μπόρεσε να διορθωθεί μόνο του και ολοκλήρωσε κάθε δευτερεύουσα εργασία πριν προχωρήσει στην επόμενη. (Για παράδειγμα, θα βεβαιωνόταν ότι μάζεψε με επιτυχία τα μάρμαρα πριν τα μεταφέρει στο άδειο μπολ.)

«Με τη μέθοδό μας, όταν το ρομπότ κάνει λάθη, δεν χρειάζεται να ζητάμε από τον άνθρωπο να προγραμματίσει ή να δώσει επιπλέον επιδείξεις για το πώς να ανακάμψουμε από τις αποτυχίες», λέει ο Wang. “Αυτό είναι εξαιρετικά συναρπαστικό επειδή υπάρχει μια τεράστια προσπάθεια τώρα για την εκπαίδευση οικιακών ρομπότ με δεδομένα που συλλέγονται σε συστήματα τηλεχειρισμού. Ο αλγόριθμός μας μπορεί τώρα να μετατρέψει αυτά τα δεδομένα εκπαίδευσης σε ισχυρή συμπεριφορά ρομπότ που μπορεί να κάνει πολύπλοκες εργασίες, παρά τις εξωτερικές διαταραχές.”

photo: pixabay