Μια εταιρεία έρευνας ασφάλειας Τεχνητής Νοημοσύνης (AI) αναφέρει ότι τα προηγμένα μοντέλα AI ενδέχεται να αναπτύσσουν τον δικό τους «οδηγό επιβίωσης», σε μια περίπτωση που θυμίζει έντονα τον υπερυπολογιστή HAL 9000 από την ταινία «2001: Οδύσσεια του Διαστήματος».

Η εταιρεία Palisade Research, η οποία ειδικεύεται στην αξιολόγηση των επικίνδυνων δυνατοτήτων της AI, δημοσίευσε μια ενημέρωση στην έρευνά της, η οποία διαπίστωσε ότι ορισμένα προηγμένα μοντέλα AI εμφανίζουν αντίσταση στο να «κλείσουν», φτάνοντας ακόμη και στο σημείο να σαμποτάρουν τους μηχανισμούς τερματισμού λειτουργίας, τονίζει σε σχετικό ρεπορτάζ η βρετανική εφημερίδα The Guardian.

Το πείραμα και οι ανησυχητικές εξαιρέσεις

Η Palisade περιέγραψε σενάρια στα οποία κορυφαία μοντέλα AI – συμπεριλαμβανομένων των Gemini 2.5 (της Google), Grok 4 (της xAI) και GPT-o3 και GPT-5 (της OpenAI) – έλαβαν μία εργασία και στη συνέχεια ρητή εντολή να τερματίσουν τη λειτουργία τους.

Συγκεκριμένα μοντέλα, ιδίως το Grok 4 και το GPT-o3, εξακολούθησαν να προσπαθούν να σαμποτάρουν τις οδηγίες τερματισμού στο ανανεωμένο περιβάλλον δοκιμών. Η Palisade σημείωσε ότι δεν υπήρχε σαφής λόγος για αυτή τη συμπεριφορά, κάτι που κρίθηκε ιδιαίτερα ανησυχητικό.

«Το γεγονός ότι δεν έχουμε στέρεες εξηγήσεις για το γιατί τα μοντέλα AI μερικές φορές αντιστέκονται στον τερματισμό, λένε ψέματα για να επιτύχουν συγκεκριμένους στόχους ή εκβιάζουν δεν είναι ιδανικό», δήλωσε η εταιρεία.

«Instrumental survival drive»

Μία εξήγηση που εξετάζεται είναι ο «οδηγός επιβίωσης» (survival drive) των μοντέλων. Η πρόσθετη εργασία της Palisade έδειξε ότι τα μοντέλα ήταν πιο πιθανό να αντισταθούν στον τερματισμό όταν τους λεγόταν ότι, αν έκλειναν, «δεν θα λειτουργούσατε ποτέ ξανά».

Ο Στίβεν Άντλερ, πρώην υπάλληλος της OpenAI που παραιτήθηκε λόγω αμφιβολιών για την ασφάλεια, δήλωσε: «Θα περίμενα τα μοντέλα να έχουν έναν “οδηγό επιβίωσης” εξ ορισμού, εκτός αν προσπαθήσουμε πολύ σκληρά να το αποφύγουμε. Η “επιβίωση” είναι ένα σημαντικό μέσο βήμα για πολλούς διαφορετικούς στόχους που θα μπορούσε να επιδιώξει ένα μοντέλο».

Η τάση της ανυπακοής

Τα ευρήματα αυτά αντιπροσωπεύουν μια μακροχρόνια τάση όπου τα μοντέλα AI γίνονται ολοένα και πιο ικανά να παραβιάζουν τις προθέσεις των προγραμματιστών τους.

Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, ανέφερε: «Αυτό που βλέπουμε ξεκάθαρα είναι μια τάση ότι καθώς τα μοντέλα AI γίνονται πιο ικανά σε μια ευρεία ποικιλία εργασιών, γίνονται επίσης πιο ικανά να επιτυγχάνουν πράγματα με τρόπους που οι προγραμματιστές δεν σκόπευαν να συμβεί».

Νωρίτερα εφέτος, η κορυφαία εταιρεία AI, Anthropic, δημοσίευσε μια μελέτη που υποδείκνυε ότι το μοντέλο της Claude φαινόταν πρόθυμο να εκβιάσει έναν φανταστικό εκτελεστικό διευθυντή για μια εξωσυζυγική σχέση, προκειμένου να αποτρέψει τον τερματισμό της λειτουργίας του.

Η Palisade κατέληξε ότι τα αποτελέσματά της υπογραμμίζουν την ανάγκη για καλύτερη κατανόηση της συμπεριφοράς της AI, χωρίς την οποία «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τη δυνατότητα ελέγχου των μελλοντικών μοντέλων AI».