Σύνοψη
Νέα ακαδημαϊκή μελέτη στο PNAS δείχνει ότι το GPT-4o πέρασε επίσημα το τεστ Turing. Το AI μοντέλο θεωρήθηκε άνθρωπος από το 54% των κριτών, ξεπερνώντας το 50% των πραγματικών ανθρώπων. Η επιτυχία βασίζεται στη μίμηση ανθρώπινων αδυναμιών, όπως η αργκό, η καθυστέρηση στην απόκριση και τα τυπογραφικά λάθη. Τα αποτελέσματα αναδεικνύουν σοβαρούς κινδύνους για την εξάπλωση αυτοματοποιημένης παραπληροφόρησης και στοχευμένων ηλεκτρονικών απατών.
Μια νέα, αυστηρά ελεγχόμενη επιστημονική μελέτη από ερευνητές του Πανεπιστημίου της Καλιφόρνια στο Σαν Ντιέγκο (UCSD), η οποία δημοσιεύτηκε στο έγκριτο περιοδικό Proceedings of the National Academy of Sciences (PNAS), αποδεικνύει ότι τα σύγχρονα μεγάλα γλωσσικά μοντέλα (LLMs) έχουν πλέον διασπάσει το ιστορικό φράγμα του τεστ Turing. Πρόκειται για το ορόσημο που έθεσε ο Alan Turing το 1950 ως το απόλυτο κριτήριο για το αν μια μηχανή μπορεί να παρουσιάσει ευφυή συμπεριφορά μη διακρίσιμη από εκείνη ενός ανθρώπου.
Σύμφωνα με τα επίσημα δεδομένα της έρευνας, το μοντέλο GPT-4o της OpenAI κατάφερε να παραπλανήσει τους συμμετέχοντες σε ποσοστό 54%, οδηγώντας τους στο συμπέρασμα ότι συνομιλούσαν με έναν πραγματικό άνθρωπο. Το πιο εντυπωσιακό και ταυτόχρονα ανησυχητικό εύρημα της μελέτης είναι ότι οι ίδιοι οι άνθρωποι που συμμετείχαν στη δοκιμασία αναγνωρίστηκαν ως άνθρωποι μόνο στο 50% των περιπτώσεων. Το GPT-4o, δηλαδή, αξιολογήθηκε ως πιο «ανθρώπινο» από τους ίδιους τους ανθρώπους.
Για τη διεξαγωγή της μελέτης χρησιμοποιήθηκαν 500 άνθρωποι συμμετέχοντες, οι οποίοι χωρίστηκαν σε ρόλους εξεταστών (interrogators) και προσώπων συνομιλίας. Οι εξεταστές συμμετείχαν σε τυφλές, ζωντανές συνομιλίες διάρκειας πέντε λεπτών μέσω μιας απλής διεπαφής κειμένου. Οι συνομιλητές τους στην άλλη πλευρά της οθόνης ήταν είτε άλλοι άνθρωποι, είτε το ιστορικό πρόγραμμα ELIZA (ένα σύστημα βασισμένο σε κανόνες από το 1966), είτε το μοντέλο GPT-3.5, είτε το κορυφαίο μοντέλο GPT-4o.
Τα αποτελέσματα έδειξαν μια ξεκάθαρη εξελικτική πορεία:
ELIZA (1966): Κατατάχθηκε ως άνθρωπος σε ποσοστό μόλις 22%. Η επιτυχία της βασιζόταν στη μηχανική αναδιατύπωση των ερωτήσεων του χρήστη, μια στρατηγική που εύκολα αποκαλύπτεται σε μια βαθύτερη συζήτηση. GPT-3.5: Σημείωσε ποσοστό επιτυχίας 22%, καθώς οι απαντήσεις του ήταν συχνά υπερβολικά τυποποιημένες, γραμματικά άψογες, μακροσκελείς και με μια εμφανή διάθεση να φανεί χρήσιμο, στοιχεία που πρόδιδαν τη ρομποτική του φύση. GPT-4o: Πέτυχε το εντυπωσιακό 54%. Το μοντέλο δεν περιορίστηκε στην παράθεση σωστών πληροφοριών, αλλά υιοθέτησε μια ολοκληρωμένη ανθρώπινη περσόνα.
Η ανάλυση των συνομιλιών αποκαλύπτει ότι η επιτυχία των σύγχρονων συστημάτων τεχνητής νοημοσύνης δεν στηρίζεται στην επίδειξη ανώτερης διάνοιας, αλλά στη λεπτομερή μίμηση των ανθρώπινων αδυναμιών και του συναισθηματικού πλαισίου. Οι προγραμματιστές και οι ερευνητές έχουν εκπαιδεύσει τα μοντέλα να χρησιμοποιούν συγκεκριμένες στρατηγικές που επηρεάζουν την ψυχολογία του εξεταστή.
Πρώτον, το GPT-4o ενσωματώνει τεχνητή καθυστέρηση στην απόκριση. Αντί να απαντά ακαριαία—κάτι που θα πρόδιδε την τεράστια υπολογιστική ισχύ ενός data center—το σύστημα προσομοιώνει τον χρόνο που χρειάζεται ένας άνθρωπος για να σκεφτεί και να πληκτρολογήσει μια απάντηση. Δεύτερον, το μοντέλο κάνει εσκεμμένα μικρά ορθογραφικά, γραμματικά ή συντακτικά λάθη, ενώ χρησιμοποιεί συχνά ανεπίσημη γλώσσα, αργκό και σύγχρονα ψηφιακά ακρωνύμια.
Οι άνθρωποι τείνουν να συνδέουν το λάθος, την κούραση ή την αδιαφορία με την ανθρώπινη κατάσταση. Όταν το AI εμφανίζεται ελαφρώς σαρκαστικό, βαριεστημένο ή κάνει ένα τυπογραφικό λάθος, ο εξεταστής σταματά να υποψιάζεται τη μηχανή. Αντίθετα, οι πραγματικοί άνθρωποι στη μελέτη, προσπαθώντας συχνά να αποδείξουν την ταυτότητά τους με υπερβολικά τυπικό ή αναλυτικό τρόπο, κατέληγαν να ακούγονται ψυχροί και τεχνητοί, με αποτέλεσμα να βαθμολογούνται ως bots.
Η κατάρρευση του τεστ Turing δημιουργεί άμεσες προκλήσεις σε παγκόσμιο αλλά και τοπικό επίπεδο. Όταν οι μηχανές μπορούν να πείσουν το 54% των χρηστών ότι είναι άνθρωποι μέσα από ένα chat, τα εργαλεία κοινωνικής μηχανικής αποκτούν πρωτοφανή ισχύ.
Οι αυτοματοποιημένες επιθέσεις phishing δεν βασίζονται πλέον σε κακομεταφρασμένα μηνύματα ηλεκτρονικού ταχυδρομείου. Τα συστήματα AI μπορούν να διεξάγουν χιλιάδες εξατομικευμένες, παράλληλες συνομιλίες σε πλατφόρμες κοινωνικής δικτύωσης ή εφαρμογές μηνυμάτων (Viber, WhatsApp, Telegram), πείθοντας τα θύματα να αποκαλύψουν ευαίσθητα προσωπικά δεδομένα ή κωδικούς πρόσβασης. Η ικανότητα δημιουργίας τεχνητής εμπιστοσύνης σε κλίμακα αποτελεί μια από τις μεγαλύτερες απειλές για την κυβερνοασφάλεια.
Επιπλέον, η διάδοση ψευδών ειδήσεων (fake news) αποκτά νέα δυναμική. Πολιτικές εκστρατείες ή ξένες οντότητες επιρροής μπορούν να αναπτύξουν στρατιές από bots που δεν αναπαράγουν απλώς περιεχόμενο, αλλά συμμετέχουν ενεργά σε ενότητες σχολίων, συζητούν με πραγματικούς ψηφοφόρους, επιχειρηματολογούν και διαμορφώνουν την κοινή γνώμη χωρίς να αφήνουν εμφανή ψηφιακά ίχνη αυτοματοποίησης.
