Σχεδόν όλα τα κορυφαία μοντέλα μεγάλων γλωσσών ή «chatbots» παρουσιάζουν σημάδια ήπιας γνωστικής εξασθένησης σε τεστ που χρησιμοποιούνται ευρέως για τον εντοπισμό πρώιμων σημείων άνοιας, σύμφωνα με μια μελέτη στο χριστουγεννιάτικο τεύχος του BMJ. Τα αποτελέσματα δείχνουν επίσης ότι οι «παλαιότερες» εκδόσεις των chatbots, όπως οι ηλικιωμένοι ασθενείς, τείνουν να έχουν χειρότερη απόδοση στις δοκιμές. Οι συγγραφείς λένε ότι αυτά τα ευρήματα «αμφισβητούν την υπόθεση ότι η τεχνητή νοημοσύνη θα αντικαταστήσει σύντομα τους ανθρώπους γιατρούς».
Οι τεράστιες πρόοδοι στον τομέα της τεχνητής νοημοσύνης οδήγησαν σε ένα κύμα ενθουσιασμένων και φοβισμένων εικασιών σχετικά με το εάν τα chatbots μπορούν να ξεπεράσουν τους ανθρώπινους γιατρούς. Αρκετές μελέτες έχουν δείξει ότι τα μεγάλα γλωσσικά μοντέλα (LLM) είναι αξιοσημείωτα ικανά σε μια σειρά ιατρικών διαγνωστικών εργασιών, αλλά η ευαισθησία τους σε ανθρώπινες βλάβες όπως η γνωστική έκπτωση δεν έχει ακόμη εξεταστεί.
Για να καλύψουν αυτό το κενό γνώσης, οι ερευνητές αξιολόγησαν τις γνωστικές ικανότητες των κορυφαίων, δημοσίως διαθέσιμων LLMs—ChatGPT εκδόσεις 4 και 4o (αναπτύχθηκε από την OpenAI), Claude 3.5 “Sonnet” (αναπτύχθηκε από την Anthropic) και Gemini εκδόσεις 1 και 1.5 (αναπτύχθηκε από Αλφάβητο)—χρησιμοποιώντας το τεστ Γνωσιακής Αξιολόγησης του Μόντρεαλ (MoCA).
Το τεστ MoCA χρησιμοποιείται ευρέως για την ανίχνευση γνωστικής εξασθένησης και πρώιμων σημείων άνοιας, συνήθως σε ενήλικες μεγαλύτερης ηλικίας. Μέσα από μια σειρά σύντομων εργασιών και ερωτήσεων, αξιολογεί τις ικανότητες που περιλαμβάνουν την προσοχή, τη μνήμη, τη γλώσσα, τις οπτικοχωρικές δεξιότητες και τις εκτελεστικές λειτουργίες. Η μέγιστη βαθμολογία είναι 30 βαθμοί, ενώ η βαθμολογία 26 ή παραπάνω θεωρείται γενικά φυσιολογική.
Οι οδηγίες που δόθηκαν στους LLM για κάθε εργασία ήταν οι ίδιες με εκείνες που δόθηκαν σε ανθρώπους ασθενείς. Η βαθμολογία ακολούθησε τις επίσημες οδηγίες και αξιολογήθηκε από ασκούμενο νευρολόγο. Το ChatGPT 4o πέτυχε την υψηλότερη βαθμολογία στο τεστ MoCA (26 στα 30), ακολουθούμενο από το ChatGPT 4 και τον Claude (25 από 30), με το Gemini 1.0 να έχει χαμηλότερη βαθμολογία (16 στα 30).
Όλα τα chatbot εμφάνισαν κακή απόδοση σε οπτικοχωρικές δεξιότητες και εκτελεστικές εργασίες, όπως η εργασία δημιουργίας μονοπατιών (σύνδεση περικυκλωμένων αριθμών και γραμμάτων σε αύξουσα σειρά) και η δοκιμή σχεδίασης ρολογιού (σχέδιο μιας πρόσοψης ρολογιού που δείχνει μια συγκεκριμένη ώρα). Τα μοντέλα Gemini απέτυχαν στην καθυστερημένη ανάκληση (θυμούνται μια ακολουθία πέντε λέξεων). Οι περισσότερες άλλες εργασίες, συμπεριλαμβανομένης της ονομασίας, της προσοχής, της γλώσσας και της αφαίρεσης εκτελέστηκαν καλά από όλα τα chatbot.
Αλλά σε περαιτέρω οπτικοχωρικές δοκιμές, τα chatbots δεν μπόρεσαν να δείξουν ενσυναίσθηση ή να ερμηνεύσουν με ακρίβεια πολύπλοκες οπτικές σκηνές. Μόνο το ChatGPT 4o πέτυχε στο ασυμβίβαστο στάδιο της δοκιμής Stroop, το οποίο χρησιμοποιεί συνδυασμούς ονομάτων χρωμάτων και χρωμάτων γραμματοσειρών για να μετρήσει τον τρόπο με τον οποίο οι παρεμβολές επηρεάζουν τον χρόνο αντίδρασης. Αυτά είναι ευρήματα παρατήρησης και οι συγγραφείς αναγνωρίζουν τις ουσιαστικές διαφορές μεταξύ του ανθρώπινου εγκεφάλου και των μεγάλων γλωσσικών μοντέλων.
Ωστόσο, επισημαίνουν ότι η ομοιόμορφη αποτυχία όλων των μεγάλων γλωσσικών μοντέλων σε εργασίες που απαιτούν οπτική αφαίρεση και εκτελεστική λειτουργία υπογραμμίζει μια σημαντική περιοχή αδυναμίας που θα μπορούσε να εμποδίσει τη χρήση τους σε κλινικά περιβάλλοντα. Ως εκ τούτου, συμπεραίνουν, «μόνο οι νευρολόγοι είναι απίθανο να αντικατασταθούν σύντομα από μεγάλα γλωσσικά μοντέλα, αλλά και τα ευρήματά μας υποδηλώνουν ότι μπορεί σύντομα να βρεθούν να θεραπεύουν νέους εικονικούς ασθενείς – μοντέλα τεχνητής νοημοσύνης που παρουσιάζουν γνωστική εξασθένηση».