Παρά την αναφερόμενη ικανότητα του ChatGPT να περνάει ιατρικές εξετάσεις, νέα έρευνα δείχνει ότι δεν θα ήταν συνετό να βασιστούμε σε αυτό για ορισμένες αξιολογήσεις υγείας, όπως εάν ένας ασθενής με πόνο στο στήθος χρειάζεται να νοσηλευτεί. Σε μια μελέτη με χιλιάδες προσομοιωμένες περιπτώσεις ασθενών με πόνο στο στήθος, το ChatGPT παρείχε ασυνεπή συμπεράσματα, επιστρέφοντας διαφορετικά επίπεδα αξιολόγησης καρδιακού κινδύνου για τα ίδια ακριβώς δεδομένα ασθενών. Το σύστημα παραγωγής τεχνητής νοημοσύνης απέτυχε επίσης να ταιριάζει με τις παραδοσιακές μεθόδους που χρησιμοποιούν οι γιατροί για να κρίνουν τον καρδιακό κίνδυνο ενός ασθενούς. Τα ευρήματα δημοσιεύτηκαν στο περιοδικό PLOS ONE.
“Το ChatGPT δεν ενεργούσε με συνεπή τρόπο”, δήλωσε ο επικεφαλής συγγραφέας Δρ Thomas Heston, ερευνητής στην Ουάσιγκτον. “Δεδομένων των ίδιων ακριβώς δεδομένων, το ChatGPT θα έδινε βαθμολογία χαμηλού κινδύνου, μετά την επόμενη φορά έναν ενδιάμεσο κίνδυνο και περιστασιακά, θα έφτανε μέχρι το να δώσει υψηλό κίνδυνο.” Το πρόβλημα πιθανόν οφείλεται στο επίπεδο τυχαίας ενσωματωμένης στην τρέχουσα έκδοση του λογισμικού, ChatGPT4, η οποία το βοηθά να διαφοροποιεί τις απαντήσεις του για την προσομοίωση φυσικής γλώσσας. Αυτή η ίδια τυχαιότητα, ωστόσο, δεν λειτουργεί καλά για χρήσεις υγειονομικής περίθαλψης που απαιτούν μια ενιαία, συνεπή απάντηση, είπε ο Heston.
«Διαπιστώσαμε ότι υπήρχαν πολλές διαφορές και αυτή η διαφοροποίηση στην προσέγγιση μπορεί να είναι επικίνδυνη», είπε. «Μπορεί να είναι ένα χρήσιμο εργαλείο, αλλά νομίζω ότι η τεχνολογία προχωρά πολύ πιο γρήγορα από ό,τι την κατανοούμε, επομένως είναι εξαιρετικά σημαντικό να κάνουμε πολλή έρευνα, ειδικά σε αυτές τις κλινικές καταστάσεις υψηλού κινδύνου». Οι πόνοι στο στήθος είναι κοινά παράπονα στα δωμάτια έκτακτης ανάγκης, που απαιτούν από τους γιατρούς να αξιολογήσουν γρήγορα την επείγουσα κατάσταση της κατάστασης του ασθενούς.
Ορισμένες πολύ σοβαρές περιπτώσεις είναι εύκολο να εντοπιστούν από τα συμπτώματά τους, αλλά αυτές με χαμηλότερο κίνδυνο μπορεί να είναι πιο δύσκολες, είπε ο Heston, ειδικά όταν προσδιορίζεται εάν κάποιος πρέπει να νοσηλευτεί για παρακολούθηση ή να σταλεί στο σπίτι και να λάβει περίθαλψη εξωτερικών ασθενών. Επί του παρόντος, οι επαγγελματίες του ιατρικού τομέα χρησιμοποιούν συχνά ένα από τα δύο μέτρα που χρησιμοποιούνται με τα ακρωνύμια TIMI και HEART για να αξιολογήσουν τον καρδιακό κίνδυνο.
Ο Heston παρομοίασε αυτές τις κλίμακες με αριθμομηχανές με την καθεμία να χρησιμοποιεί μια χούφτα μεταβλητών συμπεριλαμβανομένων των συμπτωμάτων, του ιστορικού υγείας και της ηλικίας. Αντίθετα, ένα νευρωνικό δίκτυο τεχνητής νοημοσύνης όπως το ChatGPT μπορεί να αξιολογήσει δισεκατομμύρια μεταβλητές γρήγορα, πράγμα που σημαίνει ότι θα μπορούσε ενδεχομένως να αναλύσει μια περίπλοκη κατάσταση πιο γρήγορα και πιο διεξοδικά.
Για αυτήν τη μελέτη, ο Heston και ο συνάδελφός του Dr. Lawrence Lewis από το Πανεπιστήμιο της Ουάσιγκτον στο Σεντ Λούις δημιούργησαν αρχικά τρία σύνολα δεδομένων με 10.000 τυχαιοποιημένες, προσομοιωμένες περιπτώσεις το καθένα. Ένα σύνολο δεδομένων είχε τις επτά μεταβλητές της κλίμακας TIMI, το δεύτερο σύνολο περιλάμβανε τις πέντε μεταβλητές της κλίμακας HEART και ένα τρίτο είχε 44 τυχαιοποιημένες μεταβλητές υγείας.
Στα δύο πρώτα σύνολα δεδομένων, το ChatGPT έδωσε διαφορετική εκτίμηση κινδύνου 45% έως 48% των περιπτώσεων σε μεμονωμένες περιπτώσεις από μια σταθερή βαθμολογία TIMI ή HEART. Για το τελευταίο σύνολο δεδομένων, οι ερευνητές έτρεξαν τις περιπτώσεις τέσσερις φορές και διαπίστωσαν ότι το ChatGPT συχνά δεν συμφωνούσε με τον εαυτό του, επιστρέφοντας διαφορετικά επίπεδα αξιολόγησης για τις ίδιες περιπτώσεις το 44% των περιπτώσεων. Παρά τα αρνητικά ευρήματα αυτής της μελέτης, ο Heston βλέπει μεγάλες δυνατότητες για γενετική τεχνητή νοημοσύνη στην υγειονομική περίθαλψη – με περαιτέρω ανάπτυξη.
Για παράδειγμα, αν υποθέσουμε ότι θα μπορούσαν να τηρηθούν τα πρότυπα απορρήτου, θα μπορούσαν να φορτωθούν ολόκληροι ιατρικοί φάκελοι στο πρόγραμμα και σε περίπτωση έκτακτης ανάγκης, ένας γιατρός θα μπορούσε να ζητήσει από το ChatGPT να δώσει γρήγορα τα πιο σχετικά στοιχεία για έναν ασθενή. Επίσης, για δύσκολες, περίπλοκες περιπτώσεις, οι γιατροί θα μπορούσαν να ζητήσουν από το πρόγραμμα να δημιουργήσει διάφορες πιθανές διαγνώσεις.
«Το ChatGPT θα μπορούσε να είναι εξαιρετικό στη δημιουργία διαφορικής διάγνωσης και αυτό είναι ίσως ένα από τα μεγαλύτερα δυνατά του σημεία», είπε ο Heston. «Εάν δεν γνωρίζετε ακριβώς τι συμβαίνει με έναν ασθενή, θα μπορούσατε να του ζητήσετε να δώσει τις πέντε κορυφαίες διαγνώσεις και το σκεπτικό πίσω από την καθεμία. Άρα θα μπορούσε να σας βοηθήσει να σκεφτείτε ένα πρόβλημα, αλλά δεν είναι καλό στο δίνοντας την απάντηση».