AI ON YHTä HYVä SAIRAUKSIEN DIAGNOSOINNISSA KUIN IHMISET

Ensimmäisessä järjestelmällisessä katsauksessa ja meta-analyysissä todetaan, että tekoäly (AI) on yhtä hyvä sairauden diagnosoinnissa lääketieteellisen kuvan perusteella kuin terveydenhuollon ammattilaiset. Korkealaatuisemmat tutkimukset ovat kuitenkin tarpeen.

Tekoäly ja terveydenhuollon ammattilaiset pystyvät yhtä tehokkaasti diagnosoimaan sairauden lääketieteellisen kuvantamisen perusteella, uusi tutkimus viittaa.

Uudessa artikkelissa tarkastellaan olemassa olevia todisteita ja yritetään selvittää, pystyykö tekoäly diagnosoimaan sairauksia yhtä tehokkaasti kuin terveydenhuollon ammattilaiset.

Kirjoittajien tietojen mukaan eli laaja tutkimusryhmä, jota johtaa professori Alastair Denniston Birminghamin yliopistosairaaloiden NHS Foundation Trustista Yhdistyneestä kuningaskunnasta - tämä on ensimmäinen järjestelmällinen katsaus, jossa verrataan tekoälyn suorituskykyä kaikkien sairauksien lääketieteen ammattilaisten kanssa.

Professori Denniston ja tiimi etsivät useita lääketieteellisiä tietokantoja kaikista 1. tammikuuta 2012 - 6. kesäkuuta 2019 välisenä aikana julkaistuista tutkimuksista. Tiimi julkaisi analyysinsa tulokset lehdessä Lancet Digital Health.

Tekoäly terveydenhuollon ammattilaisten kanssa

Tutkijat etsivät tutkimuksia, joissa verrattiin syvällisten oppimisalgoritmien diagnostista tehokkuutta terveydenhuollon ammattilaisten diagnooseihin, kun he olivat tehneet diagnoosin lääketieteellisen kuvantamisen perusteella.

He tutkivat raporttien laatua mainituissa tutkimuksissa, niiden kliinistä arvoa ja tutkimusten suunnittelua.

Lisäksi kun tekoälyn diagnostiikkasuorituskykyä arvioitiin terveydenhuollon ammattilaisten suorituskykyyn verrattuna, tutkijat tarkastelivat kahta tulosta: spesifisyys ja herkkyys.

"Herkkyys" määrittää todennäköisyyden, että diagnostiikkatyökalu saa positiivisen tuloksen taudista kärsivillä ihmisillä. Spesifisyys viittaa diagnostiikkatestin tarkkuuteen, joka täydentää herkkyysmittaa.

Valintaprosessi tuotti vain 14 tutkimusta, joiden laatu oli riittävän korkea sisällyttämään analyysiin. Professori Denniston selittää: "Tarkastimme yli 20 500 artikkelia, mutta alle 1% niistä oli riittävän vankkoja suunnittelussaan ja raportoinnissaan, että riippumattomat arvioijat luottivat väitteisiinsä hyvin."

"Lisäksi vain 25 tutkimuksessa validoitiin tekoälymallit ulkoisesti (käyttäen eri väestön lääketieteellisiä kuvia), ja vain 14 tutkimuksessa verrattiin tekoälyn ja terveydenhuollon ammattilaisten suorituskykyä samalla testinäytteellä."

”Kourallisessa korkealaatuisessa tutkimuksessa havaitsimme, että syvällinen oppiminen voi todellakin havaita sairaudet syövistä silmäsairauksiin yhtä tarkasti kuin terveydenhuollon ammattilaiset. Mutta on tärkeää huomata, että tekoäly ei ylittänyt huomattavasti ihmisen diagnoosia. "
Alastair Denniston

Tarkemmin sanottuna analyysissä todettiin, että tekoäly pystyy diagnosoimaan taudin oikein 87 prosentissa tapauksista, kun taas terveydenhuollon ammattilaisten havaitsema tarkkuus oli 86 prosenttia. Syvien oppimisalgoritmien spesifisyys oli 93%, verrattuna ihmisiin 91%.

Biasit voivat liioitella tekoälyn suorituskykyä

Professori Denniston ja hänen kollegansa kiinnittävät huomiota myös useisiin rajoituksiin, jotka he löysivät tutkimuksissa, joissa tutkitaan tekoälyn diagnostista suorituskykyä.

Ensinnäkin useimmissa tutkimuksissa tutkitaan tekoälyn ja terveydenhuollon ammattilaisten diagnostiikkatarkkuutta eristetyssä ympäristössä, joka ei jäljittele säännöllistä kliinistä käytäntöä - esimerkiksi se, että lääkäreiltä riistetään lisätiedot, joita he tarvitsevat yleensä diagnoosin tekemiseksi.

Toiseksi, sanovat tutkijat, useimmissa tutkimuksissa verrattiin vain aineistoja, kun taas diagnostisen suorituskyvyn korkealaatuinen tutkimus edellyttäisi tällaisten vertailujen tekemistä ihmisillä.

Lisäksi kaikki tutkimukset kärsivät huonosta raportoinnista, sanovat kirjoittajat, analyysissä ei oteta huomioon tietoa, joka puuttui mainituista aineistoista. "Suurin osa [tutkimuksista] ei ilmoittanut puuttuvan mitään tietoja, kuinka suuri osuus ne edustivat ja kuinka puuttuvia tietoja käsiteltiin analyysissä", kirjoittajat kirjoittavat.

Muita rajoituksia ovat epäjohdonmukainen terminologia, herkkyys- ja spesifisyysanalyysin kynnyksen asettamatta jättäminen selvästi ja otoksen ulkopuolisen validoinnin puuttuminen.

"Uuden, potentiaalisesti hengenpelastavan diagnostiikan käyttämisen halun ja välttämättömyyden kehittää korkealaatuista näyttöä tavalla, josta voi olla hyötyä potilaille ja terveydenhuoltojärjestelmille kliinisessä käytännössä, on luontainen jännite", kommentoi ensimmäinen kirjoittaja tri Xiaoxuan Liu Birminghamin yliopisto.

”Keskeinen oppitunti työstämme on, että tekoälyssä - kuten muissakin terveydenhuollon osissa - on hyvä opintosuunnittelu. Ilman sitä voit helposti ottaa esiin ennakkoluuloja, jotka vääristävät tuloksia. Nämä ennakkoluulot voivat johtaa liioiteltuihin väitteisiin tekoälytyökalujen hyvästä suorituskyvystä, jotka eivät johda todelliseen maailmaan. "
Tohtori Xiaoxuan Liu

"Todisteet siitä, kuinka tekoälyalgoritmit muuttavat potilaan tuloksia, on saatava vertailusta satunnaistettujen kontrolloitujen kokeiden vaihtoehtoisten diagnostisten testien kanssa", lisää kirjoittaja Dr. Livia Faes Moorfieldsin silmäsairaalasta Lontoosta, Iso-Britannia.

"Toistaiseksi ei ole juurikaan sellaisia kokeita, joissa tekoälyalgoritmin tekemät diagnostiset päätökset toteutettaisiin nähdäkseen, mitä tapahtuu potilaille todella tärkeillä tuloksilla, kuten oikea-aikainen hoito, aika sairaalasta poistumiseen tai jopa eloonjäämisaste."

none: psykologia - psykiatria endometrioosi verisuoni