Федеральные (общероссийские) датасеты, которые будут сформированы экспертами Центра диагностики и телемедицины, необходимы для проведения объективной проверки сервисов для лучевой диагностики на основе технологий искусственного интеллекта. В начале проекта будут собраны компьютерные томограммы и рентгенограммы пациентов с признаками коронавирусной инфекции (Covid-19) из разных регионов Российской Федерации
Эксперты Центра диагностики и телемедицины приступили к формированию уникальной общероссийской базы данных снимков лучевой диагностики. Сбор данных осуществляется в рамках масштабной программы по развитию технологий искусственного интеллекта в медицине, частью которой является московский эксперимент по компьютерному зрению в лучевой диагностике. Фактически будут сформированы эталонные датасеты, с помощью которых специалисты здравоохранения смогут оценивать корректность и точность работы сервисов искусственного интеллекта по выявлению патологий в исследуемых областях.
«Во всем мире создаются тысячи медицинских сервисов искусственного интеллекта. Перед запуском необходимо протестировать их работу, то есть проверить, насколько они адаптированы для практического здравоохранения. Им нужна "песочница" — это цифровое пространство или база данных, на которых будут испытаны новые технологии, — пояснил главный специалист по лучевой и инструментальной диагностике Департамента здравоохранения города Москвы, директор Центра диагностики и телемедицины, д.м.н. Сергей Морозов. — Как показывает практика, новые сервисы искусственного интеллекта анализируют изображения правильно на 70–80 %. С помощью датасета можно понять, преодолевает ли требуемый порог качества сервис, чтобы быть полезным и востребованным врачами, готов ли к практическому внедрению в медицинских организациях».
К участию в формировании федерального датасета приглашаются врачи-рентгенологи со всей России. Платформа для загрузки данных имеет простую и понятную структуру. На сайте проекта Covid-19 (https://hub.tele-med.ai/dataset/) врачам нужно ознакомиться с условиями использования платформы. В опросный лист — внести информацию о статусе ПЦР-теста пациента (положительный или отрицательный), описать клиническую картину при проведении диагностики, заполнить информацию для обратной связи и загрузить обезличенное медицинское изображение.
«Сейчас приступаем к подготовке репрезентативного медицинского датасета пациентов с признаками Covid-19. Таким образом, будет сформирован всероссийский эталонный датасет, в котором будут представлены не только медицинские изображения лучевых исследований пациентов с признаками коронавирусной инфекции, но и сопровождающая клиническая информация. Последнее необходимо для повышения точности постановки дифференциального диагноза и прогнозирования течения заболевания системами искусственного интеллекта, — отметила руководитель сектора медицинской информации, радиомики и радиогеномики Центра диагностики и телемедицины, к.ф.-м.н. Анна Андрейченко. — В дальнейшем направление по сбору датасетов может быть расширено, и начнется объединение медицинских изображений пациентов с диагностированными злокачественными образованиями в том числе в головном мозге, молочных железах, предстательной железе, легких и других органах. Общей целью создания данных датасетов является тестирование и повышение точности систем на основе искусственного интеллекта по выявлению и характеризации данных социально-значимых заболеваний».
Процесс подготовки датасета является трудоемким и кропотливым, а качество итогового продукта будет определять его способность к объективной оценке тестируемого на его основе сервиса искусственного интеллекта.
«Для каждого элемента базы данных будет проводиться классификация по группам "компьютерная томограмма" и "рентгенограмма", по наличию или отсутствию информации о клинической картине, результатов анализа, по техническим характеристикам томографов, например толщине срезов и размерам матрицы, — объяснил Николай Павлов, руководитель проекта в секторе медицинской информации, радиомики и радиогеномики Центра диагностики и телемедицины. —В итоговый датасет войдут исследования КТ со срезами толщиной не более 1 мм, так как необходимо создать унифицированный набор данных. Но более точные характеристики датасета будут известны после обработки всех полученных данных».
Обязательным условием предоставления данных является их полная и безвозвратная деперсонализация (обезличивание), то есть полное исключение каких-либо персональных сведений о пациенте. Обезличивание медицинских изображений может проводиться с помощью встроенного программного обеспечения в аппараты КТ и РГ. Обычно такая опция используется для передачи данных в другие медицинские центры. Существуют также и специальные программы — просмотрщики медицинских изображений с функцией удаления персональных данных. Рентгенологи тоже их используют в работе. Кроме того, со всеми специалистами, кто загружает данные, эксперты держат обратную связь, при необходимости инструктируют и разъясняют методику загрузки данных.
Напомним, что в пандемию исследователи Центра диагностики и телемедицины Департамента здравоохранения города Москвы собрали самую большую в мире базу данных (https://mosgorzdrav.ru/ru-RU/news/default/card/4030.html) пациентов с признаками коронавирусной пневмонии. Датасет кропотливо нарабатывался — из тысячи медицинских изображений производилась выборка по определенным критериям для систем искусственного интеллекта и выполнялась разметка — к снимкам прикреплялась определенная техническая информация. База собиралась в сжатые сроки, что было вызвано необходимостью автоматизации процесса распознавания патологических изменений в легких при коронавирусной инфекции. На основе датасета, представленного в открытом доступе (https://mosmed.ai/), разработчики всего мира могли «дообучать» и тестировать алгоритмы своих сервисов. С начала пандемии его скачали более 500 российских и зарубежных разработчиков и программистов. Центр диагностики и телемедицины принял участие в борьбе с Covid-19 в мировом масштабе в сфере искусственного интеллекта.