Цифровизация здравоохранения требует высокую безопасность управления клиническими данными, сохраняя при этом конфиденциальность пациентов.

Gazeta.SPb сообщает, что в новом исследовании рассматриваются возможности моделей GPT-3.5 и GPT-4 для обезличивания записей и генерации синтетических данных с использованием API и авторских подсказок для оптимизации вычислительной эффективности.

Клинические записи содержат важную информацию для медицинских исследований, включая демографические данные, историю болезни и планы лечения. Благодаря способности имитировать тексты, модели GPT-3.5 и GPT-4 могут эффективно создавать синтетические клинические заметки.

Исследователи проверили, насколько хорошо данные модели могут выявлять и обезличивать данные в рамках защиты личной информации в клинических записях. Работа велась с данными, которые были получены из электронной медицинской карты (EHR) Онкологического центра имени короля Хусейна (KHCC), которые были обработаны с использованием контекстного обучения.

Эффективность моделей оценивалась по показателям точности, отзыва, оценки F1 и аккуратности. Ручные и автоматические проверки гарантировали сохранение лингвистического качества и клинической полезности заметок.

Результаты исследования показали, что GPT-4 значительно превосходит GPT-3.5, достигнув точности 0,9925, полноты 0,8318 и точности 0,9911. Результаты свидетельствуют о потенциале GPT-4 как инструмента для защиты конфиденциальности пациентов и повышения доступности клинических данных для исследований. Эта работа устанавливает ориентиры для поиска баланса между полезностью данных и сохранением конфиденциальности в сфере медицинского управления данных.

Ранее телеканал «Санкт-Петербург» сообщал, что ИИ научился диагностировать болезни по цвету языка.