Thesis Project Form
Title (tentative): Progettazione, sviluppo e test di un sistema preliminare di de-identificazione volto ad anonimizzare reports clinici.Thesis advisor(s): Giacomini Mauro, Sara Mora | E-mail: |
Address: Via Opera Pia 13 | Phone: (+39) 010 33 56546 |
Description
Motivation and application domain
Nello scenario dei sistemi di cartelle cliniche e dei fascicoli sanitari elettronici, gli sforzi svolti negli ultimi decenni hanno avuto come obiettivo la raccolta di dati strutturati, come ad esempio i risultati degli esami di laboratorio, per la conduzione di studi clinici. Successivamente si è notato che una grande parte potenzialmente utile delle informazioni è però disponibile solo sotto forma di testo libero. Da ciò è nata l’esigenza di sviluppare sistemi in grado di analizzare il “linguaggio naturale” così da ottenere in forma automatica e strutturata quelle informazioni che generalmente si trovano sotto forma non strutturata. Un prerequisito fondamentale per l’uso di questi testi in ambito di ricerca clinica è la loro anonimizzazione.
General objectives and main activities
La tesi si inserisce all’interno di un progetto più ampio con l’obiettivo primario di sviluppare un sistema che estragga automaticamente informazioni cliniche rilevanti da referti medici redatti in italiano, con testo libero, attraverso l’applicazione di algoritmi di analisi del linguaggio naturale. Il workflow delle attività necessarie alla progettazione e sviluppo di un sistema preliminare di de-identificazione consisterà in:
• Suddivisione della frase in token
• Identificazione delle possibili Private Health Information (PHI), che possono appartenere a diverse categorie: nomi e cognomi, date e luoghi di nascita, ID, nome dell’ospedale o del medico di riferimento, numeri di telefono, ...
• Costruzione di un database di appoggio da cui estrarre elementi casuali con cui sostituire i dati personali identificati
• Sostituzione dei dati personali con dati casuali
• Test del sistema sviluppato
• Suddivisione della frase in token
• Identificazione delle possibili Private Health Information (PHI), che possono appartenere a diverse categorie: nomi e cognomi, date e luoghi di nascita, ID, nome dell’ospedale o del medico di riferimento, numeri di telefono, ...
• Costruzione di un database di appoggio da cui estrarre elementi casuali con cui sostituire i dati personali identificati
• Sostituzione dei dati personali con dati casuali
• Test del sistema sviluppato
Training Objectives (technical/analytical tools, experimental methodologies)
Nel corso della tesi proposta, lo studente apprenderà e utilizzerà le seguenti competenze:
• Strumenti di modifica e interrogazione di database (SQL)
• Linguaggiodi programmazione Python
• Introduzione alle tecniche di Natural Language Processing
• Approfondimento di approcci Ruled-Based
• Accenni di Machine Learning
• Strumenti di modifica e interrogazione di database (SQL)
• Linguaggiodi programmazione Python
• Introduzione alle tecniche di Natural Language Processing
• Approfondimento di approcci Ruled-Based
• Accenni di Machine Learning
Place(s) where the thesis work will be carried out: Laboratorio di Bioingegneria - DIBRIS
Additional information
Maximum number of students: 1