Thesis Project Form
Title (tentative): Progettazione, definizione e verifica di una pipeline di pre-elaborazione di note cliniche in italianoThesis advisor(s): Giacomini Mauro, Sara Mora, Daniele Roberto Giacobbe | E-mail: |
Address: Via Opera Pia 13 | Phone: (+39) 010 33 56546 |
Description
Motivation and application domain
Questa tesi si concentra sulla gestione di dati prodotti in contesti medici. In questo ambito, spesso una buona parte di informazione è espressa usando il linguaggio naturale in varie tipologie di documentazione, come in referti, note e report di laboratorio. Il corretto ed efficiente utilizzo di queste informazioni è ritenuto fondamentale per moltissimi compiti in ambito di assistenza sanitaria. È necessario sviluppare un algoritmo in grado di comprendere e gestire in maniera automatica le grandi moli di dati testuali prodotte, al fine di estrarre informazioni e manipolare correttamente il testo, senza la necessità della supervisione da parte di personale. In particolare, la necessità di concentrarsi sul linguaggio medico/tecnico italiano è dovuta al fatto che la ricerca in questo ambito si è concentrata principalmente sulla lingua inglese.
General objectives and main activities
Lo scopo della tesi è quello di progettare e sviluppare presso la clinica di malattie infettive e tropicali
dell’IRCCS Policlinico San Martino un algoritmo di elaborazione di dati testuali raccolti nell’ambito degli studi multicentrici del progetto MULTI-SITA. Il progetto si divide in:
- ricerca riguardante gli strumenti più recenti disponibili al fine di processare il linguaggio naturale in lingua italiana, con particolare focus posto sull’implementazione, l’utilizzo e il fine-tuning dei modelli Transformers di Hugging face (in particolare BERT e BART);
- sviluppo di una pipeline completa, ovvero un algoritmo in grado di gestire e comprendere correttamente dati testuali, quali report su pazienti presso il reparto di malattie infettive e tropicali, contenenti refusi e termini peculiari;
- verifica della congruità e correzione delle criticità dell’algoritmo sviluppato, in modo di individuare criticità in ognuno degli step selezionati per comporre la pipeline dello sviluppo e quindi proporre elementi di miglioramento del modello.
dell’IRCCS Policlinico San Martino un algoritmo di elaborazione di dati testuali raccolti nell’ambito degli studi multicentrici del progetto MULTI-SITA. Il progetto si divide in:
- ricerca riguardante gli strumenti più recenti disponibili al fine di processare il linguaggio naturale in lingua italiana, con particolare focus posto sull’implementazione, l’utilizzo e il fine-tuning dei modelli Transformers di Hugging face (in particolare BERT e BART);
- sviluppo di una pipeline completa, ovvero un algoritmo in grado di gestire e comprendere correttamente dati testuali, quali report su pazienti presso il reparto di malattie infettive e tropicali, contenenti refusi e termini peculiari;
- verifica della congruità e correzione delle criticità dell’algoritmo sviluppato, in modo di individuare criticità in ognuno degli step selezionati per comporre la pipeline dello sviluppo e quindi proporre elementi di miglioramento del modello.
Training Objectives (technical/analytical tools, experimental methodologies)
Nel corso della tesi, lo studente utilizzerà e apprenderà le seguenti competenze:
- Progettazione e sviluppo in linguaggio Python (ambiente Anaconda Navigator)
- Strumenti di modifica e di interrogazione di database (Microsoft SQL Server)
- Utilizzo di algoritmi di machine learning quali gli ultimi modelli Transformers
- Uso di standard e vocabolari medici standardizzati
- Progettazione e sviluppo in linguaggio Python (ambiente Anaconda Navigator)
- Strumenti di modifica e di interrogazione di database (Microsoft SQL Server)
- Utilizzo di algoritmi di machine learning quali gli ultimi modelli Transformers
- Uso di standard e vocabolari medici standardizzati
Place(s) where the thesis work will be carried out: DIBRIS, IRCCS Policlinico San Martino
Additional information
Maximum number of students: 1