A Multi-pass Sieve for Clinical Concept Normalization

Yuxia Wang*, Brian Hur*, Karin Verspoor* and Timothy Baldwin*
*School of Computing and Information Systems – The University of Melbourne – Melbourne, Australia
Résumé
La normalisation des concepts cliniques consiste à relier les mentions d’entités dans les récits cliniques à leurs concepts correspondants dans des terminologies médicales normalisées. Il peut étre utilisé pour déterminer la signification spécifique d’une mention, faciliter l’utilisation et l’échange efficaces d’informations cliniques et soutenir la compatibilité sémantique des textes. Nous présentons une approche de tamisage multi-passes intégrant deux types de correspondance – exacte et approximative – basée sur des dictionnaires construits avec UMLS Metathesaurus et le corpus MCN, et expérimentons la rétro-traduction comme moyen d’augmenter les données. De plus, nous preparons une méthode de référence multi-classes basée sur BERT. Notre méthode de tamisage multi-passes atteint une précision de 82,0% sur le corpus MCN, la plus élevée de toutes les méthodes fondée sur des règles. Notre méthode hybride réalise une précision légèrement supérieure de 82,3%.
Résumé (en anglais)
Clinical concept normalization involves linking entity mentions in clinical narratives to their corresponding concepts in standardized medical terminologies. It can be used to determine the specific meaning of a mention, facilitating effective use and exchange of clinical information, and to support semantic cross-compatibility of texts. We present a rule-based multi- pass sieve approach incorporating both exact and approximate matching based on dictionaries, and experiment with back-translation as a means of data augmentation. The dictionaries are built from the UMLS Metathesaurus as well as MCN corpus training data. Additionally, we train a multi-class baseline based on BERT. Our multi-pass sieve approach achieves an accuracy of 82.0% on the MCN corpus, the highest for any rule-based method. A hybrid method combining these two achieves a slightly higher accuracy of 82.3%.