@inproceedings{menad-2023-ir,
title = "{IR}-{S}en{T}rans{B}io: Mod{\`e}les Neuronaux Siamois pour la Recherche d{'}Information Biom{\'e}dicale",
author = "Menad, Safaa",
editor = "Candito, Marie and
Gerald, Thomas and
Moreno, Jos{\'e} G",
booktitle = "Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL)",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-rjc.9",
pages = "131--142",
abstract = "L{'}entra{\^\i}nement de mod{\`e}les transformeurs de langages sur des donn{\'e}es biom{\'e}dicales a permis d{'}obtenir des r{\'e}sultats prometteurs. Cependant, ces mod{\`e}les de langage n{\'e}cessitent pour chaque t{\^a}che un affinement (fine-tuning) sur des donn{\'e}es supervis{\'e}es tr{\`e}s sp{\'e}cifiques qui sont peu disponibles dans le domaine biom{\'e}dical. Dans le cadre de la classification d{'}articles scientifiques et les r{\'e}ponses aux questions biom{\'e}dicales, nous proposons d{'}utiliser de nouveaux mod{\`e}les neuronaux siamois (sentence transformers) qui plongent des textes {\`a} comparer dans un espace vectoriel. Nos mod{\`e}les optimisent une fonction objectif d{'}apprentissage contrastif auto-supervis{\'e} sur des articles issus de la base de donn{\'e}es bibliographique MEDLINE associ{\'e}s {\`a} leurs mots-cl{\'e}s MeSH (Medical Subject Headings). Les r{\'e}sultats obtenus sur plusieurs benchmarks montrent que les mod{\`e}les propos{\'e}s permettent de r{\'e}soudre ces t{\^a}ches sans exemples (zero-shot) et sont comparables {\`a} des mod{\`e}les transformeurs biom{\'e}dicaux affin{\'e}s sur des donn{\'e}es supervis{\'e}s sp{\'e}cifiques aux probl{\`e}mes trait{\'e}s. De plus, nous exploitons nos mod{\`e}les dans la t{\^a}che de la recherche d{'}information biom{\'e}dicale. Nous montrons que la combinaison de la m{\'e}thode BM25 et de nos mod{\`e}les permet d{'}obtenir des am{\'e}liorations suppl{\'e}mentaires dans ce cadre.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="menad-2023-ir">
<titleInfo>
<title>IR-SenTransBio: Modèles Neuronaux Siamois pour la Recherche d’Information Biomédicale</title>
</titleInfo>
<name type="personal">
<namePart type="given">Safaa</namePart>
<namePart type="family">Menad</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Marie</namePart>
<namePart type="family">Candito</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">Gerald</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">José</namePart>
<namePart type="given">G</namePart>
<namePart type="family">Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’entraînement de modèles transformeurs de langages sur des données biomédicales a permis d’obtenir des résultats prometteurs. Cependant, ces modèles de langage nécessitent pour chaque tâche un affinement (fine-tuning) sur des données supervisées très spécifiques qui sont peu disponibles dans le domaine biomédical. Dans le cadre de la classification d’articles scientifiques et les réponses aux questions biomédicales, nous proposons d’utiliser de nouveaux modèles neuronaux siamois (sentence transformers) qui plongent des textes à comparer dans un espace vectoriel. Nos modèles optimisent une fonction objectif d’apprentissage contrastif auto-supervisé sur des articles issus de la base de données bibliographique MEDLINE associés à leurs mots-clés MeSH (Medical Subject Headings). Les résultats obtenus sur plusieurs benchmarks montrent que les modèles proposés permettent de résoudre ces tâches sans exemples (zero-shot) et sont comparables à des modèles transformeurs biomédicaux affinés sur des données supervisés spécifiques aux problèmes traités. De plus, nous exploitons nos modèles dans la tâche de la recherche d’information biomédicale. Nous montrons que la combinaison de la méthode BM25 et de nos modèles permet d’obtenir des améliorations supplémentaires dans ce cadre.</abstract>
<identifier type="citekey">menad-2023-ir</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-rjc.9</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>131</start>
<end>142</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T IR-SenTransBio: Modèles Neuronaux Siamois pour la Recherche d’Information Biomédicale
%A Menad, Safaa
%Y Candito, Marie
%Y Gerald, Thomas
%Y Moreno, José G.
%S Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL)
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F menad-2023-ir
%X L’entraînement de modèles transformeurs de langages sur des données biomédicales a permis d’obtenir des résultats prometteurs. Cependant, ces modèles de langage nécessitent pour chaque tâche un affinement (fine-tuning) sur des données supervisées très spécifiques qui sont peu disponibles dans le domaine biomédical. Dans le cadre de la classification d’articles scientifiques et les réponses aux questions biomédicales, nous proposons d’utiliser de nouveaux modèles neuronaux siamois (sentence transformers) qui plongent des textes à comparer dans un espace vectoriel. Nos modèles optimisent une fonction objectif d’apprentissage contrastif auto-supervisé sur des articles issus de la base de données bibliographique MEDLINE associés à leurs mots-clés MeSH (Medical Subject Headings). Les résultats obtenus sur plusieurs benchmarks montrent que les modèles proposés permettent de résoudre ces tâches sans exemples (zero-shot) et sont comparables à des modèles transformeurs biomédicaux affinés sur des données supervisés spécifiques aux problèmes traités. De plus, nous exploitons nos modèles dans la tâche de la recherche d’information biomédicale. Nous montrons que la combinaison de la méthode BM25 et de nos modèles permet d’obtenir des améliorations supplémentaires dans ce cadre.
%U https://aclanthology.org/2023.jeptalnrecital-rjc.9
%P 131-142
Markdown (Informal)
[IR-SenTransBio: Modèles Neuronaux Siamois pour la Recherche d’Information Biomédicale](https://aclanthology.org/2023.jeptalnrecital-rjc.9) (Menad, JEP/TALN/RECITAL 2023)
ACL