Le 1er dataset francophone de Question Answering

FQuAD

Après plusieurs mois de R&D, ILLUIN Technology publie FQuAD, le premier jeu de données francophone de questions-réponses

IA
NLP

FQuAD, le 1er dataset francophone de Question Answering

Le Question Answering est une tâche de NLP qui consiste à trouver la réponse à une question précise au sein d’un corpus de documents. Face au manque de ressources francophones dans le domaine, ILLUIN Technology a construit le premier modèle francophone de Question Answering. FQuAD contient plus de 25 000 questions/réponses, issues de plusieurs milliers de paragraphes de Wikipédia.

À partir des modèles de langage publiés par le laboratoire français du FAIR (Facebook AI Research français), un modèle de Question Answering a été construit et entraîné sur ce jeu de données. Les travaux d’ILLUIN Technology constituent désormais l’état de l’art dans le domaine avec près de 88% de bonnes réponses (F1).

Des perspectives majeures pour tous les secteurs

Industrie, Santé, Environnement, Education, Légal, Banque, … Tous les secteurs sont concernés !

Recherche d’une information précise

Le Question Answering permet d’extraire des informations précises à partir de large corpus documentaires. Plus besoin d’éplucher des centaines de ressources internes, les modèles d’IA vous renvoient directement la réponse à la question que vous vous posez !

Remplissage automatique de formulaire

Vous devez renseigner des informations spécifiques de vos clients suite à un échange en agence, au téléphone ou par écrit ? Le Question Answering est très adapté !

Nouvelles perspectives pour l’usage de la voix

Vous pourrez accéder à un vaste ensemble de base de connaissance en utilisant des interfaces digitales innovantes comme la voix : les médecins pourront accéder très facilement à des informations sur leurs patients ou des médicaments ; les agents sur le terrain auront accès aux procédures à suivre en fonction des situations qu’ils rencontrent ; et bien d’autres cas d’usages !

Démo

Vous avez une question à poser à notre modèle ? C’est par ici !

Le jeu de données FQuAD

Les datasets d’entraînement et de validation sont disponibles depuis le 14 février 2020 sous la licence CC BY-NC-SA 3.0.

Vue d’ensemble

FQuAD a été divisé en 3 (entraînement, validation, test) à partir de plus de 150 articles Wikipédia.

• Jeu de données d’entraînement : 20731 questions/réponses

• Jeu de données de validation : 3188 questions/réponses

• Jeu de données de test : 2189 questions/réponses

Exemple de couple questions/réponses du dataset

Contexte
Issu de l’article Wikipédia Cérés
Des observations de 2015 par la sonde Dawn ont confirmé qu’elle possède une forme sphérique, à la différence des corps plus petits qui ont une forme irrégulière. Sa surface est probablement composée d’un mélange de glace d’eau et de divers minéraux hydratés (notamment des carbonates et de l’argile), et de la matière organique a été décelée. Il semble que Cérès possède un noyau rocheux et un manteau de glace. Elle pourrait héberger un océan d’eau liquide, ce qui en fait une piste pour la recherche de vie extraterrestre. Cérès est entourée d’une atmosphère ténue contenant de la vapeur d’eau, dont deux geysers, ce qui a été confirmé le 22 janvier 2014 par l’observatoire spatial Herschel de l’Agence spatiale européenne.




Question
A quand remonte les observations faites par la sonde Dawn ?
Réponse
2015

Question
Qu’ont montré les observations faites en 2015 ?
Réponse
elle possède une forme sphérique, à la différence des corps plus petits qui ont une forme irrégulière

Question
Quelle caractéristique possède Cérès qui rendrait la vie extraterrestre possible ?
Réponse
un océan d’eau liquide

Publication scientifique

FQuAD: French Question Answering Dataset
14 février 2020
Martin d’Hoffschmidt, Maxime Vidal, Wacim Belblidia, Tom Brendlé

Nous vous présentons FQuAD, un ensemble de données de Question Answering en langue française. FQuAD contient plus de 25 000 paires de questions et réponses. CamemBERT finetuné sur FQuAD donne un F1 score de 88% et une correspondance exacte de 77,9%.

https://arxiv.org/pdf/2002.06071.pdf

Exemple de résultats du modèle entraîné

Contexte

Issu du Rapport spécial du GIEC sur le réchauffement planétaire de 1,5 °C

Le réchauffement planétaire atteindra les 1,5 °C entre 2030 et 2052 si la température continue d’augmenter à ce rythme. Le RS15 (rapport spécial sur le réchauffement climatique de 1,5 °C) résume, d’une part, les recherches existantes sur l’impact qu’un réchauffement de 1,5 °C aurait sur la planète et, d’autre part, les mesures nécessaires pour limiter ce réchauffement planétaire.

Même en supposant la mise en œuvre intégrale des mesures déterminées au niveau national soumises par les pays dans le cadre de l’Accord de Paris, les émissions nettes augmenteraient par rapport à 2010, entraînant un réchauffement d’environ 3 °C d’ici 2100, et davantage par la suite. En revanche, pour limiter le réchauffement au-dessous ou proche de 1,5 °C, il faudrait diminuer les émissions nettes d’environ 45 % d’ici 2030 et atteindre 0 % en 2050. Même pour limiter le réchauffement climatique à moins de 2 °C, les émissions de CO2 devraient diminuer de 25 % d’ici 2030 et de 100 % d’ici 2075.

Les scénarios qui permettraient une telle réduction d’ici 2050 ne permettraient de produire qu’environ 8 % de l’électricité mondiale par le gaz et 0 à 2 % par le charbon (à compenser par le captage et le stockage du dioxyde de carbone). Dans ces filières, les énergies renouvelables devraient fournir 70 à 85 % de l’électricité en 2050 et la part de l’énergie nucléaire est modélisée pour augmenter. Il suppose également que d’autres mesures soient prises simultanément : par exemple, les émissions autres que le CO2 (comme le méthane, le noir de carbone, le protoxyde d’azote) doivent être réduites de manière similaire, la demande énergétique reste inchangée, voire réduite de 30 % ou compensée par des méthodes sans précédentes d’élimination du dioxyde de carbone à mettre au point, tandis que de nouvelles politiques et recherches permettent d’améliorer l’efficacité de l’agriculture et de l’industrie.

Réponses trouvées par le modèle

Question
Quand risquons nous d’atteindre un réchauffement à 1.5 degrés?
Réponse
entre 2030 et 2052

Question
Quels sont les gaz à effet de serre autres que le CO2?
Réponse
méthane, le noir de carbone, le protoxyde d’azote)

Question
Quelles recherches sont résumées dans ce rapport ?
Réponse
les recherches existantes sur l’impact qu’un réchauffement de 1,5 °C aurait sur la planète

Question
Comment améliorer l’efficacité de l’industrie ?
Réponse
de nouvelles politiques et recherches



Question
Quelles sont les conséquences d’un scénario limitant le réchauffement à 1,5 degrés ?
Réponse
diminuer les émissions nettes d’environ 45 % d’ici 2030 et atteindre 0 % en 2050.

Question
Quelle part d’énergie doit être fournie par le renouvelable pour respecter l’accord ?
Réponse
70 à 85 %

Question
Quelle source d’énergie sera limitée à une production de 8 % si les émissions maximales sont respectées ?
Réponse
gaz