Paris_8 LIASD

 Projets

 CLexIC (Création LEXique Innovation Crowdfunding)

L’écosystème du crowdfunding[1] présente un intérêt particulier de par la multitude des projets proposés et le financement participatif des ‘foules’[2]. Les descriptifs des activités et projets proposés sur les plateformes de crowdfunding sont différents des descriptions des produits et des services sur les sites des entreprises. Dans le cadre du projet CLexIC, nous voulons identifier et analyser les termes qui désignent l’innovation non technologique ainsi que le contexte dans lequel ces termes sont employés. Les nouveaux termes seront comparés aux termes déjà désignés par experts et par apprentissage sur corpus, composé des descriptions web des entreprises ainsi que leurs bilans annuels.

Le projet CLexIC est divisé en plusieurs parties :

  1. Constitution du nouveau corpus : extraction des descriptions des projets proposés sur les plateformes du crowdfunding pour construire un corpus homogène sans bruit (composé uniquement de données textuelles). Ce corpus, après la phase de préparation de données, servira de dataset pour la phase d’apprentissage. Le groupe GLAÇON, (partie de l'équipe PASTIS du LIASD), qui travaille sur le langage naturel, a déjà développé des outils de crawling et scraping. Ils seront adaptés aux architectures des sites des plateformes crowdfunding.
  2. Préparation (annotation) de données : annotation des termes désignant l’innovation non technologique basée sur un transfert d'apprentissage par un corpus existant. Les différent types de parseurs (analyseurs textuels) potentiellement nécessaires pour une analyse préalable sont également développés par le groupe GLAÇON et ils seront proposés pour adaptation aux besoins du corpus. L'apprentissage par transfert fera partie d'une annotation automatique et qui sera complétée par une annotation basée sur un lexique spécialisé.
  3. Création du dataset : Pour la partie apprentissage le dataset ‘crowdfunding’ servira pour l'entraînement et pour les tests. Nous utiliserons 70 % du dataset pour l'entraînement et 30 % pour le test. Une cross-validation sera effectuée pour la validation des résultats.
  4. Apprentissage profond : les réseaux de neurones artificiels utilisés depuis longtemps pour imiter les réseaux de neurones biologiques, ont pris un élan considérable avec les réseaux profonds[3] pour l'apprentissage des modèles liés à l'analyse textuelle comme l'annotation et la classification. L’architecture mêle des couches de neurones classiques et des couches de convolution, permettant de projeter les mots dans un espace sémantique continu : Les réseaux convolutionnels (ConvNets)[4] pour leur capacité d'extraction des collocations de voisinage, et les réseaux récurrents (RNNs)[5] pour leur capacité à extraire des dépendances longues distances. Les mots sont représentés par des vecteurs à haute dimension et c’est le modèle qui extrait les caractéristiques utiles à son apprentissage. Nous nous inspirons du modèle BERT[6] pour faire une version de détection des caractéristiques lexicales portant sur l’innovation non technologique.

Bibliographie

  1. Assadi Djamchid, « Crowdfunding : vers de nouveaux paradigmes de l’innovation ? », (2018), Innovations, 2018/2 (N° 56), p. 5-14. https://www.cairn.info/revue-innovations-2018-2-page-5.html.
  2. Rapport final de recherche TAPAS (mars 2022) : https://dares.travail-emploi.gouv.fr/sites/default/files/2a66dd5dcc5acde55c9d3b986b816c2e/Rapport_TAPAS.pdf.
  3. Alexandre Allauzen , Hinrich Schütze, « Apprentissage profond pour le traitement automatique des langues », (2019), TAL, volume 59 – n◦2/2019, pages 7 à 14. https://aclanthology.org/2018.tal-2.1.pdf.
  4. Wei Li, Luyao Zhu, Yong Shi, Kun Guo, Erik Cambria, « User reviews: Sentiment analysis using lexicon integrated two-channel CNN–LSTM​ family models », (2020), Applied Soft Computing, Volume 94, 2020, https://doi.org/10.1016/j.asoc.2020.106435.
  5. Pengfei Liu, Xipeng Qiu, Xuanjing Huang, « Recurrent Neural Network for Text Classification with Multi-Task Learning », (2016), Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI-16), https://www.ijcai.org/Proceedings/16/Papers/408.pdf.
  6. Anna Koufakou, Endang Wahyu Pamungkas, Valerio Basile, and Viviana Patti, «  HurtBERT: Incorporating Lexical Features with BERT for the Detection of Abusive Language » (2020), In Proceedings of the Fourth Workshop on Online Abuse and Harms, Association for Computational Linguistics, pages 34–43. https://aclanthology.org/2020.alw-1.5.pdf.

 GENANT (GENres textuels et ANnotation d'entiTés nommées)