Skip to content

DanBerrebbi/EA_NLP

Repository files navigation

EA_NLP

Projet d'EA, effectué par Dan Berribbi et Tom Sander sous la supervision du Professeur Francois Yvon

Liens utiles :

  1. github de Facebook MUSE
  2. embeddings monolingues de FastText (Facebook)
  3. Dataset Europarl
  4. Dictionnaires et Embeddings produits par Mikel Artetxe
  5. Une implémentation possible de l'algorithme de Sinkhorn

Premières implémentations :

SkipGram :

Nous avons utlisé l'imentation Gensim de Word2Vec (SkipGram) pour obtenir les vecteurs des mots présents dans le corpus parallèle d'Europarl. Nous avons fait cela dans le fichier skipgram.py, puis comparons les vecteurs obtenus en français avec ceux de FastText. Cette comparaison est faite dans le fichier analyse_skipgrams_embeddings_europarl.py.

alt text

CCA :

Nous avons repris l'idée de Faruqui et Dyer et avons utilisé une CCA pour projeter les mots et leur traduction dans un espace commun. L'implémentation de cette méthode est dans le fichier CCA.py.

alt text

Travail sur les fréquences

La première étape a été l'analyse du corpus parallèle Europarl. Le fichier extraction_freq_europarl.py réalise l'extraction des fréquences de tous les mots présents dans Europarl. Nous avons exporté ces fréquences en format pkl dans les fichiers frequences_en.pkl et frequences_fr.pkl.

Les fichiers nécessaires à la suite du code sont dans le dossier travail_sur_les_frequences.

  1. fichier Sinkhorn_On_Europarl.py : pour la génération de la matrice de transport à partir du corpus Europarl total (pas faisable sur nos ordinateurs et sur ceux de l'Ecole)

  2. fichier Sinkhorn_On_Batch_Europarl.py : génération d'un plan de transport sur un batch, avec les deux méthodes : utilisation des fréquences réalistes et utilisation des fréquences uniformes. Les résultats pour un batch sont dans le fichier dumped_trad_unif_seuil95.json pour les fréquences uniformes et dans le fichier dumped_trad_freq_seuil95.json pour les fréquences réalistes.

On peut obtenir la courbe suivante : alt text

  1. Enfin les fichiers evaluate_one_batch.py, evaluation_diff_freq.py, et evaluation_diff_freq_population.py permettent d'otbenir les résultats présentés dans la partie 6 du rapport.

About

Projet d'EA sous la supervision de Mr. Francois Yvon

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages