Projet d'EA, effectué par Dan Berribbi et Tom Sander sous la supervision du Professeur Francois Yvon
- github de Facebook MUSE
- embeddings monolingues de FastText (Facebook)
- Dataset Europarl
- Dictionnaires et Embeddings produits par Mikel Artetxe
- Une implémentation possible de l'algorithme de Sinkhorn
Nous avons utlisé l'imentation Gensim de Word2Vec (SkipGram) pour obtenir les vecteurs des mots présents dans le corpus parallèle d'Europarl. Nous avons fait cela dans le fichier skipgram.py, puis comparons les vecteurs obtenus en français avec ceux de FastText. Cette comparaison est faite dans le fichier analyse_skipgrams_embeddings_europarl.py.
Nous avons repris l'idée de Faruqui et Dyer et avons utilisé une CCA pour projeter les mots et leur traduction dans un espace commun. L'implémentation de cette méthode est dans le fichier CCA.py.
La première étape a été l'analyse du corpus parallèle Europarl. Le fichier extraction_freq_europarl.py réalise l'extraction des fréquences de tous les mots présents dans Europarl. Nous avons exporté ces fréquences en format pkl dans les fichiers frequences_en.pkl et frequences_fr.pkl.
Les fichiers nécessaires à la suite du code sont dans le dossier travail_sur_les_frequences.
-
fichier Sinkhorn_On_Europarl.py : pour la génération de la matrice de transport à partir du corpus Europarl total (pas faisable sur nos ordinateurs et sur ceux de l'Ecole)
-
fichier Sinkhorn_On_Batch_Europarl.py : génération d'un plan de transport sur un batch, avec les deux méthodes : utilisation des fréquences réalistes et utilisation des fréquences uniformes. Les résultats pour un batch sont dans le fichier dumped_trad_unif_seuil95.json pour les fréquences uniformes et dans le fichier dumped_trad_freq_seuil95.json pour les fréquences réalistes.
On peut obtenir la courbe suivante :

- Enfin les fichiers evaluate_one_batch.py, evaluation_diff_freq.py, et evaluation_diff_freq_population.py permettent d'otbenir les résultats présentés dans la partie 6 du rapport.

