EA_NLP

Projet d'EA, effectué par Dan Berribbi et Tom Sander sous la supervision du Professeur Francois Yvon

Liens utiles :

github de Facebook MUSE
embeddings monolingues de FastText (Facebook)
Dataset Europarl
Dictionnaires et Embeddings produits par Mikel Artetxe
Une implémentation possible de l'algorithme de Sinkhorn

Premières implémentations :

SkipGram :

Nous avons utlisé l'imentation Gensim de Word2Vec (SkipGram) pour obtenir les vecteurs des mots présents dans le corpus parallèle d'Europarl. Nous avons fait cela dans le fichier skipgram.py, puis comparons les vecteurs obtenus en français avec ceux de FastText. Cette comparaison est faite dans le fichier analyse_skipgrams_embeddings_europarl.py.

CCA :

Nous avons repris l'idée de Faruqui et Dyer et avons utilisé une CCA pour projeter les mots et leur traduction dans un espace commun. L'implémentation de cette méthode est dans le fichier CCA.py.

Travail sur les fréquences

La première étape a été l'analyse du corpus parallèle Europarl. Le fichier extraction_freq_europarl.py réalise l'extraction des fréquences de tous les mots présents dans Europarl. Nous avons exporté ces fréquences en format pkl dans les fichiers frequences_en.pkl et frequences_fr.pkl.

Les fichiers nécessaires à la suite du code sont dans le dossier travail_sur_les_frequences.

fichier Sinkhorn_On_Europarl.py : pour la génération de la matrice de transport à partir du corpus Europarl total (pas faisable sur nos ordinateurs et sur ceux de l'Ecole)
fichier Sinkhorn_On_Batch_Europarl.py : génération d'un plan de transport sur un batch, avec les deux méthodes : utilisation des fréquences réalistes et utilisation des fréquences uniformes. Les résultats pour un batch sont dans le fichier dumped_trad_unif_seuil95.json pour les fréquences uniformes et dans le fichier dumped_trad_freq_seuil95.json pour les fréquences réalistes.

On peut obtenir la courbe suivante :

Enfin les fichiers evaluate_one_batch.py, evaluation_diff_freq.py, et evaluation_diff_freq_population.py permettent d'otbenir les résultats présentés dans la partie 6 du rapport.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

EA_NLP

Liens utiles :

Premières implémentations :

SkipGram :

CCA :

Travail sur les fréquences

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
travail_sur_les_frequences		travail_sur_les_frequences
CCA.py		CCA.py
Comparaison des embeddings de skipgram et de ceux de FastText.png		Comparaison des embeddings de skipgram et de ceux de FastText.png
README.md		README.md
analyse_skipgrams_embeddings_europarl.py		analyse_skipgrams_embeddings_europarl.py
cosinus_avant_et_apres_cca_avec_10_composantes.png		cosinus_avant_et_apres_cca_avec_10_composantes.png
extraction_freq_europarl.py		extraction_freq_europarl.py
frequences_en.pkl		frequences_en.pkl
frequences_fr.pkl		frequences_fr.pkl
skipgram.py		skipgram.py

Folders and files

Latest commit

History

Repository files navigation

EA_NLP

Liens utiles :

Premières implémentations :

SkipGram :

CCA :

Travail sur les fréquences

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages