SCoRe (Self-Correction via Reinforcement Learning)

This is our attempt to implement SCoRe according to google's SCoRe paper.

To run score:

Installation

pip install -r requirements.txt

Run

Use this command

python run.py --task MATH --model_variant meta-llama/Llama-3.2-3B-Instruct --data_path ./data --output_dir ./outputs --mixed_precision --no_bleu --no_rouge

References

https://github.com/sanowl/Self-Correcting-LLM--Reinforcement-Learning-

Name		Name	Last commit message	Last commit date
Latest commit History 101 Commits
MATH-test		MATH-test
MATH		MATH
data		data
outputs		outputs
self-refine		self-refine
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
run.py		run.py
run_commands.txt		run_commands.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SCoRe (Self-Correction via Reinforcement Learning)

To run score:

Installation

Run

References

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

SCoRe (Self-Correction via Reinforcement Learning)

To run score:

Installation

Run

References

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages