perf: improve inference speed and Windows compatibility by williamyang2024 · Pull Request #170 · bytedance/Dolphin

williamyang2024 · 2026-04-18T09:46:33Z

Wrap model.generate() in torch.inference_mode() to reduce VRAM usage
Add use_cache=True for faster token generation
Add sys.stdout line-buffering for real-time progress visibility
Add requirements.win.txt for Windows dependency setup
Add run_demo.py as a convenient local runner script
Fix whitespace/formatting in markdown_utils.py

- Wrap model.generate() in torch.inference_mode() to reduce VRAM usage - Add use_cache=True for faster token generation - Add sys.stdout line-buffering for real-time progress visibility - Add requirements.win.txt for Windows dependency setup - Add run_demo.py as a convenient local runner script - Fix whitespace/formatting in markdown_utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

perf: improve inference speed and Windows compatibility#170

perf: improve inference speed and Windows compatibility#170
williamyang2024 wants to merge 1 commit intobytedance:masterfrom
williamyang2024:feat/windows-perf-improvements

williamyang2024 commented Apr 18, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

williamyang2024 commented Apr 18, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants