您好,目前我正在用finetune_cosmopedia.sh进行继续预训练,用HuggingFaceTB上的数据集可以实现继续预训练,但是我目前想要使用自己的数据集,我的数据集格式是txt,我想知道有没有办法将我们自己的数据转变成可以用于继续预训练的方法,或者有没有类似的工具呢,谢谢。