prepare_memmap_dataset.py seems to use wrong eos_token_id for the tokenizer

### ❓ The question

In the file `prepare_memmap_dataset.py`, at lines 244 and 456, the following code snippet are found:

```python
tokenizer = Tokenizer.from_pretrained(tokenizer_id, truncate_to=None)
```

This snippet lacks the `eos_token_id` parameter. The `from_pretrained` method, which is defined as follows, automatically assigns the last word in the vocabulary as the `eos_token`:

```python
def from_pretrained(cls, identifier: str, **kwargs) -> Tokenizer:
    base_tokenizer = BaseTokenizer.from_pretrained(identifier)
    eos_token_id = kwargs.pop("eos_token_id", base_tokenizer.get_vocab_size() - 1)
    return cls(base_tokenizer, eos_token_id, **kwargs)
```

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

prepare_memmap_dataset.py seems to use wrong eos_token_id for the tokenizer #513

❓ The question

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

prepare_memmap_dataset.py seems to use wrong eos_token_id for the tokenizer #513

Description

❓ The question

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions