Spaces:

lucalp
/

blt-entropy-patcher

Running on Zero

App Files Files Community

par-meta commited on Mar 5

Commit

63913e4

unverified ·

1 Parent(s): 8f2cf88

Reduce per file resources arrow uses (#77)

Browse files

Files changed (5) hide show

bytelatent/args.py +2 -1
bytelatent/data/iterators/arrow_iterator.py +7 -1
bytelatent/data/iterators/sequence_iterator.py +26 -1
bytelatent/iterate_data.py +30 -0
bytelatent/train.py +3 -0

bytelatent/args.py CHANGED Viewed

@@ -138,7 +138,8 @@ class DataloaderArgs(BaseModel):
     preprocess_dir: str | None = None
     dataset_files: list[str] | None = None
     entropy_model_name: str | None = "transformer_100m"
-    arrow_batch_size: int = 100
     buffer_size: int = 64
     file_format: str = "arrow"

     preprocess_dir: str | None = None
     dataset_files: list[str] | None = None
     entropy_model_name: str | None = "transformer_100m"
+    # Be very careful with increasing, increases memory usage by that factor per rank, per data source
+    arrow_batch_size: int = 20
     buffer_size: int = 64
     file_format: str = "arrow"

bytelatent/data/iterators/arrow_iterator.py CHANGED Viewed

@@ -226,7 +226,13 @@ class ArrowFileIterator(StatefulIterator):
                 if (self.row_num - 1) % self.num_workers == self.worker_id:
                     yield out
-        self.batch_iterator = self.dataset.to_batches(batch_size=self.arrow_batch_size)
         for batch in self.batch_iterator:
             batch_columns = batch.to_pydict()
             if self.file_format == "arrow":

                 if (self.row_num - 1) % self.num_workers == self.worker_id:
                     yield out
+        self.batch_iterator = self.dataset.to_batches(
+            batch_size=self.arrow_batch_size,
+            # We have large files in GBs, no need to readahead
+            fragment_readahead=1,
+            # Don't readahead in case batches are huge (e.g., books)
+            batch_readahead=1,
+        )
         for batch in self.batch_iterator:
             batch_columns = batch.to_pydict()
             if self.file_format == "arrow":

bytelatent/data/iterators/sequence_iterator.py CHANGED Viewed

@@ -10,6 +10,9 @@ from bytelatent.data.iterators.abstract_iterator import (
     PydanticIteratorState,
     StatefulIterator,
 )
 from bytelatent.data.iterators.preprocess_iterator import (
     PreprocessIterator,
     PreprocessIteratorState,
@@ -40,6 +43,21 @@ class SequenceIteratorState(PydanticIteratorState):
         )
 class SequenceIterator(StatefulIterator):
     def __init__(
         self,
@@ -74,6 +92,10 @@ class SequenceIterator(StatefulIterator):
         tokens: list[int] = []
         mask: list[bool] = []
         first = True
         for example in example_iter:
             assert example.tokens is not None
             assert example.mask is not None
@@ -97,7 +119,10 @@ class SequenceIterator(StatefulIterator):
             while len(patch_lengths) >= n_buffer_patches:
                 if first:
                     first = False
-                    logger.info("First buffer complete")
                 x_patches = np.array(patch_lengths[:n_buffer_patches]).reshape(
                     self.buffer_size, self.output_seq_len

     PydanticIteratorState,
     StatefulIterator,
 )
+from bytelatent.data.iterators.arrow_iterator import ArrowFileIterator
+from bytelatent.data.iterators.limit_iterator import LimitIterator
+from bytelatent.data.iterators.looping_iterator import LoopingIterator
 from bytelatent.data.iterators.preprocess_iterator import (
     PreprocessIterator,
     PreprocessIteratorState,
         )
+def get_datafile(
+    iterator: PreprocessIterator | ArrowFileIterator | LoopingIterator | LimitIterator,
+):
+    if isinstance(iterator, ArrowFileIterator):
+        return f"file={iterator.file_path} n_shards={len(iterator.dataset_files) if iterator.dataset_files is not None else None}"
+    elif isinstance(iterator, PreprocessIterator):
+        return get_datafile(iterator.arrow_iterator)
+    elif isinstance(iterator, LoopingIterator):
+        return get_datafile(iterator.file_iterator)
+    elif isinstance(iterator, LimitIterator):
+        return get_datafile(iterator.base_iterator)
+    else:
+        raise NotImplementedError()
 class SequenceIterator(StatefulIterator):
     def __init__(
         self,
         tokens: list[int] = []
         mask: list[bool] = []
         first = True
+        logger.info(
+            "Starting first buffer for: %s",
+            get_datafile(self.preprocess_iterator),
+        )
         for example in example_iter:
             assert example.tokens is not None
             assert example.mask is not None
             while len(patch_lengths) >= n_buffer_patches:
                 if first:
                     first = False
+                    logger.info(
+                        "First buffer complete for: %s",
+                        get_datafile(self.preprocess_iterator),
+                    )
                 x_patches = np.array(patch_lengths[:n_buffer_patches]).reshape(
                     self.buffer_size, self.output_seq_len

bytelatent/iterate_data.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import json
+import pyarrow
+import typer
+from rich.progress import track
+from bytelatent.data.iterators.multiprocess_iterator import MultiprocessIteratorState
+from bytelatent.logger import init_logger
+def main(state_file: str):
+    init_logger()
+    pyarrow.set_io_thread_count(4)
+    pyarrow.set_cpu_count(4)
+    with open(state_file) as f:
+        train_state = json.load(f)
+        dl_state = MultiprocessIteratorState(**train_state["data_loader_state"])
+        packing_iterator_state = dl_state.base_iterator_state
+        print("building")
+        packing_iterator = packing_iterator_state.build()
+        print("iter")
+        batch_iter = packing_iterator.create_iter()
+        batch = None
+        print("looping")
+        for i in track(range(1_000)):
+            batch = next(batch_iter)
+if __name__ == "__main__":
+    typer.run(main)

bytelatent/train.py CHANGED Viewed

@@ -13,6 +13,7 @@ from timeit import default_timer as timer
 from typing import Any, TypeVar
 import numpy as np
 import torch
 import torch.distributed
 import torch.nn.functional
@@ -266,6 +267,8 @@ def compute_loss(p, y, mask, scale):
 def train(args: TrainArgs):
     with ExitStack() as context_stack:
         tokenizer = args.data.tokenizer_args.build()
         validate_train_args(
             args,

 from typing import Any, TypeVar
 import numpy as np
+import pyarrow
 import torch
 import torch.distributed
 import torch.nn.functional
 def train(args: TrainArgs):
     with ExitStack() as context_stack:
+        pyarrow.set_io_thread_count(4)
+        pyarrow.set_cpu_count(4)
         tokenizer = args.data.tokenizer_args.build()
         validate_train_args(
             args,