19. Data loader API¶

This page documents the data loader API used to list, inspect, and load datasets. For usage examples, see the dataset how-to.

19.1 What it is for¶

The data loader brick resolves dataset identifiers, downloads raw data, caches processed datasets, and returns canonical splits. ^[1][2]

19.2 Examples¶

Load a curated dataset:

from modssc.data_loader import load_dataset

ds = load_dataset("toy", download=True)
print(ds.train.X.shape, ds.train.y.shape)

Inspect the catalog and provider list:

from modssc.data_loader import available_datasets, available_providers, dataset_info

print(available_datasets())
print(available_providers())
print(dataset_info("toy").as_dict())

The public API is exported from src/modssc/data_loader/__init__.py. ^[3]

19.3 API reference¶

Dataset download, caching and loading (canonical datasets only).

This module is responsible for: - resolving dataset identifiers (catalog keys or provider URIs) - downloading raw data into a local cache - materializing a canonical dataset (official splits only when provided) - storing processed data + manifests with stable fingerprints

It does NOT implement experimental splits (holdout, kfold, label fraction). Those belong to a dedicated sampling/splitting component.

19.4 `DataLoaderError` ¶

Bases: RuntimeError

Base error for modssc.data_loader.

Source code in src/modssc/data_loader/errors.py

class DataLoaderError(RuntimeError):
    """Base error for modssc.data_loader."""

19.5 `DatasetIdentity` `dataclass` ¶

Resolved dataset identity (provider level).

Source code in src/modssc/data_loader/types.py

@dataclass(frozen=True)
class DatasetIdentity:
    """Resolved dataset identity (provider level)."""

    provider: str
    canonical_uri: str
    dataset_id: str
    version: str | None
    modality: str
    task: str
    required_extra: str | None = None
    resolved_kwargs: Mapping[str, Any] = field(default_factory=dict)

    def as_dict(self) -> dict[str, Any]:
        return {
            "provider": self.provider,
            "canonical_uri": self.canonical_uri,
            "dataset_id": self.dataset_id,
            "version": self.version,
            "modality": self.modality,
            "task": self.task,
            "required_extra": self.required_extra,
            "resolved_kwargs": dict(self.resolved_kwargs),
        }

    def fingerprint_payload(self, *, schema_version: int) -> dict[str, Any]:
        return {
            "schema_version": int(schema_version),
            "provider": self.provider,
            "canonical_uri": self.canonical_uri,
            "dataset_id": self.dataset_id,
            "version": self.version,
            "modality": self.modality,
            "task": self.task,
            "resolved_kwargs": dict(self.resolved_kwargs),
        }

    def fingerprint(self, *, schema_version: int) -> str:
        payload = self.fingerprint_payload(schema_version=schema_version)
        try:
            blob = json.dumps(
                payload, sort_keys=True, separators=(",", ":"), ensure_ascii=True
            ).encode("utf-8")
        except TypeError as e:
            raise ValueError("DatasetIdentity.resolved_kwargs must be JSON serializable.") from e
        return hashlib.sha256(blob).hexdigest()

19.6 `DatasetRequest` `dataclass` ¶

A dataset request.

id can be a curated key or a provider URI
options can override or extend catalog source_kwargs

Source code in src/modssc/data_loader/types.py

@dataclass(frozen=True)
class DatasetRequest:
    """A dataset request.

    - id can be a curated key or a provider URI
    - options can override or extend catalog source_kwargs
    """

    id: str
    options: Mapping[str, Any] = field(default_factory=dict)

19.7 `DatasetSpec` `dataclass` ¶

Curated dataset spec (catalog entry).

The fingerprint used for caching intentionally ignores documentation-only fields.

Source code in src/modssc/data_loader/types.py

@dataclass(frozen=True)
class DatasetSpec:
    """Curated dataset spec (catalog entry).

    The fingerprint used for caching intentionally ignores documentation-only fields.
    """

    key: str
    provider: str
    uri: str
    modality: str
    task: str
    description: str

    required_extra: str | None = None
    source_kwargs: Mapping[str, Any] = field(default_factory=dict)

    homepage: str | None = None
    license: str | None = None
    citation: str | None = None

    def as_dict(self) -> dict[str, Any]:
        return {
            "key": self.key,
            "provider": self.provider,
            "uri": self.uri,
            "modality": self.modality,
            "task": self.task,
            "description": self.description,
            "required_extra": self.required_extra,
            "source_kwargs": dict(self.source_kwargs),
            "homepage": self.homepage,
            "license": self.license,
            "citation": self.citation,
        }

    def fingerprint_payload(self, *, schema_version: int) -> dict[str, Any]:
        """Payload used to compute the cache fingerprint.

        Only fields that can change dataset bytes are included.
        """
        return {
            "schema_version": int(schema_version),
            "provider": self.provider,
            "uri": self.uri,
            "source_kwargs": dict(self.source_kwargs),
        }

    def fingerprint(self, *, schema_version: int) -> str:
        payload = self.fingerprint_payload(schema_version=schema_version)
        try:
            blob = json.dumps(
                payload, sort_keys=True, separators=(",", ":"), ensure_ascii=True
            ).encode("utf-8")
        except TypeError as e:
            raise ValueError("DatasetSpec.source_kwargs must be JSON serializable.") from e
        return hashlib.sha256(blob).hexdigest()

19.7.1 `fingerprint_payload(*, schema_version)` ¶

Payload used to compute the cache fingerprint.

Only fields that can change dataset bytes are included.

Source code in src/modssc/data_loader/types.py

def fingerprint_payload(self, *, schema_version: int) -> dict[str, Any]:
    """Payload used to compute the cache fingerprint.

    Only fields that can change dataset bytes are included.
    """
    return {
        "schema_version": int(schema_version),
        "provider": self.provider,
        "uri": self.uri,
        "source_kwargs": dict(self.source_kwargs),
    }

19.8 `DownloadReport` `dataclass` ¶

Report returned by download_all_datasets.

Source code in src/modssc/data_loader/types.py

@dataclass(frozen=True)
class DownloadReport:
    """Report returned by download_all_datasets."""

    downloaded: Sequence[str] = ()
    skipped_already_cached: Sequence[str] = ()
    skipped_missing_extras: Sequence[str] = ()
    missing_extras: Mapping[str, Sequence[str]] = field(default_factory=dict)
    failed: Mapping[str, str] = field(default_factory=dict)

    def has_failures(self) -> bool:
        return bool(self.failed)

    def summary(self) -> str:
        lines: list[str] = []
        lines.append(f"Downloaded: {len(self.downloaded)}")
        lines.append(f"Skipped (already cached): {len(self.skipped_already_cached)}")
        lines.append(f"Skipped (missing extras): {len(self.skipped_missing_extras)}")
        lines.append(f"Failed: {len(self.failed)}")
        return "\n".join(lines)

19.9 `LoadedDataset` `dataclass` ¶

Canonical dataset container.

If the provider supplies official splits, test may be present. If not, test is None.

This module does not create custom splits.

Source code in src/modssc/data_loader/types.py

@dataclass(frozen=True)
class LoadedDataset:
    """Canonical dataset container.

    If the provider supplies official splits, test may be present.
    If not, test is None.

    This module does not create custom splits.
    """

    train: Split
    test: Split | None = None
    meta: Mapping[str, Any] = field(default_factory=dict)

19.10 `OptionalDependencyError` `dataclass` ¶

Bases: 19.4 DataLoaderError

Raised when an optional dependency (extra) required by a provider is missing.

Source code in src/modssc/data_loader/errors.py

@dataclass(frozen=True)
class OptionalDependencyError(DataLoaderError):
    """Raised when an optional dependency (extra) required by a provider is missing."""

    extra: str
    purpose: str | None = None

    def __str__(self) -> str:
        msg = f"Missing optional dependency extra: {self.extra!r}."
        if self.purpose:
            msg += f" Required for: {self.purpose}."
        msg += f' Install with: pip install "modssc[{self.extra}]"'
        return msg

19.11 `Split` `dataclass` ¶

A canonical dataset split.

X and y are backend-agnostic containers (often numpy arrays). edges and masks are used for graph datasets.

Source code in src/modssc/data_loader/types.py

@dataclass(frozen=True)
class Split:
    """A canonical dataset split.

    X and y are backend-agnostic containers (often numpy arrays).
    edges and masks are used for graph datasets.
    """

    X: Any
    y: Any
    edges: Any | None = None
    masks: Mapping[str, Any] | None = None

19.12 `available_providers()` ¶

Public helper: list provider names.

Source code in src/modssc/data_loader/api.py

def available_providers() -> list[str]:
    """Public helper: list provider names."""
    return get_provider_names()

19.13 `load_dataset(dataset_id, *, cache_dir=None, download=True, force=False, options=None, as_numpy=False, allow_object=True)` ¶

Load a dataset from processed cache, optionally downloading if missing.

Source code in src/modssc/data_loader/api.py

def load_dataset(
    dataset_id: str,
    *,
    cache_dir: Path | None = None,
    download: bool = True,
    force: bool = False,
    options: Mapping[str, Any] | None = None,
    as_numpy: bool = False,
    allow_object: bool = True,
) -> LoadedDataset:
    """Load a dataset from processed cache, optionally downloading if missing."""
    start = perf_counter()
    layout = _layout(cache_dir)
    req = DatasetRequest(id=dataset_id, options=options or {})
    identity = _resolve_identity(req)

    fp = identity.fingerprint(schema_version=SCHEMA_VERSION)
    logger.info(
        "Dataset load: id=%s provider=%s version=%s fingerprint=%s download=%s force=%s cache_dir=%s",
        dataset_id,
        identity.provider,
        identity.version,
        fp,
        bool(download),
        bool(force),
        str(layout.root),
    )
    logger.debug("Dataset resolved_kwargs: %s", dict(identity.resolved_kwargs))

    if not force and cache.is_cached(layout, fp):
        ds = _load_processed(layout, fp)
        n_train, n_classes = _split_stats(ds.train)
        n_test, _ = _split_stats(ds.test)
        logger.info(
            "Dataset cached: id=%s train=%s test=%s n_classes=%s duration_s=%.3f",
            dataset_id,
            n_train,
            n_test,
            n_classes,
            perf_counter() - start,
        )
        return dataset_to_numpy(ds, allow_object=allow_object) if as_numpy else ds

    if not download:
        raise DatasetNotCachedError(dataset_id)

    ds = _download_and_store(layout, identity, force=force)
    n_train, n_classes = _split_stats(ds.train)
    n_test, _ = _split_stats(ds.test)
    logger.info(
        "Dataset ready: id=%s train=%s test=%s n_classes=%s duration_s=%.3f",
        dataset_id,
        n_train,
        n_test,
        n_classes,
        perf_counter() - start,
    )
    return dataset_to_numpy(ds, allow_object=allow_object) if as_numpy else ds

19.14 `to_numpy(value, *, dtype=None, allow_object=True)` ¶

Best effort conversion to numpy without importing heavy frameworks.

Source code in src/modssc/data_loader/numpy_adapter.py

def to_numpy(value: Any, *, dtype: Any | None = None, allow_object: bool = True) -> np.ndarray:
    """Best effort conversion to numpy without importing heavy frameworks."""
    if isinstance(value, np.ndarray):
        return value.astype(dtype, copy=False) if dtype is not None else value

    if hasattr(value, "to_numpy"):
        arr = value.to_numpy()
        return np.asarray(arr, dtype=dtype) if dtype is not None else np.asarray(arr)

    obj = value
    if hasattr(obj, "detach"):
        try:
            obj = obj.detach()
        except Exception:
            obj = value
    if hasattr(obj, "cpu"):
        try:
            obj = obj.cpu()
        except Exception:
            obj = obj
    if hasattr(obj, "numpy"):
        try:
            arr = obj.numpy()
            return np.asarray(arr, dtype=dtype) if dtype is not None else np.asarray(arr)
        except Exception:
            pass

    try:
        return np.asarray(obj, dtype=dtype)
    except Exception:
        if allow_object:
            arr = np.empty((1,), dtype=object)
            arr[0] = obj
            return arr
        raise

Sources

19. Data loader API¶

19.1 What it is for¶

19.2 Examples¶

19.3 API reference¶

19.4 DataLoaderError ¶

19.5 DatasetIdentity dataclass ¶

19.6 DatasetRequest dataclass ¶

19.7 DatasetSpec dataclass ¶

19.7.1 fingerprint_payload(*, schema_version) ¶

19.8 DownloadReport dataclass ¶

19.9 LoadedDataset dataclass ¶

19.10 OptionalDependencyError dataclass ¶

19.11 Split dataclass ¶

19.12 available_providers() ¶

19.13 load_dataset(dataset_id, *, cache_dir=None, download=True, force=False, options=None, as_numpy=False, allow_object=True) ¶

19.14 to_numpy(value, *, dtype=None, allow_object=True) ¶

19.4 `DataLoaderError` ¶

19.5 `DatasetIdentity` `dataclass` ¶

19.6 `DatasetRequest` `dataclass` ¶

19.7 `DatasetSpec` `dataclass` ¶

19.7.1 `fingerprint_payload(*, schema_version)` ¶

19.8 `DownloadReport` `dataclass` ¶

19.9 `LoadedDataset` `dataclass` ¶

19.10 `OptionalDependencyError` `dataclass` ¶

19.11 `Split` `dataclass` ¶

19.12 `available_providers()` ¶

19.13 `load_dataset(dataset_id, *, cache_dir=None, download=True, force=False, options=None, as_numpy=False, allow_object=True)` ¶

19.14 `to_numpy(value, *, dtype=None, allow_object=True)` ¶