vllm.distributed.kv_transfer.kv_connector.v1.mooncake_connector ¶

EngineId `module-attribute` ¶

EngineId = str

ReqId `module-attribute` ¶

ReqId = str

TRANS_DONE `module-attribute` ¶

TRANS_DONE = b'trans_done'

TRANS_ERROR `module-attribute` ¶

TRANS_ERROR = b'trans_error'

logger `module-attribute` ¶

logger = init_logger(__name__)

MooncakeAgentMetadata ¶

Bases: Struct

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

class MooncakeAgentMetadata(
    msgspec.Struct,
    omit_defaults=True,  # type: ignore[call-arg]
    # required for @cached_property.
    dict=True,
):
    remote_hostname: str
    remote_port: int
    request_ids: list[ReqId]
    kv_caches_base_addr: list[int]
    block_ids: list[list[int]]

block_ids `instance-attribute` ¶

block_ids: list[list[int]]

kv_caches_base_addr `instance-attribute` ¶

kv_caches_base_addr: list[int]

remote_hostname `instance-attribute` ¶

remote_hostname: str

remote_port `instance-attribute` ¶

remote_port: int

request_ids `instance-attribute` ¶

request_ids: list[ReqId]

MooncakeConnector ¶

Bases: KVConnectorBase_V1

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

class MooncakeConnector(KVConnectorBase_V1):
    def __init__(
        self,
        vllm_config: VllmConfig,
        role: KVConnectorRole,
        kv_cache_config: "KVCacheConfig | None" = None,
    ):
        super().__init__(vllm_config, role, kv_cache_config)

        assert vllm_config.kv_transfer_config is not None
        assert vllm_config.kv_transfer_config.engine_id is not None
        self.engine_id: EngineId = vllm_config.kv_transfer_config.engine_id

        if role == KVConnectorRole.SCHEDULER:
            self.connector_scheduler: MooncakeConnectorScheduler | None = (
                MooncakeConnectorScheduler(vllm_config, self.engine_id)
            )
            self.connector_worker: MooncakeConnectorWorker | None = None
        elif role == KVConnectorRole.WORKER:
            self.connector_scheduler = None
            self.connector_worker = MooncakeConnectorWorker(vllm_config, self.engine_id)

    ############################################################
    # Scheduler Side Methods
    ############################################################

    def get_num_new_matched_tokens(
        self, request: "Request", num_computed_tokens: int
    ) -> tuple[int, bool]:
        assert self.connector_scheduler is not None
        return self.connector_scheduler.get_num_new_matched_tokens(
            request, num_computed_tokens
        )

    def update_state_after_alloc(
        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
    ):
        assert self.connector_scheduler is not None
        return self.connector_scheduler.update_state_after_alloc(
            request, blocks, num_external_tokens
        )

    def build_connector_meta(
        self,
        scheduler_output: SchedulerOutput,
    ) -> KVConnectorMetadata:
        assert self.connector_scheduler is not None
        return self.connector_scheduler.build_connector_meta(scheduler_output)

    def request_finished(
        self,
        request: "Request",
        block_ids: list[int],
    ) -> tuple[bool, dict[str, Any] | None]:
        assert self.connector_scheduler is not None
        return self.connector_scheduler.request_finished(request, block_ids)

    ############################################################
    # Worker Side Methods
    ############################################################
    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
        assert self.connector_worker is not None
        self.connector_worker.register_kv_caches(kv_caches)

    def get_finished(
        self, finished_req_ids: set[str]
    ) -> tuple[set[str] | None, set[str] | None]:
        """Get the finished recving and sending requests."""
        assert self.connector_worker is not None
        return self.connector_worker.get_finished()

    def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
        assert self.connector_worker is not None
        assert isinstance(self._connector_metadata, MooncakeConnectorMetadata)
        self.connector_worker.start_load_kv(self._connector_metadata)

    def wait_for_layer_load(self, layer_name: str) -> None:
        """MooncakeConnector does not do layerwise saving."""
        pass

    def save_kv_layer(
        self,
        layer_name: str,
        kv_layer: torch.Tensor,
        attn_metadata: AttentionMetadata,
        **kwargs,
    ) -> None:
        """MooncakeConnector does not save explicitly."""
        pass

    def wait_for_save(self):
        pass

connector_scheduler `instance-attribute` ¶

connector_scheduler: MooncakeConnectorScheduler | None = (
    MooncakeConnectorScheduler(vllm_config, engine_id)
)

connector_worker `instance-attribute` ¶

connector_worker: MooncakeConnectorWorker | None = None

engine_id `instance-attribute` ¶

engine_id: EngineId = engine_id

init ¶

__init__(
    vllm_config: VllmConfig,
    role: KVConnectorRole,
    kv_cache_config: KVCacheConfig | None = None,
)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def __init__(
    self,
    vllm_config: VllmConfig,
    role: KVConnectorRole,
    kv_cache_config: "KVCacheConfig | None" = None,
):
    super().__init__(vllm_config, role, kv_cache_config)

    assert vllm_config.kv_transfer_config is not None
    assert vllm_config.kv_transfer_config.engine_id is not None
    self.engine_id: EngineId = vllm_config.kv_transfer_config.engine_id

    if role == KVConnectorRole.SCHEDULER:
        self.connector_scheduler: MooncakeConnectorScheduler | None = (
            MooncakeConnectorScheduler(vllm_config, self.engine_id)
        )
        self.connector_worker: MooncakeConnectorWorker | None = None
    elif role == KVConnectorRole.WORKER:
        self.connector_scheduler = None
        self.connector_worker = MooncakeConnectorWorker(vllm_config, self.engine_id)

build_connector_meta ¶

build_connector_meta(
    scheduler_output: SchedulerOutput,
) -> KVConnectorMetadata

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def build_connector_meta(
    self,
    scheduler_output: SchedulerOutput,
) -> KVConnectorMetadata:
    assert self.connector_scheduler is not None
    return self.connector_scheduler.build_connector_meta(scheduler_output)

get_finished ¶

get_finished(
    finished_req_ids: set[str],
) -> tuple[set[str] | None, set[str] | None]

Get the finished recving and sending requests.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def get_finished(
    self, finished_req_ids: set[str]
) -> tuple[set[str] | None, set[str] | None]:
    """Get the finished recving and sending requests."""
    assert self.connector_worker is not None
    return self.connector_worker.get_finished()

get_num_new_matched_tokens ¶

get_num_new_matched_tokens(
    request: Request, num_computed_tokens: int
) -> tuple[int, bool]

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def get_num_new_matched_tokens(
    self, request: "Request", num_computed_tokens: int
) -> tuple[int, bool]:
    assert self.connector_scheduler is not None
    return self.connector_scheduler.get_num_new_matched_tokens(
        request, num_computed_tokens
    )

register_kv_caches ¶

register_kv_caches(kv_caches: dict[str, Tensor])

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
    assert self.connector_worker is not None
    self.connector_worker.register_kv_caches(kv_caches)

request_finished ¶

request_finished(
    request: Request, block_ids: list[int]
) -> tuple[bool, dict[str, Any] | None]

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def request_finished(
    self,
    request: "Request",
    block_ids: list[int],
) -> tuple[bool, dict[str, Any] | None]:
    assert self.connector_scheduler is not None
    return self.connector_scheduler.request_finished(request, block_ids)

save_kv_layer ¶

save_kv_layer(
    layer_name: str,
    kv_layer: Tensor,
    attn_metadata: AttentionMetadata,
    **kwargs,
) -> None

MooncakeConnector does not save explicitly.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def save_kv_layer(
    self,
    layer_name: str,
    kv_layer: torch.Tensor,
    attn_metadata: AttentionMetadata,
    **kwargs,
) -> None:
    """MooncakeConnector does not save explicitly."""
    pass

start_load_kv ¶

start_load_kv(
    forward_context: ForwardContext, **kwargs
) -> None

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
    assert self.connector_worker is not None
    assert isinstance(self._connector_metadata, MooncakeConnectorMetadata)
    self.connector_worker.start_load_kv(self._connector_metadata)

update_state_after_alloc ¶

update_state_after_alloc(
    request: Request,
    blocks: KVCacheBlocks,
    num_external_tokens: int,
)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def update_state_after_alloc(
    self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
):
    assert self.connector_scheduler is not None
    return self.connector_scheduler.update_state_after_alloc(
        request, blocks, num_external_tokens
    )

wait_for_layer_load ¶

wait_for_layer_load(layer_name: str) -> None

MooncakeConnector does not do layerwise saving.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def wait_for_layer_load(self, layer_name: str) -> None:
    """MooncakeConnector does not do layerwise saving."""
    pass

wait_for_save ¶

wait_for_save()

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def wait_for_save(self):
    pass

MooncakeConnectorMetadata ¶

Bases: KVConnectorMetadata

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

class MooncakeConnectorMetadata(KVConnectorMetadata):
    def __init__(self):
        self.reqs_to_recv: dict[ReqId, RecvReqMeta] = {}
        self.reqs_to_send: dict[ReqId, list[int]] = {}

    def add_new_req(
        self,
        request_id: ReqId,
        local_block_ids: list[int],
        kv_transfer_params: dict[str, Any],
        load_remote_cache: bool = True,
    ):
        if load_remote_cache:
            self.reqs_to_recv[request_id] = RecvReqMeta(
                local_block_ids=local_block_ids,
                remote_host=kv_transfer_params["remote_host"],
                remote_port=kv_transfer_params["remote_port"],
            )
        else:
            self.reqs_to_send[request_id] = local_block_ids

reqs_to_recv `instance-attribute` ¶

reqs_to_recv: dict[ReqId, RecvReqMeta] = {}

reqs_to_send `instance-attribute` ¶

reqs_to_send: dict[ReqId, list[int]] = {}

init ¶

__init__()

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def __init__(self):
    self.reqs_to_recv: dict[ReqId, RecvReqMeta] = {}
    self.reqs_to_send: dict[ReqId, list[int]] = {}

add_new_req ¶

add_new_req(
    request_id: ReqId,
    local_block_ids: list[int],
    kv_transfer_params: dict[str, Any],
    load_remote_cache: bool = True,
)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def add_new_req(
    self,
    request_id: ReqId,
    local_block_ids: list[int],
    kv_transfer_params: dict[str, Any],
    load_remote_cache: bool = True,
):
    if load_remote_cache:
        self.reqs_to_recv[request_id] = RecvReqMeta(
            local_block_ids=local_block_ids,
            remote_host=kv_transfer_params["remote_host"],
            remote_port=kv_transfer_params["remote_port"],
        )
    else:
        self.reqs_to_send[request_id] = local_block_ids

MooncakeConnectorScheduler ¶

Implementation of Scheduler side methods

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

class MooncakeConnectorScheduler:
    """Implementation of Scheduler side methods"""

    def __init__(self, vllm_config: VllmConfig, engine_id: str):
        self.vllm_config = vllm_config
        self.engine_id: EngineId = engine_id
        self.side_channel_host = get_ip()
        self.side_channel_port = get_mooncake_side_channel_port(vllm_config)

        assert vllm_config.kv_transfer_config
        self.kv_role = vllm_config.kv_transfer_config.kv_role
        logger.info("Initializing Mooncake Transfer Engine Scheduler %s", engine_id)

        # Requests that need to start recv/send.
        # New requests are added by update_state_after_alloc in
        # the scheduler. Used to make metadata passed to Worker.
        self._reqs_need_recv: dict[ReqId, tuple[Request, list[int]]] = {}
        self._reqs_need_send: dict[ReqId, list[int]] = {}

    def get_num_new_matched_tokens(
        self, request: "Request", num_computed_tokens: int
    ) -> tuple[int, bool]:
        """
        For remote prefill, pull all prompt blocks from remote
        asynchronously relative to engine execution.

        Args:
            request (Request): the request object.
            num_computed_tokens (int): the number of locally
                computed tokens for this request
        Returns:
            * the number of tokens that can be loaded from the
              external KV cache beyond what is already computed.
            * true if the external KV cache tokens will be loaded
              asynchronously (between scheduler steps).
        """

        params = request.kv_transfer_params
        logger.debug(
            "MooncakeConnector get_num_new_matched_tokens: "
            "num_computed_tokens=%s, kv_transfer_params=%s",
            num_computed_tokens,
            params,
        )

        if params is not None and params.get("do_remote_prefill"):
            # Remote prefill: get all prompt blocks from remote.
            token_ids = request.prompt_token_ids or []
            count = len(token_ids) - num_computed_tokens
            if count > 0:
                return count, True

        # No remote prefill for this request.
        return 0, False

    def update_state_after_alloc(
        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
    ):
        params = request.kv_transfer_params
        logger.debug(
            "MooncakeConnector update_state_after_alloc: "
            "num_external_tokens=%s, kv_transfer_params=%s",
            num_external_tokens,
            params,
        )

        if not params:
            return

        if params.get("do_remote_prefill"):
            assert self.kv_role != "kv_producer"
            if all(p in params for p in ("remote_host", "remote_port")):
                # If remote_blocks and num_external_tokens = 0, we have
                # a full prefix cache hit on the D worker. We need to call
                # send_notif in _read_blocks to free the memory on the P.
                local_block_ids = (
                    blocks.get_unhashed_block_ids() if num_external_tokens > 0 else []
                )
                # Get unhashed blocks to pull from remote.
                self._reqs_need_recv[request.request_id] = (request, local_block_ids)
            else:
                logger.warning(
                    "Got invalid KVTransferParams: %s. This "
                    "request will not utilize KVTransfer",
                    params,
                )
            # Only trigger 1 KV transfer per request.
            params["do_remote_prefill"] = False

        elif params.get("do_remote_decode"):
            # Add an empty list to worker to create event.
            self._reqs_need_send[request.request_id] = []

    def build_connector_meta(
        self,
        scheduler_output: SchedulerOutput,
    ) -> KVConnectorMetadata:
        meta = MooncakeConnectorMetadata()

        # Loop through scheduled reqs and convert to RecvReqMeta.
        if self.kv_role != "kv_producer":
            for req_id, (req, block_ids) in self._reqs_need_recv.items():
                assert req.kv_transfer_params is not None
                meta.add_new_req(
                    request_id=req_id,
                    local_block_ids=block_ids,
                    kv_transfer_params=req.kv_transfer_params,
                )
            self._reqs_need_recv.clear()

        if self.kv_role != "kv_consumer":
            for req_id, block_ids in self._reqs_need_send.items():
                meta.add_new_req(
                    request_id=req_id,
                    local_block_ids=block_ids,
                    kv_transfer_params={},
                    load_remote_cache=False,
                )
            self._reqs_need_send.clear()

        return meta

    def request_finished(
        self,
        request: "Request",
        block_ids: list[int],
    ) -> tuple[bool, dict[str, Any] | None]:
        """
        Once a request is finished, determine whether request blocks
        should be freed now or will be sent asynchronously and freed later.
        """

        params = request.kv_transfer_params
        logger.debug(
            "MooncakeConnector request_finished, request_status=%s, "
            "kv_transfer_params=%s",
            request.status,
            params,
        )
        if not params:
            return False, None

        if params.get("do_remote_prefill"):
            # If do_remote_prefill is still True when the request is finished,
            # update_state_after_alloc must not have been called (the request
            # must have been aborted before it was scheduled).
            # To avoid stranding the prefill blocks in the prefill instance,
            # we must add empty block_ids to _reqs_need_recv so that our
            # worker side will notify and free blocks in the prefill instance.
            assert self.kv_role != "kv_producer"
            self._reqs_need_recv[request.request_id] = (request, [])
            params["do_remote_prefill"] = False
            return False, None

        if (
            not params.get("do_remote_decode")
            or request.status != RequestStatus.FINISHED_LENGTH_CAPPED
        ):
            return False, None

        assert self.kv_role != "kv_consumer"

        # TODO: check whether block_ids actually ever be 0. If not we could
        # remove the conditional below
        delay_free_blocks = len(block_ids) > 0

        if delay_free_blocks:
            self._reqs_need_send[request.request_id] = block_ids

        return delay_free_blocks, dict(
            do_remote_prefill=True,
            do_remote_decode=False,
            remote_host=self.side_channel_host,
            remote_port=self.side_channel_port,
        )

_reqs_need_recv `instance-attribute` ¶

_reqs_need_recv: dict[ReqId, tuple[Request, list[int]]] = {}

_reqs_need_send `instance-attribute` ¶

_reqs_need_send: dict[ReqId, list[int]] = {}

engine_id `instance-attribute` ¶

engine_id: EngineId = engine_id

kv_role `instance-attribute` ¶

kv_role = kv_role

side_channel_host `instance-attribute` ¶

side_channel_host = get_ip()

side_channel_port `instance-attribute` ¶

side_channel_port = get_mooncake_side_channel_port(
    vllm_config
)

vllm_config `instance-attribute` ¶

vllm_config = vllm_config

init ¶

__init__(vllm_config: VllmConfig, engine_id: str)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def __init__(self, vllm_config: VllmConfig, engine_id: str):
    self.vllm_config = vllm_config
    self.engine_id: EngineId = engine_id
    self.side_channel_host = get_ip()
    self.side_channel_port = get_mooncake_side_channel_port(vllm_config)

    assert vllm_config.kv_transfer_config
    self.kv_role = vllm_config.kv_transfer_config.kv_role
    logger.info("Initializing Mooncake Transfer Engine Scheduler %s", engine_id)

    # Requests that need to start recv/send.
    # New requests are added by update_state_after_alloc in
    # the scheduler. Used to make metadata passed to Worker.
    self._reqs_need_recv: dict[ReqId, tuple[Request, list[int]]] = {}
    self._reqs_need_send: dict[ReqId, list[int]] = {}

build_connector_meta ¶

build_connector_meta(
    scheduler_output: SchedulerOutput,
) -> KVConnectorMetadata

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def build_connector_meta(
    self,
    scheduler_output: SchedulerOutput,
) -> KVConnectorMetadata:
    meta = MooncakeConnectorMetadata()

    # Loop through scheduled reqs and convert to RecvReqMeta.
    if self.kv_role != "kv_producer":
        for req_id, (req, block_ids) in self._reqs_need_recv.items():
            assert req.kv_transfer_params is not None
            meta.add_new_req(
                request_id=req_id,
                local_block_ids=block_ids,
                kv_transfer_params=req.kv_transfer_params,
            )
        self._reqs_need_recv.clear()

    if self.kv_role != "kv_consumer":
        for req_id, block_ids in self._reqs_need_send.items():
            meta.add_new_req(
                request_id=req_id,
                local_block_ids=block_ids,
                kv_transfer_params={},
                load_remote_cache=False,
            )
        self._reqs_need_send.clear()

    return meta

get_num_new_matched_tokens ¶

get_num_new_matched_tokens(
    request: Request, num_computed_tokens: int
) -> tuple[int, bool]

For remote prefill, pull all prompt blocks from remote asynchronously relative to engine execution.

Parameters:

Name	Type	Description	Default
`request`	`Request`	the request object.	required
`num_computed_tokens`	`int`	the number of locally computed tokens for this request	required

Returns: * the number of tokens that can be loaded from the external KV cache beyond what is already computed. * true if the external KV cache tokens will be loaded asynchronously (between scheduler steps).

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def get_num_new_matched_tokens(
    self, request: "Request", num_computed_tokens: int
) -> tuple[int, bool]:
    """
    For remote prefill, pull all prompt blocks from remote
    asynchronously relative to engine execution.

    Args:
        request (Request): the request object.
        num_computed_tokens (int): the number of locally
            computed tokens for this request
    Returns:
        * the number of tokens that can be loaded from the
          external KV cache beyond what is already computed.
        * true if the external KV cache tokens will be loaded
          asynchronously (between scheduler steps).
    """

    params = request.kv_transfer_params
    logger.debug(
        "MooncakeConnector get_num_new_matched_tokens: "
        "num_computed_tokens=%s, kv_transfer_params=%s",
        num_computed_tokens,
        params,
    )

    if params is not None and params.get("do_remote_prefill"):
        # Remote prefill: get all prompt blocks from remote.
        token_ids = request.prompt_token_ids or []
        count = len(token_ids) - num_computed_tokens
        if count > 0:
            return count, True

    # No remote prefill for this request.
    return 0, False

request_finished ¶

request_finished(
    request: Request, block_ids: list[int]
) -> tuple[bool, dict[str, Any] | None]

Once a request is finished, determine whether request blocks should be freed now or will be sent asynchronously and freed later.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def request_finished(
    self,
    request: "Request",
    block_ids: list[int],
) -> tuple[bool, dict[str, Any] | None]:
    """
    Once a request is finished, determine whether request blocks
    should be freed now or will be sent asynchronously and freed later.
    """

    params = request.kv_transfer_params
    logger.debug(
        "MooncakeConnector request_finished, request_status=%s, "
        "kv_transfer_params=%s",
        request.status,
        params,
    )
    if not params:
        return False, None

    if params.get("do_remote_prefill"):
        # If do_remote_prefill is still True when the request is finished,
        # update_state_after_alloc must not have been called (the request
        # must have been aborted before it was scheduled).
        # To avoid stranding the prefill blocks in the prefill instance,
        # we must add empty block_ids to _reqs_need_recv so that our
        # worker side will notify and free blocks in the prefill instance.
        assert self.kv_role != "kv_producer"
        self._reqs_need_recv[request.request_id] = (request, [])
        params["do_remote_prefill"] = False
        return False, None

    if (
        not params.get("do_remote_decode")
        or request.status != RequestStatus.FINISHED_LENGTH_CAPPED
    ):
        return False, None

    assert self.kv_role != "kv_consumer"

    # TODO: check whether block_ids actually ever be 0. If not we could
    # remove the conditional below
    delay_free_blocks = len(block_ids) > 0

    if delay_free_blocks:
        self._reqs_need_send[request.request_id] = block_ids

    return delay_free_blocks, dict(
        do_remote_prefill=True,
        do_remote_decode=False,
        remote_host=self.side_channel_host,
        remote_port=self.side_channel_port,
    )

update_state_after_alloc ¶

update_state_after_alloc(
    request: Request,
    blocks: KVCacheBlocks,
    num_external_tokens: int,
)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def update_state_after_alloc(
    self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
):
    params = request.kv_transfer_params
    logger.debug(
        "MooncakeConnector update_state_after_alloc: "
        "num_external_tokens=%s, kv_transfer_params=%s",
        num_external_tokens,
        params,
    )

    if not params:
        return

    if params.get("do_remote_prefill"):
        assert self.kv_role != "kv_producer"
        if all(p in params for p in ("remote_host", "remote_port")):
            # If remote_blocks and num_external_tokens = 0, we have
            # a full prefix cache hit on the D worker. We need to call
            # send_notif in _read_blocks to free the memory on the P.
            local_block_ids = (
                blocks.get_unhashed_block_ids() if num_external_tokens > 0 else []
            )
            # Get unhashed blocks to pull from remote.
            self._reqs_need_recv[request.request_id] = (request, local_block_ids)
        else:
            logger.warning(
                "Got invalid KVTransferParams: %s. This "
                "request will not utilize KVTransfer",
                params,
            )
        # Only trigger 1 KV transfer per request.
        params["do_remote_prefill"] = False

    elif params.get("do_remote_decode"):
        # Add an empty list to worker to create event.
        self._reqs_need_send[request.request_id] = []

MooncakeConnectorWorker ¶

Implementation of Worker side methods

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

class MooncakeConnectorWorker:
    """Implementation of Worker side methods"""

    def __init__(self, vllm_config: VllmConfig, engine_id: str):
        logger.info("Initializing Mooncake Transfer Engine worker %s", engine_id)

        self.vllm_config = vllm_config

        self.engine = TransferEngine()
        self.hostname = get_ip()
        protocol = self.vllm_config.kv_transfer_config.kv_connector_extra_config.get(  # type: ignore[union-attr]
            "mooncake_protocol", "rdma"
        )
        logger.info(
            "The Mooncake Transfer Engine is using %s as its protocol.", protocol
        )
        ret_value = self.engine.initialize(self.hostname, "P2PHANDSHAKE", protocol, "")
        if ret_value != 0:
            raise RuntimeError("Mooncake Transfer Engine initialization failed.")

        self.rpc_port = self.engine.get_rpc_port()

        logger.debug(
            "Mooncake Transfer Engine initialized at %s:%d",
            self.hostname,
            self.rpc_port,
        )

        # Mooncake handshake port.
        self.side_channel_port: int = get_mooncake_side_channel_port(vllm_config)

        self.engine_id: EngineId = engine_id
        self.tp_rank = get_tensor_model_parallel_rank()
        self.world_size = get_tensor_model_parallel_world_size()
        self.tp_group = get_tp_group()
        self.num_blocks = 0

        assert vllm_config.kv_transfer_config
        self.kv_role = vllm_config.kv_transfer_config.kv_role
        self.num_sender_workers = (
            vllm_config.kv_transfer_config.kv_connector_extra_config.get(
                "num_workers", 10
            )
        )
        # Create more tasks than workers to keep the thread pool saturated.
        # Tasks can await async events, so a surplus (2x is a robust heuristic)
        # prevents workers from idling.
        self.num_sender_tasks = self.num_sender_workers * 2

        self.kv_caches_base_addr: list[int] = []
        self.device_kv_caches: dict[str, torch.Tensor] = {}
        self.reqs_need_send: dict[ReqId, SendBlockMeta] = {}

        # For kv_both, we will act both prefiller and decoder.
        if self.kv_role != "kv_consumer":
            # Background threads for sending kvcaches to D.
            self._sender_executor = ThreadPoolExecutor(
                max_workers=self.num_sender_workers,
                thread_name_prefix="vllm-mooncake-sender",
            )
            logger.debug(
                "Mooncake Prefiller: use %d workers to send kvcaches",
                self.num_sender_workers,
            )
            # An asyncio queue to buffer incoming requests for the sender
            self.sender_worker_queue = asyncio.Queue[tuple[bytes, bytes]]()
            self.sender_loop = asyncio.new_event_loop()
            # Background thread for processing new sending requests.
            self._sender_listener_t = threading.Thread(
                target=_async_loop, args=(self.sender_loop,), daemon=True
            )
            self._sender_listener_t.start()

        if self.kv_role != "kv_producer":
            self.receiver_loop = asyncio.new_event_loop()
            self._mooncake_receiver_t = threading.Thread(
                target=_async_loop, args=(self.receiver_loop,), daemon=True
            )
            self._mooncake_receiver_t.start()
            logger.debug("Mooncake Decoder: start receiver thread")

        self.finished_sending_reqs: set[ReqId] = set()
        self.finished_recving_reqs: set[ReqId] = set()

        self.block_size = vllm_config.cache_config.block_size
        self.model_config = vllm_config.model_config
        self.cache_config = vllm_config.cache_config
        self.use_mla = self.model_config.use_mla

        # Get the attention backend from the first layer
        # NOTE (NickLucche) models with multiple backends are not supported yet
        backend = get_current_attn_backend(vllm_config)
        self.backend_name = backend.get_name()
        self.kv_cache_layout = get_kv_cache_layout()
        logger.debug("Detected attention backend %s", self.backend_name)
        logger.debug("Detected kv cache layout %s", self.kv_cache_layout)

        self._tp_size: dict[EngineId, int] = {self.engine_id: self.world_size}
        self._block_size: dict[EngineId, int] = {self.engine_id: self.block_size}
        self.kv_topo = TpKVTopology(
            tp_rank=self.tp_rank,
            engine_id=self.engine_id,
            remote_tp_size=self._tp_size,  # shared state
            remote_block_size=self._block_size,  # shared state
            is_mla=self.use_mla,
            total_num_kv_heads=self.model_config.get_total_num_kv_heads(),
            attn_backend=backend,
        )

        self.async_zmq_ctx = zmq.asyncio.Context()
        self._encoder = msgspec.msgpack.Encoder()
        self._decoder = msgspec.msgpack.Decoder(MooncakeAgentMetadata)

    def __del__(self):
        self.shutdown()

    def shutdown(self):
        """Cleanup background threads on destruction."""
        self.async_zmq_ctx.term()
        if self.kv_role != "kv_consumer":
            self._sender_executor.shutdown(wait=False)
            if self.sender_loop.is_running():
                self.sender_loop.call_soon_threadsafe(self.sender_loop.stop)
                self._sender_listener_t.join()
        if self.kv_role != "kv_producer" and self.receiver_loop.is_running():
            self.receiver_loop.call_soon_threadsafe(self.receiver_loop.stop)
            self._mooncake_receiver_t.join()

    async def _mooncake_sender_listener(
        self, ready_event: threading.Event, base_port: int, tp_rank: int
    ):
        """
        Background thread that listens for Mooncake requests, dispatches them
        to a thread pool, and sends acknowledgments upon completion.
        """

        path = make_zmq_path("tcp", self.hostname, base_port + tp_rank)
        sock = make_zmq_socket(self.async_zmq_ctx, path, zmq.ROUTER)
        logger.debug("Mooncake sender starting listening on path: %s", path)

        # Create async worker tasks that process items from the queue
        sender_tasks = [
            asyncio.create_task(self._sender_worker(sock))
            for _ in range(self.num_sender_tasks)
        ]

        ready_event.set()

        try:
            while True:
                identity, _, metadata_bytes = await sock.recv_multipart()
                await self.sender_worker_queue.put((identity, metadata_bytes))
        except zmq.ContextTerminated:
            logger.debug("ZMQ context terminated, exiting Mooncake sender thread.")
        except Exception as e:
            logger.error("Error in Mooncake sender thread: %s. Exiting thread.", str(e))
        finally:
            # Clean up worker tasks
            for task in sender_tasks:
                task.cancel()
            await asyncio.gather(*sender_tasks, return_exceptions=True)
            sock.close()

    async def _sender_worker(self, sock: zmq.asyncio.Socket):
        while True:
            try:
                identity, metadata_bytes = await self.sender_worker_queue.get()
                try:
                    metadata = self._decoder.decode(metadata_bytes)
                    await self.send_kv_to_decode(metadata)
                    await sock.send_multipart((identity, b"", TRANS_DONE))
                except Exception as e:
                    logger.error("Error processing Mooncake xfer request: %s", e)
                    await sock.send_multipart((identity, b"", TRANS_ERROR))
                finally:
                    self.sender_worker_queue.task_done()
            except asyncio.CancelledError:
                break
            except Exception as e:
                logger.error("Error in _sender_worker: %s", e)

    async def send_kv_to_decode(self, meta: MooncakeAgentMetadata):
        send_reqs: list[tuple[ReqId, SendBlockMeta]] = []
        for req_id in meta.request_ids:
            send_meta = self.reqs_need_send.get(req_id)
            if send_meta is None:
                logger.warning("Request %s not found in reqs_need_send", req_id)
                return
            # Mark it as not expired. We will send it now.
            send_meta.expire_time = float("inf")
            send_reqs.append((req_id, send_meta))

        src_ptrs, dst_ptrs, lengths = await self._build_transfer_params(send_reqs, meta)
        remote_session = f"{meta.remote_hostname}:{meta.remote_port}"
        ret_value = await self.sender_loop.run_in_executor(
            self._sender_executor,
            self._send_blocks,
            remote_session,
            src_ptrs,
            dst_ptrs,
            lengths,
        )

        if ret_value != 0:
            raise RuntimeError(f"Error in batch_transfer_sync_write: {ret_value}")

        for req_id in meta.request_ids:
            del self.reqs_need_send[req_id]

        self.finished_sending_reqs.update(meta.request_ids)

    async def _build_transfer_params(
        self,
        send_reqs: list[tuple[ReqId, SendBlockMeta]],
        agent_meta: MooncakeAgentMetadata,
    ) -> tuple[list[int], list[int], list[int]]:
        src_ptrs = []
        dst_ptrs = []
        lengths = []
        local_base_addr = self.kv_caches_base_addr
        remote_base_addr = agent_meta.kv_caches_base_addr
        block_len = self.block_len
        remote_session = f"{agent_meta.remote_hostname}:{agent_meta.remote_port}"

        assert len(send_reqs) == len(agent_meta.block_ids)
        for (req_id, send_meta), remote_block_ids in zip(
            send_reqs, agent_meta.block_ids
        ):
            await send_meta.ready.wait()

            num_remote_blocks = len(remote_block_ids)
            if num_remote_blocks == 0:
                continue

            local_block_ids = send_meta.local_block_ids
            # Partial prefix cache hit: just read uncomputed blocks.
            num_local_blocks = len(local_block_ids)
            assert num_local_blocks >= num_remote_blocks
            if num_local_blocks > num_remote_blocks:
                local_block_ids = local_block_ids[-num_remote_blocks:]

            # Group by indices
            group_local_block_ids, group_remote_block_ids = group_concurrent_contiguous(
                local_block_ids, remote_block_ids
            )

            for local_layer_addr, remote_layer_addr in zip(
                local_base_addr, remote_base_addr
            ):
                for group_local_block_id, group_remote_block_id in zip(
                    group_local_block_ids, group_remote_block_ids
                ):
                    src_ptrs.append(
                        local_layer_addr + group_local_block_id[0] * block_len
                    )
                    dst_ptrs.append(
                        remote_layer_addr + group_remote_block_id[0] * block_len
                    )
                    lengths.append(block_len * len(group_local_block_id))

            logger.debug(
                "Sending kv_caches for request %s (%d blocks) to %s",
                req_id,
                num_remote_blocks,
                remote_session,
            )

        return src_ptrs, dst_ptrs, lengths

    def _send_blocks(
        self,
        remote_session: str,
        src_ptrs: list[int],
        dst_ptrs: list[int],
        lengths: list[int],
    ) -> int:
        start_time = time.perf_counter()
        ret_value = self.engine.batch_transfer_sync_write(
            remote_session, src_ptrs, dst_ptrs, lengths
        )
        if ret_value == 0:
            logger.debug(
                "Sending to %s done, took %s",
                remote_session,
                time.perf_counter() - start_time,
            )
        return ret_value

    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
        """Register the KV Cache data in mooncake."""

        logger.info("Registering KV_Caches. use_mla: %s", self.use_mla)

        kv_data_ptrs = []
        kv_data_lens = []
        seen_base_addresses = []

        split_k_and_v = self.kv_topo.split_k_and_v
        tensor_size_bytes = None
        for layer_name, cache_or_caches in kv_caches.items():
            logger.debug(
                "registering layer %s with shape %s", layer_name, cache_or_caches.shape
            )
            cache_list = cache_or_caches if split_k_and_v else [cache_or_caches]

            for cache in cache_list:
                base_addr = cache.data_ptr()
                if base_addr in seen_base_addresses:
                    continue

                seen_base_addresses.append(base_addr)
                curr_tensor_size_bytes = cache.nbytes

                if tensor_size_bytes is None:
                    tensor_size_bytes = curr_tensor_size_bytes
                    self.num_blocks = cache.shape[0]

                assert tensor_size_bytes == curr_tensor_size_bytes, (
                    "All kv cache tensors must have the same size"
                )
                kernel_block_size = cache.shape[-2 if self.use_mla else -3]
                assert self.block_size == kernel_block_size
                kv_data_ptrs.append(base_addr)
                kv_data_lens.append(tensor_size_bytes)

        self.kv_caches_base_addr = seen_base_addresses

        ret_value = self.engine.batch_register_memory(kv_data_ptrs, kv_data_lens)
        if ret_value != 0:
            raise RuntimeError("Mooncake batch memory registration failed.")

        assert tensor_size_bytes is not None
        assert self.num_blocks != 0
        assert tensor_size_bytes % self.num_blocks == 0
        self.block_len = tensor_size_bytes // self.num_blocks
        self.device_kv_caches = kv_caches
        logger.debug(
            "registered num_blocks=%d block_len=%d", self.num_blocks, self.block_len
        )

        # No need to launch server for D node.
        if self.kv_role == "kv_consumer":
            return

        ready_event = threading.Event()
        asyncio.run_coroutine_threadsafe(
            self._mooncake_sender_listener(
                ready_event, self.side_channel_port, self.tp_rank
            ),
            self.sender_loop,
        )
        ready_event.wait()  # Wait for listener ZMQ socket to be ready.

    async def fetch_finished_recving_reqs(self) -> set[ReqId]:
        finished_recving_reqs = self.finished_recving_reqs
        self.finished_recving_reqs = set()
        return finished_recving_reqs

    async def fetch_finished_sending_reqs(self) -> set[ReqId]:
        finished_sending_reqs = self.finished_sending_reqs
        self.finished_sending_reqs = set()

        # Handle timeout to avoid stranding blocks on remote.
        now = time.perf_counter()
        expired_reqs = [
            req_id
            for req_id, send_meta in self.reqs_need_send.items()
            if send_meta.expire_time < now
        ]
        for req_id in expired_reqs:
            logger.warning(
                "Request %s timed out after %d seconds without "
                "being sent. Freeing its blocks on the producer side.",
                req_id,
                envs.VLLM_MOONCAKE_ABORT_REQUEST_TIMEOUT,
            )
            del self.reqs_need_send[req_id]
        if expired_reqs:
            finished_sending_reqs.update(expired_reqs)

        return finished_sending_reqs

    def get_finished(self) -> tuple[set[str] | None, set[str] | None]:
        """
        Get requests that are done sending or recving on this specific worker.
        The scheduler process (via the MultiprocExecutor) will use this output
        to track which workers are done.
        """
        recv_fut = None
        send_fut = None
        if self.kv_role != "kv_producer":
            recv_fut = asyncio.run_coroutine_threadsafe(
                self.fetch_finished_recving_reqs(), self.receiver_loop
            )

        if self.kv_role != "kv_consumer":
            send_fut = asyncio.run_coroutine_threadsafe(
                self.fetch_finished_sending_reqs(), self.sender_loop
            )

        finished_recving_reqs = recv_fut.result() if recv_fut else set()
        finished_sending_reqs = send_fut.result() if send_fut else set()

        if finished_sending_reqs or finished_recving_reqs:
            logger.debug(
                "Rank %s, get_finished: %s requests done sending "
                "and %s requests done recving",
                self.tp_rank,
                len(finished_sending_reqs),
                len(finished_recving_reqs),
            )

        return finished_sending_reqs or None, finished_recving_reqs or None

    async def receive_kv(self, path: str, req_blocks: list[tuple[str, list[int]]]):
        req_ids, block_ids = map(list, zip(*req_blocks))
        metadata = MooncakeAgentMetadata(
            remote_hostname=self.hostname,
            remote_port=self.rpc_port,
            request_ids=req_ids,
            kv_caches_base_addr=self.kv_caches_base_addr,
            block_ids=block_ids,
        )

        encoded_data = self._encoder.encode(metadata)
        logger.debug(
            "Size of encoded MooncakeAgentMetadata: %d bytes", len(encoded_data)
        )
        logger.debug("Sending kv transfer request for %s on path: %s", req_ids, path)

        # Send query for the request.
        sock: zmq.asyncio.Socket = make_zmq_socket(
            self.async_zmq_ctx, path, zmq.REQ, bind=False, linger=0
        )
        sock.setsockopt(zmq.RCVTIMEO, 60000)
        try:
            await sock.send(encoded_data)
            ret_msg = await sock.recv()
            if ret_msg != TRANS_DONE:
                logger.error(
                    "Error happens during tranfering kvcache for %s, see logs in prefiller.",  # noqa: E501
                    req_ids,
                )
                return
        except zmq.ContextTerminated:
            logger.debug("ZMQ context terminated, exiting Mooncake receiver thread.")
        except Exception as e:
            logger.error("MooncakeAgentMetadata transfer failed for %s: %s", req_ids, e)
            return
        finally:
            sock.close()

        self.finished_recving_reqs.update(req_ids)

        logger.debug("pulling kv_caches for %s finished", req_ids)

    def group_kv_pull(self, metadata: MooncakeConnectorMetadata):
        kv_pulls = defaultdict(list)
        for req_id, meta in metadata.reqs_to_recv.items():
            logger.debug(
                "start_load_kv for request %s from remote engine. "
                "Num local_block_ids: %s.",
                req_id,
                len(meta.local_block_ids),
            )
            path = make_zmq_path(
                "tcp", meta.remote_host, meta.remote_port + self.tp_rank
            )
            kv_pulls[path].append((req_id, meta.local_block_ids))

        return kv_pulls

    async def record_send_reqs(self, metadata: MooncakeConnectorMetadata):
        for req_id, block_ids in metadata.reqs_to_send.items():
            if block_ids:
                # Already gone through request_finished()
                send_meta = self.reqs_need_send[req_id]
                send_meta.local_block_ids = block_ids
                send_meta.expire_time = (
                    time.perf_counter() + envs.VLLM_MOONCAKE_ABORT_REQUEST_TIMEOUT
                )
                send_meta.ready.set()
            else:
                # From update_state_after_alloc(),
                # but not reach request_finished() yet
                self.reqs_need_send[req_id] = SendBlockMeta(
                    local_block_ids=[],
                    ready=asyncio.Event(),
                )

    def start_load_kv(self, metadata: MooncakeConnectorMetadata):
        if self.kv_role != "kv_producer":
            kv_pulls = self.group_kv_pull(metadata)
            for path, req_blocks in kv_pulls.items():
                asyncio.run_coroutine_threadsafe(
                    self.receive_kv(path, req_blocks), self.receiver_loop
                )

        if self.kv_role != "kv_consumer":
            asyncio.run_coroutine_threadsafe(
                self.record_send_reqs(metadata), self.sender_loop
            )

_block_size `instance-attribute` ¶

_block_size: dict[EngineId, int] = {engine_id: block_size}

_decoder `instance-attribute` ¶

_decoder = Decoder(MooncakeAgentMetadata)

_encoder `instance-attribute` ¶

_encoder = Encoder()

_mooncake_receiver_t `instance-attribute` ¶

_mooncake_receiver_t = Thread(
    target=_async_loop, args=(receiver_loop,), daemon=True
)

_sender_executor `instance-attribute` ¶

_sender_executor = ThreadPoolExecutor(
    max_workers=num_sender_workers,
    thread_name_prefix="vllm-mooncake-sender",
)

_sender_listener_t `instance-attribute` ¶

_sender_listener_t = Thread(
    target=_async_loop, args=(sender_loop,), daemon=True
)

_tp_size `instance-attribute` ¶

_tp_size: dict[EngineId, int] = {engine_id: world_size}

async_zmq_ctx `instance-attribute` ¶

async_zmq_ctx = Context()

backend_name `instance-attribute` ¶

backend_name = get_name()

block_size `instance-attribute` ¶

block_size = block_size

cache_config `instance-attribute` ¶

cache_config = cache_config

device_kv_caches `instance-attribute` ¶

device_kv_caches: dict[str, Tensor] = {}

engine `instance-attribute` ¶

engine = TransferEngine()

engine_id `instance-attribute` ¶

engine_id: EngineId = engine_id

finished_recving_reqs `instance-attribute` ¶

finished_recving_reqs: set[ReqId] = set()

finished_sending_reqs `instance-attribute` ¶

finished_sending_reqs: set[ReqId] = set()

hostname `instance-attribute` ¶

hostname = get_ip()

kv_cache_layout `instance-attribute` ¶

kv_cache_layout = get_kv_cache_layout()

kv_caches_base_addr `instance-attribute` ¶

kv_caches_base_addr: list[int] = []

kv_role `instance-attribute` ¶

kv_role = kv_role

kv_topo `instance-attribute` ¶

kv_topo = TpKVTopology(
    tp_rank=tp_rank,
    engine_id=engine_id,
    remote_tp_size=_tp_size,
    remote_block_size=_block_size,
    is_mla=use_mla,
    total_num_kv_heads=get_total_num_kv_heads(),
    attn_backend=backend,
)

model_config `instance-attribute` ¶

model_config = model_config

num_blocks `instance-attribute` ¶

num_blocks = 0

num_sender_tasks `instance-attribute` ¶

num_sender_tasks = num_sender_workers * 2

num_sender_workers `instance-attribute` ¶

num_sender_workers = get('num_workers', 10)

receiver_loop `instance-attribute` ¶

receiver_loop = new_event_loop()

reqs_need_send `instance-attribute` ¶

reqs_need_send: dict[ReqId, SendBlockMeta] = {}

rpc_port `instance-attribute` ¶

rpc_port = get_rpc_port()

sender_loop `instance-attribute` ¶

sender_loop = new_event_loop()

sender_worker_queue `instance-attribute` ¶

sender_worker_queue = Queue[tuple[bytes, bytes]]()

side_channel_port `instance-attribute` ¶

side_channel_port: int = get_mooncake_side_channel_port(
    vllm_config
)

tp_group `instance-attribute` ¶

tp_group = get_tp_group()

tp_rank `instance-attribute` ¶

tp_rank = get_tensor_model_parallel_rank()

use_mla `instance-attribute` ¶

use_mla = use_mla

vllm_config `instance-attribute` ¶

vllm_config = vllm_config

world_size `instance-attribute` ¶

world_size = get_tensor_model_parallel_world_size()

del ¶

__del__()

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def __del__(self):
    self.shutdown()

init ¶

__init__(vllm_config: VllmConfig, engine_id: str)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def __init__(self, vllm_config: VllmConfig, engine_id: str):
    logger.info("Initializing Mooncake Transfer Engine worker %s", engine_id)

    self.vllm_config = vllm_config

    self.engine = TransferEngine()
    self.hostname = get_ip()
    protocol = self.vllm_config.kv_transfer_config.kv_connector_extra_config.get(  # type: ignore[union-attr]
        "mooncake_protocol", "rdma"
    )
    logger.info(
        "The Mooncake Transfer Engine is using %s as its protocol.", protocol
    )
    ret_value = self.engine.initialize(self.hostname, "P2PHANDSHAKE", protocol, "")
    if ret_value != 0:
        raise RuntimeError("Mooncake Transfer Engine initialization failed.")

    self.rpc_port = self.engine.get_rpc_port()

    logger.debug(
        "Mooncake Transfer Engine initialized at %s:%d",
        self.hostname,
        self.rpc_port,
    )

    # Mooncake handshake port.
    self.side_channel_port: int = get_mooncake_side_channel_port(vllm_config)

    self.engine_id: EngineId = engine_id
    self.tp_rank = get_tensor_model_parallel_rank()
    self.world_size = get_tensor_model_parallel_world_size()
    self.tp_group = get_tp_group()
    self.num_blocks = 0

    assert vllm_config.kv_transfer_config
    self.kv_role = vllm_config.kv_transfer_config.kv_role
    self.num_sender_workers = (
        vllm_config.kv_transfer_config.kv_connector_extra_config.get(
            "num_workers", 10
        )
    )
    # Create more tasks than workers to keep the thread pool saturated.
    # Tasks can await async events, so a surplus (2x is a robust heuristic)
    # prevents workers from idling.
    self.num_sender_tasks = self.num_sender_workers * 2

    self.kv_caches_base_addr: list[int] = []
    self.device_kv_caches: dict[str, torch.Tensor] = {}
    self.reqs_need_send: dict[ReqId, SendBlockMeta] = {}

    # For kv_both, we will act both prefiller and decoder.
    if self.kv_role != "kv_consumer":
        # Background threads for sending kvcaches to D.
        self._sender_executor = ThreadPoolExecutor(
            max_workers=self.num_sender_workers,
            thread_name_prefix="vllm-mooncake-sender",
        )
        logger.debug(
            "Mooncake Prefiller: use %d workers to send kvcaches",
            self.num_sender_workers,
        )
        # An asyncio queue to buffer incoming requests for the sender
        self.sender_worker_queue = asyncio.Queue[tuple[bytes, bytes]]()
        self.sender_loop = asyncio.new_event_loop()
        # Background thread for processing new sending requests.
        self._sender_listener_t = threading.Thread(
            target=_async_loop, args=(self.sender_loop,), daemon=True
        )
        self._sender_listener_t.start()

    if self.kv_role != "kv_producer":
        self.receiver_loop = asyncio.new_event_loop()
        self._mooncake_receiver_t = threading.Thread(
            target=_async_loop, args=(self.receiver_loop,), daemon=True
        )
        self._mooncake_receiver_t.start()
        logger.debug("Mooncake Decoder: start receiver thread")

    self.finished_sending_reqs: set[ReqId] = set()
    self.finished_recving_reqs: set[ReqId] = set()

    self.block_size = vllm_config.cache_config.block_size
    self.model_config = vllm_config.model_config
    self.cache_config = vllm_config.cache_config
    self.use_mla = self.model_config.use_mla

    # Get the attention backend from the first layer
    # NOTE (NickLucche) models with multiple backends are not supported yet
    backend = get_current_attn_backend(vllm_config)
    self.backend_name = backend.get_name()
    self.kv_cache_layout = get_kv_cache_layout()
    logger.debug("Detected attention backend %s", self.backend_name)
    logger.debug("Detected kv cache layout %s", self.kv_cache_layout)

    self._tp_size: dict[EngineId, int] = {self.engine_id: self.world_size}
    self._block_size: dict[EngineId, int] = {self.engine_id: self.block_size}
    self.kv_topo = TpKVTopology(
        tp_rank=self.tp_rank,
        engine_id=self.engine_id,
        remote_tp_size=self._tp_size,  # shared state
        remote_block_size=self._block_size,  # shared state
        is_mla=self.use_mla,
        total_num_kv_heads=self.model_config.get_total_num_kv_heads(),
        attn_backend=backend,
    )

    self.async_zmq_ctx = zmq.asyncio.Context()
    self._encoder = msgspec.msgpack.Encoder()
    self._decoder = msgspec.msgpack.Decoder(MooncakeAgentMetadata)

_build_transfer_params `async` ¶

_build_transfer_params(
    send_reqs: list[tuple[ReqId, SendBlockMeta]],
    agent_meta: MooncakeAgentMetadata,
) -> tuple[list[int], list[int], list[int]]

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def _build_transfer_params(
    self,
    send_reqs: list[tuple[ReqId, SendBlockMeta]],
    agent_meta: MooncakeAgentMetadata,
) -> tuple[list[int], list[int], list[int]]:
    src_ptrs = []
    dst_ptrs = []
    lengths = []
    local_base_addr = self.kv_caches_base_addr
    remote_base_addr = agent_meta.kv_caches_base_addr
    block_len = self.block_len
    remote_session = f"{agent_meta.remote_hostname}:{agent_meta.remote_port}"

    assert len(send_reqs) == len(agent_meta.block_ids)
    for (req_id, send_meta), remote_block_ids in zip(
        send_reqs, agent_meta.block_ids
    ):
        await send_meta.ready.wait()

        num_remote_blocks = len(remote_block_ids)
        if num_remote_blocks == 0:
            continue

        local_block_ids = send_meta.local_block_ids
        # Partial prefix cache hit: just read uncomputed blocks.
        num_local_blocks = len(local_block_ids)
        assert num_local_blocks >= num_remote_blocks
        if num_local_blocks > num_remote_blocks:
            local_block_ids = local_block_ids[-num_remote_blocks:]

        # Group by indices
        group_local_block_ids, group_remote_block_ids = group_concurrent_contiguous(
            local_block_ids, remote_block_ids
        )

        for local_layer_addr, remote_layer_addr in zip(
            local_base_addr, remote_base_addr
        ):
            for group_local_block_id, group_remote_block_id in zip(
                group_local_block_ids, group_remote_block_ids
            ):
                src_ptrs.append(
                    local_layer_addr + group_local_block_id[0] * block_len
                )
                dst_ptrs.append(
                    remote_layer_addr + group_remote_block_id[0] * block_len
                )
                lengths.append(block_len * len(group_local_block_id))

        logger.debug(
            "Sending kv_caches for request %s (%d blocks) to %s",
            req_id,
            num_remote_blocks,
            remote_session,
        )

    return src_ptrs, dst_ptrs, lengths

_mooncake_sender_listener `async` ¶

_mooncake_sender_listener(
    ready_event: Event, base_port: int, tp_rank: int
)

Background thread that listens for Mooncake requests, dispatches them to a thread pool, and sends acknowledgments upon completion.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def _mooncake_sender_listener(
    self, ready_event: threading.Event, base_port: int, tp_rank: int
):
    """
    Background thread that listens for Mooncake requests, dispatches them
    to a thread pool, and sends acknowledgments upon completion.
    """

    path = make_zmq_path("tcp", self.hostname, base_port + tp_rank)
    sock = make_zmq_socket(self.async_zmq_ctx, path, zmq.ROUTER)
    logger.debug("Mooncake sender starting listening on path: %s", path)

    # Create async worker tasks that process items from the queue
    sender_tasks = [
        asyncio.create_task(self._sender_worker(sock))
        for _ in range(self.num_sender_tasks)
    ]

    ready_event.set()

    try:
        while True:
            identity, _, metadata_bytes = await sock.recv_multipart()
            await self.sender_worker_queue.put((identity, metadata_bytes))
    except zmq.ContextTerminated:
        logger.debug("ZMQ context terminated, exiting Mooncake sender thread.")
    except Exception as e:
        logger.error("Error in Mooncake sender thread: %s. Exiting thread.", str(e))
    finally:
        # Clean up worker tasks
        for task in sender_tasks:
            task.cancel()
        await asyncio.gather(*sender_tasks, return_exceptions=True)
        sock.close()

_send_blocks ¶

_send_blocks(
    remote_session: str,
    src_ptrs: list[int],
    dst_ptrs: list[int],
    lengths: list[int],
) -> int

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def _send_blocks(
    self,
    remote_session: str,
    src_ptrs: list[int],
    dst_ptrs: list[int],
    lengths: list[int],
) -> int:
    start_time = time.perf_counter()
    ret_value = self.engine.batch_transfer_sync_write(
        remote_session, src_ptrs, dst_ptrs, lengths
    )
    if ret_value == 0:
        logger.debug(
            "Sending to %s done, took %s",
            remote_session,
            time.perf_counter() - start_time,
        )
    return ret_value

_sender_worker `async` ¶

_sender_worker(sock: Socket)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def _sender_worker(self, sock: zmq.asyncio.Socket):
    while True:
        try:
            identity, metadata_bytes = await self.sender_worker_queue.get()
            try:
                metadata = self._decoder.decode(metadata_bytes)
                await self.send_kv_to_decode(metadata)
                await sock.send_multipart((identity, b"", TRANS_DONE))
            except Exception as e:
                logger.error("Error processing Mooncake xfer request: %s", e)
                await sock.send_multipart((identity, b"", TRANS_ERROR))
            finally:
                self.sender_worker_queue.task_done()
        except asyncio.CancelledError:
            break
        except Exception as e:
            logger.error("Error in _sender_worker: %s", e)

fetch_finished_recving_reqs `async` ¶

fetch_finished_recving_reqs() -> set[ReqId]

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def fetch_finished_recving_reqs(self) -> set[ReqId]:
    finished_recving_reqs = self.finished_recving_reqs
    self.finished_recving_reqs = set()
    return finished_recving_reqs

fetch_finished_sending_reqs `async` ¶

fetch_finished_sending_reqs() -> set[ReqId]

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def fetch_finished_sending_reqs(self) -> set[ReqId]:
    finished_sending_reqs = self.finished_sending_reqs
    self.finished_sending_reqs = set()

    # Handle timeout to avoid stranding blocks on remote.
    now = time.perf_counter()
    expired_reqs = [
        req_id
        for req_id, send_meta in self.reqs_need_send.items()
        if send_meta.expire_time < now
    ]
    for req_id in expired_reqs:
        logger.warning(
            "Request %s timed out after %d seconds without "
            "being sent. Freeing its blocks on the producer side.",
            req_id,
            envs.VLLM_MOONCAKE_ABORT_REQUEST_TIMEOUT,
        )
        del self.reqs_need_send[req_id]
    if expired_reqs:
        finished_sending_reqs.update(expired_reqs)

    return finished_sending_reqs

get_finished ¶

get_finished() -> tuple[set[str] | None, set[str] | None]

Get requests that are done sending or recving on this specific worker. The scheduler process (via the MultiprocExecutor) will use this output to track which workers are done.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def get_finished(self) -> tuple[set[str] | None, set[str] | None]:
    """
    Get requests that are done sending or recving on this specific worker.
    The scheduler process (via the MultiprocExecutor) will use this output
    to track which workers are done.
    """
    recv_fut = None
    send_fut = None
    if self.kv_role != "kv_producer":
        recv_fut = asyncio.run_coroutine_threadsafe(
            self.fetch_finished_recving_reqs(), self.receiver_loop
        )

    if self.kv_role != "kv_consumer":
        send_fut = asyncio.run_coroutine_threadsafe(
            self.fetch_finished_sending_reqs(), self.sender_loop
        )

    finished_recving_reqs = recv_fut.result() if recv_fut else set()
    finished_sending_reqs = send_fut.result() if send_fut else set()

    if finished_sending_reqs or finished_recving_reqs:
        logger.debug(
            "Rank %s, get_finished: %s requests done sending "
            "and %s requests done recving",
            self.tp_rank,
            len(finished_sending_reqs),
            len(finished_recving_reqs),
        )

    return finished_sending_reqs or None, finished_recving_reqs or None

group_kv_pull ¶

group_kv_pull(metadata: MooncakeConnectorMetadata)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def group_kv_pull(self, metadata: MooncakeConnectorMetadata):
    kv_pulls = defaultdict(list)
    for req_id, meta in metadata.reqs_to_recv.items():
        logger.debug(
            "start_load_kv for request %s from remote engine. "
            "Num local_block_ids: %s.",
            req_id,
            len(meta.local_block_ids),
        )
        path = make_zmq_path(
            "tcp", meta.remote_host, meta.remote_port + self.tp_rank
        )
        kv_pulls[path].append((req_id, meta.local_block_ids))

    return kv_pulls

receive_kv `async` ¶

receive_kv(
    path: str, req_blocks: list[tuple[str, list[int]]]
)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def receive_kv(self, path: str, req_blocks: list[tuple[str, list[int]]]):
    req_ids, block_ids = map(list, zip(*req_blocks))
    metadata = MooncakeAgentMetadata(
        remote_hostname=self.hostname,
        remote_port=self.rpc_port,
        request_ids=req_ids,
        kv_caches_base_addr=self.kv_caches_base_addr,
        block_ids=block_ids,
    )

    encoded_data = self._encoder.encode(metadata)
    logger.debug(
        "Size of encoded MooncakeAgentMetadata: %d bytes", len(encoded_data)
    )
    logger.debug("Sending kv transfer request for %s on path: %s", req_ids, path)

    # Send query for the request.
    sock: zmq.asyncio.Socket = make_zmq_socket(
        self.async_zmq_ctx, path, zmq.REQ, bind=False, linger=0
    )
    sock.setsockopt(zmq.RCVTIMEO, 60000)
    try:
        await sock.send(encoded_data)
        ret_msg = await sock.recv()
        if ret_msg != TRANS_DONE:
            logger.error(
                "Error happens during tranfering kvcache for %s, see logs in prefiller.",  # noqa: E501
                req_ids,
            )
            return
    except zmq.ContextTerminated:
        logger.debug("ZMQ context terminated, exiting Mooncake receiver thread.")
    except Exception as e:
        logger.error("MooncakeAgentMetadata transfer failed for %s: %s", req_ids, e)
        return
    finally:
        sock.close()

    self.finished_recving_reqs.update(req_ids)

    logger.debug("pulling kv_caches for %s finished", req_ids)

record_send_reqs `async` ¶

record_send_reqs(metadata: MooncakeConnectorMetadata)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def record_send_reqs(self, metadata: MooncakeConnectorMetadata):
    for req_id, block_ids in metadata.reqs_to_send.items():
        if block_ids:
            # Already gone through request_finished()
            send_meta = self.reqs_need_send[req_id]
            send_meta.local_block_ids = block_ids
            send_meta.expire_time = (
                time.perf_counter() + envs.VLLM_MOONCAKE_ABORT_REQUEST_TIMEOUT
            )
            send_meta.ready.set()
        else:
            # From update_state_after_alloc(),
            # but not reach request_finished() yet
            self.reqs_need_send[req_id] = SendBlockMeta(
                local_block_ids=[],
                ready=asyncio.Event(),
            )

register_kv_caches ¶

register_kv_caches(kv_caches: dict[str, Tensor])

Register the KV Cache data in mooncake.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
    """Register the KV Cache data in mooncake."""

    logger.info("Registering KV_Caches. use_mla: %s", self.use_mla)

    kv_data_ptrs = []
    kv_data_lens = []
    seen_base_addresses = []

    split_k_and_v = self.kv_topo.split_k_and_v
    tensor_size_bytes = None
    for layer_name, cache_or_caches in kv_caches.items():
        logger.debug(
            "registering layer %s with shape %s", layer_name, cache_or_caches.shape
        )
        cache_list = cache_or_caches if split_k_and_v else [cache_or_caches]

        for cache in cache_list:
            base_addr = cache.data_ptr()
            if base_addr in seen_base_addresses:
                continue

            seen_base_addresses.append(base_addr)
            curr_tensor_size_bytes = cache.nbytes

            if tensor_size_bytes is None:
                tensor_size_bytes = curr_tensor_size_bytes
                self.num_blocks = cache.shape[0]

            assert tensor_size_bytes == curr_tensor_size_bytes, (
                "All kv cache tensors must have the same size"
            )
            kernel_block_size = cache.shape[-2 if self.use_mla else -3]
            assert self.block_size == kernel_block_size
            kv_data_ptrs.append(base_addr)
            kv_data_lens.append(tensor_size_bytes)

    self.kv_caches_base_addr = seen_base_addresses

    ret_value = self.engine.batch_register_memory(kv_data_ptrs, kv_data_lens)
    if ret_value != 0:
        raise RuntimeError("Mooncake batch memory registration failed.")

    assert tensor_size_bytes is not None
    assert self.num_blocks != 0
    assert tensor_size_bytes % self.num_blocks == 0
    self.block_len = tensor_size_bytes // self.num_blocks
    self.device_kv_caches = kv_caches
    logger.debug(
        "registered num_blocks=%d block_len=%d", self.num_blocks, self.block_len
    )

    # No need to launch server for D node.
    if self.kv_role == "kv_consumer":
        return

    ready_event = threading.Event()
    asyncio.run_coroutine_threadsafe(
        self._mooncake_sender_listener(
            ready_event, self.side_channel_port, self.tp_rank
        ),
        self.sender_loop,
    )
    ready_event.wait()  # Wait for listener ZMQ socket to be ready.

send_kv_to_decode `async` ¶

send_kv_to_decode(meta: MooncakeAgentMetadata)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

async def send_kv_to_decode(self, meta: MooncakeAgentMetadata):
    send_reqs: list[tuple[ReqId, SendBlockMeta]] = []
    for req_id in meta.request_ids:
        send_meta = self.reqs_need_send.get(req_id)
        if send_meta is None:
            logger.warning("Request %s not found in reqs_need_send", req_id)
            return
        # Mark it as not expired. We will send it now.
        send_meta.expire_time = float("inf")
        send_reqs.append((req_id, send_meta))

    src_ptrs, dst_ptrs, lengths = await self._build_transfer_params(send_reqs, meta)
    remote_session = f"{meta.remote_hostname}:{meta.remote_port}"
    ret_value = await self.sender_loop.run_in_executor(
        self._sender_executor,
        self._send_blocks,
        remote_session,
        src_ptrs,
        dst_ptrs,
        lengths,
    )

    if ret_value != 0:
        raise RuntimeError(f"Error in batch_transfer_sync_write: {ret_value}")

    for req_id in meta.request_ids:
        del self.reqs_need_send[req_id]

    self.finished_sending_reqs.update(meta.request_ids)

shutdown ¶

shutdown()

Cleanup background threads on destruction.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def shutdown(self):
    """Cleanup background threads on destruction."""
    self.async_zmq_ctx.term()
    if self.kv_role != "kv_consumer":
        self._sender_executor.shutdown(wait=False)
        if self.sender_loop.is_running():
            self.sender_loop.call_soon_threadsafe(self.sender_loop.stop)
            self._sender_listener_t.join()
    if self.kv_role != "kv_producer" and self.receiver_loop.is_running():
        self.receiver_loop.call_soon_threadsafe(self.receiver_loop.stop)
        self._mooncake_receiver_t.join()

start_load_kv ¶

start_load_kv(metadata: MooncakeConnectorMetadata)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def start_load_kv(self, metadata: MooncakeConnectorMetadata):
    if self.kv_role != "kv_producer":
        kv_pulls = self.group_kv_pull(metadata)
        for path, req_blocks in kv_pulls.items():
            asyncio.run_coroutine_threadsafe(
                self.receive_kv(path, req_blocks), self.receiver_loop
            )

    if self.kv_role != "kv_consumer":
        asyncio.run_coroutine_threadsafe(
            self.record_send_reqs(metadata), self.sender_loop
        )

RecvReqMeta `dataclass` ¶

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

@dataclass
class RecvReqMeta:
    local_block_ids: list[int]
    remote_host: str
    remote_port: int

local_block_ids `instance-attribute` ¶

local_block_ids: list[int]

remote_host `instance-attribute` ¶

remote_host: str

remote_port `instance-attribute` ¶

remote_port: int

init ¶

__init__(
    local_block_ids: list[int],
    remote_host: str,
    remote_port: int,
) -> None

SendBlockMeta `dataclass` ¶

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

@dataclass
class SendBlockMeta:
    local_block_ids: list[int]
    ready: asyncio.Event
    expire_time: float = float("inf")

expire_time `class-attribute` `instance-attribute` ¶

expire_time: float = float('inf')

local_block_ids `instance-attribute` ¶

local_block_ids: list[int]

ready `instance-attribute` ¶

ready: Event

init ¶

__init__(
    local_block_ids: list[int],
    ready: Event,
    expire_time: float = float("inf"),
) -> None

_async_loop ¶

_async_loop(loop: AbstractEventLoop)

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def _async_loop(loop: asyncio.AbstractEventLoop):
    asyncio.set_event_loop(loop)
    loop.run_forever()

get_mooncake_side_channel_port ¶

get_mooncake_side_channel_port(
    vllm_config: VllmConfig,
) -> int

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def get_mooncake_side_channel_port(vllm_config: VllmConfig) -> int:
    # This logic is now centralized
    return (
        envs.VLLM_MOONCAKE_BOOTSTRAP_PORT
        + vllm_config.parallel_config.data_parallel_index
        * vllm_config.parallel_config.tensor_parallel_size
    )

group_concurrent_contiguous ¶

group_concurrent_contiguous(
    src_indices: list[int], dst_indices: list[int]
) -> tuple[list[list[int]], list[list[int]]]

Vectorised NumPy implementation.

Source code in vllm/distributed/kv_transfer/kv_connector/v1/mooncake_connector.py

def group_concurrent_contiguous(
    src_indices: list[int], dst_indices: list[int]
) -> tuple[list[list[int]], list[list[int]]]:
    """Vectorised NumPy implementation."""
    if len(src_indices) == 0:
        return [], []

    brk = np.where((np.diff(src_indices) != 1) | (np.diff(dst_indices) != 1))[0] + 1
    src_groups = np.split(src_indices, brk)
    dst_groups = np.split(dst_indices, brk)

    src_groups = [g.tolist() for g in src_groups]
    dst_groups = [g.tolist() for g in dst_groups]

    return src_groups, dst_groups

vllm.distributed.kv_transfer.kv_connector.v1.mooncake_connector ¶

EngineId module-attribute ¶

ReqId module-attribute ¶

TRANS_DONE module-attribute ¶

TRANS_ERROR module-attribute ¶

logger module-attribute ¶

MooncakeAgentMetadata ¶

block_ids instance-attribute ¶

kv_caches_base_addr instance-attribute ¶

remote_hostname instance-attribute ¶

remote_port instance-attribute ¶

request_ids instance-attribute ¶

MooncakeConnector ¶

connector_scheduler instance-attribute ¶

connector_worker instance-attribute ¶

engine_id instance-attribute ¶

__init__ ¶

build_connector_meta ¶

get_finished ¶

get_num_new_matched_tokens ¶

register_kv_caches ¶

request_finished ¶

save_kv_layer ¶

start_load_kv ¶

update_state_after_alloc ¶

wait_for_layer_load ¶

wait_for_save ¶

MooncakeConnectorMetadata ¶

reqs_to_recv instance-attribute ¶

reqs_to_send instance-attribute ¶

__init__ ¶

add_new_req ¶

MooncakeConnectorScheduler ¶

_reqs_need_recv instance-attribute ¶

_reqs_need_send instance-attribute ¶

engine_id instance-attribute ¶

kv_role instance-attribute ¶

side_channel_host instance-attribute ¶

side_channel_port instance-attribute ¶

vllm_config instance-attribute ¶

__init__ ¶

build_connector_meta ¶

get_num_new_matched_tokens ¶

request_finished ¶

update_state_after_alloc ¶

MooncakeConnectorWorker ¶

_block_size instance-attribute ¶

_decoder instance-attribute ¶

_encoder instance-attribute ¶

_mooncake_receiver_t instance-attribute ¶

_sender_executor instance-attribute ¶

_sender_listener_t instance-attribute ¶

_tp_size instance-attribute ¶

async_zmq_ctx instance-attribute ¶

backend_name instance-attribute ¶

block_size instance-attribute ¶

cache_config instance-attribute ¶

device_kv_caches instance-attribute ¶

engine instance-attribute ¶

engine_id instance-attribute ¶

finished_recving_reqs instance-attribute ¶

finished_sending_reqs instance-attribute ¶

hostname instance-attribute ¶

kv_cache_layout instance-attribute ¶

kv_caches_base_addr instance-attribute ¶

kv_role instance-attribute ¶

kv_topo instance-attribute ¶

model_config instance-attribute ¶

num_blocks instance-attribute ¶

num_sender_tasks instance-attribute ¶

num_sender_workers instance-attribute ¶

receiver_loop instance-attribute ¶

reqs_need_send instance-attribute ¶

rpc_port instance-attribute ¶

sender_loop instance-attribute ¶

sender_worker_queue instance-attribute ¶

side_channel_port instance-attribute ¶

tp_group instance-attribute ¶

tp_rank instance-attribute ¶

use_mla instance-attribute ¶

EngineId `module-attribute` ¶

ReqId `module-attribute` ¶

TRANS_DONE `module-attribute` ¶

TRANS_ERROR `module-attribute` ¶

logger `module-attribute` ¶

block_ids `instance-attribute` ¶

kv_caches_base_addr `instance-attribute` ¶

remote_hostname `instance-attribute` ¶

remote_port `instance-attribute` ¶

request_ids `instance-attribute` ¶

connector_scheduler `instance-attribute` ¶

connector_worker `instance-attribute` ¶

engine_id `instance-attribute` ¶

init ¶

reqs_to_recv `instance-attribute` ¶

reqs_to_send `instance-attribute` ¶

init ¶

_reqs_need_recv `instance-attribute` ¶

_reqs_need_send `instance-attribute` ¶

engine_id `instance-attribute` ¶

kv_role `instance-attribute` ¶

side_channel_host `instance-attribute` ¶

side_channel_port `instance-attribute` ¶

vllm_config `instance-attribute` ¶

init ¶

_block_size `instance-attribute` ¶

_decoder `instance-attribute` ¶

_encoder `instance-attribute` ¶

_mooncake_receiver_t `instance-attribute` ¶

_sender_executor `instance-attribute` ¶

_sender_listener_t `instance-attribute` ¶

_tp_size `instance-attribute` ¶

async_zmq_ctx `instance-attribute` ¶

backend_name `instance-attribute` ¶

block_size `instance-attribute` ¶

cache_config `instance-attribute` ¶

device_kv_caches `instance-attribute` ¶

engine `instance-attribute` ¶

engine_id `instance-attribute` ¶

finished_recving_reqs `instance-attribute` ¶

finished_sending_reqs `instance-attribute` ¶

hostname `instance-attribute` ¶

kv_cache_layout `instance-attribute` ¶

kv_caches_base_addr `instance-attribute` ¶

kv_role `instance-attribute` ¶

kv_topo `instance-attribute` ¶

model_config `instance-attribute` ¶

num_blocks `instance-attribute` ¶

num_sender_tasks `instance-attribute` ¶

num_sender_workers `instance-attribute` ¶

receiver_loop `instance-attribute` ¶

reqs_need_send `instance-attribute` ¶

rpc_port `instance-attribute` ¶

sender_loop `instance-attribute` ¶

sender_worker_queue `instance-attribute` ¶

side_channel_port `instance-attribute` ¶

tp_group `instance-attribute` ¶

tp_rank `instance-attribute` ¶

use_mla `instance-attribute` ¶

vllm_config `instance-attribute` ¶

world_size `instance-attribute` ¶

del ¶

init ¶

_build_transfer_params `async` ¶

_mooncake_sender_listener `async` ¶

_sender_worker `async` ¶

fetch_finished_recving_reqs `async` ¶

fetch_finished_sending_reqs `async` ¶

receive_kv `async` ¶

record_send_reqs `async` ¶

send_kv_to_decode `async` ¶

RecvReqMeta `dataclass` ¶

local_block_ids `instance-attribute` ¶

remote_host `instance-attribute` ¶

remote_port `instance-attribute` ¶

init ¶

SendBlockMeta `dataclass` ¶

expire_time `class-attribute` `instance-attribute` ¶

local_block_ids `instance-attribute` ¶

ready `instance-attribute` ¶