Local GPU Translation

GPU 릴레이

로컬 GPU 워커, 큐, 라우팅, 모델 상태를 한 화면에서 관리하는 운영 콘솔입니다.

로그인확인 중

아이디 비밀번호

연결 중

아직 갱신되지 않음

관리자

사용자 승인, 비활성화, 서비스별 API 키 발급을 관리합니다.

사용자 및 API 키관리자

API 키 이름

불러온 사용자가 없습니다.

불러온 API 키가 없습니다.

계정

로그인한 사용자의 비밀번호를 변경합니다.

계정로그인됨

현재 비밀번호 새 비밀번호

현황

워커 연결, 처리 중 요청, 큐 대기, 실패와 서킷 상태를 확인합니다.

워커

처리 중

대기열

STT 대기열

여유 슬롯

실패

연결된 워커0

활성 요청0

통계

최근 API 호출 기준의 GPU별 처리 시간, 큐 대기 시간, 실패 건수를 확인합니다.

API 호출 통계대기 중

통계 조회 대기 중입니다.

요청 로그0건

최근 요청이 없습니다.

라우팅

대기열, failover, worker circuit breaker 정책을 조정합니다. 변경 사항은 DB에 저장됩니다.

라우팅 설정대기 중

대기열 크기 ? GPU별 대기열 ? normal 제한 ? priority 제한 ? highest 제한 ? 대기 시간(ms) ? 실패 임계값 ? 차단 시간(ms) ? 스트리밍 전 GPU failover 사용 ? 오래 대기한 요청 승격 ? normal → priority(ms) ? priority → highest(ms) ?

LLM 테스트

현재 로드된 GPU 슬롯 또는 모델로 OpenAI-compatible chat completion을 직접 호출합니다.

LLM 테스트대기 중

모델 추론 온도 최대 토큰

스트림 도구 호출

모델 목록을 새로고침하면 모델별 지원 옵션이 적용됩니다.

프롬프트

이미지 미지원

선택된 이미지 없음

음성 미지원

녹음된 음성 없음

아직 테스트 출력이 없습니다.

STT 테스트

현재 연결된 STT 워커 모델로 녹음한 음성을 OpenAI-compatible audio transcription endpoint에 보냅니다.

STT 테스트대기 중

STT 모델 언어 응답

프롬프트

음성 녹음 가능

녹음된 음성 없음

재생할 음성 없음

아직 테스트 출력이 없습니다.

GPU 슬롯

워커를 안정적인 GPU 번호에 매핑하고 worker 동시 처리값을 조정합니다.

GPU 슬롯 매핑런타임 매핑

워커 ? GPU # ? 동시 처리 ? GPU failover ? GPU 미사용 ?

교체 원본 번호 ? 교체 목표 번호 ?

연결된 GPU 워커가 없습니다.

모델 관리

선택한 워커의 모델 백엔드 상태를 조회하고 지원되는 작업을 관리합니다.

워커 선택

먼저 모델 작업을 수행할 Windows GPU worker를 선택합니다.

워커 선택

워커

로드 제어

선택한 워커의 로컬 LM Studio 모델 목록을 새로고침하고, 사용할 모델을 GPU에 로드합니다.

로드할 모델 컨텍스트

Flash GPU KV

새 모델 다운로드

Hugging Face에서 검색해 선택하거나, LM Studio catalog ID/Hugging Face URL을 직접 입력합니다.

Hugging Face 모델 검색 ?

Hugging Face 모델을 검색할 수 있습니다.

다운로드할 모델 ID 또는 Hugging Face URL ? Quantization ?

다운로드 진행

최근 시작한 다운로드 작업의 상태와 속도를 확인합니다.

진행 중인 다운로드가 없습니다.

모델 목록

선택한 워커의 로컬 LM Studio 모델 목록을 확인합니다.

선택된 워커가 없습니다.

API 문서

외부 앱에서 gpu-relay를 호출할 때 필요한 주요 API와 요청 예시입니다.

인증

관리자 메뉴에서 발급한 API 키를 bearer token으로 전달합니다.

Authorization: Bearer <relay-api-key>

GET /v1/models

현재 연결된 worker에 로드되어 사용 가능한 모델과 GPU 슬롯 alias를 OpenAI-compatible 목록으로 반환합니다. gpu_relay.gpus에는 gpu, gpu-0 같은 라우팅 항목과 로드 모델, 큐 상태가 포함됩니다.

curl https://gpu-translation.develeste.com/v1/models \
  -H "Authorization: Bearer $GPU_RELAY_API_KEY"

POST /v1/chat/completions

OpenAI-compatible chat completion입니다. model에는 gpu, gpu-0 같은 GPU 번호 또는 실제 모델명을 사용할 수 있습니다. queue_priority는 normal, priority, highest 중 하나입니다. temperature를 생략하면 모델 관리에서 저장한 GPU+모델별 기본값이 적용되고, 저장값이 없으면 0입니다.

curl https://gpu-translation.develeste.com/v1/chat/completions \
  -H "Authorization: Bearer $GPU_RELAY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpu",
    "stream": true,
    "queue_priority": "highest",
    "failover": true,
    "messages": [
      {"role": "system", "content": "Translate accurately. Return only translated text."},
      {"role": "user", "content": "Hello, this is a GPU relay test."}
    ]
  }'

라우팅 규칙

model: "gpu"는 모델명과 무관하게 가장 여유 있는 GPU 큐로 들어갑니다. model: "gpu-1"은 해당 GPU 큐에 들어갑니다. 모델명을 지정하면 그 모델이 로드된 GPU 중 가장 여유 있는 큐를 선택합니다.

failover를 요청에 넣으면 GPU별 설정과 전역 기본값보다 우선합니다. 요청에 없으면 GPU 슬롯의 failover 설정을 따르고, GPU별 설정이 없으면 라우팅 화면의 전역 기본값을 사용합니다.

Structured Output

response_format이 있으면 worker가 LM Studio /api/v1/chat의 system prompt 끝에 JSON 출력 규칙을 주입하고, 응답 JSON을 검증해 반환합니다. reasoning은 LM Studio 모델 메타데이터의 capabilities.reasoning.allowed_options에 있을 때만 전달합니다.

{
  "model": "gpu-0",
  "messages": [{"role": "user", "content": "Translate Hello to Korean"}],
  "response_format": {
    "type": "json_schema",
    "json_schema": {
      "name": "translation",
      "schema": {
        "type": "object",
        "properties": {"text": {"type": "string"}},
        "required": ["text"]
      }
    }
  }
}

응답 메타데이터

최종 응답에는 실제 처리한 worker, GPU, 모델 정보가 gpu_relay로 포함됩니다.

{
  "gpu_relay": {
    "worker_id": "home-gpu-01",
    "gpu_index": 0,
    "gpu_alias": "gpu-0",
    "model": "qwen/qwen3-vl-4b",
    "requested_model": "gpu-0"
  }
}

GET /status

대시보드와 동일한 worker, GPU별 priority queue, circuit, active request 상태를 반환합니다.

curl https://gpu-translation.develeste.com/status \
  -H "Authorization: Bearer $GPU_RELAY_API_KEY"

요청 로그와 통계

최근 API 호출 로그와 GPU별 응답 시간, 호출 건수, 오류 수를 조회합니다.

curl https://gpu-translation.develeste.com/requests \
  -H "Authorization: Bearer $GPU_RELAY_API_KEY"

curl https://gpu-translation.develeste.com/stats/summary \
  -H "Authorization: Bearer $GPU_RELAY_API_KEY"

관리 API

세션 로그인한 관리자만 호출합니다. 대시보드에서 GPU 슬롯, worker 동시성, 라우팅 설정, 모델 백엔드 관리를 수행합니다.

GET /gpu-slots
PUT /gpu-slots/{worker_id}
PUT /gpu-slots/{worker_id}/failover
PUT /gpu-slots/{worker_id}/disabled
PUT /workers/{worker_id}/max-concurrency
GET /routing/config, PUT /routing/config
GET /workers/{worker_id}/lmstudio/models
POST /workers/{worker_id}/lmstudio/models/load
POST /workers/{worker_id}/lmstudio/models/unload
POST /workers/{worker_id}/lmstudio/models/download
GET /huggingface/models?q={query}