
agent-desktop — 접근성 트리로 네이티브 앱 제어하는 AI 에이전트 CLI
스크린샷·픽셀매칭 없이 OS 접근성 트리(accessibility tree)로 어떤 데스크톱 앱이든 제어하는 Rust 기반 CLI 입니다. 관찰·상호작용·키보드/마우스·창 관리까지 54개 명령을 제공하고, progressive skeleton traversal 로 빽빽한 화면에서 토큰을 78~96% 줄입니다. @e1 같은 결정론적 element ref 와 C-ABI FFI 로 파이썬·Node·Swift 등에서 바로 호출됩니다. 894 stars, Apache-2.0, 6/28 v0.4.3.
💡💡 브라우저 밖 네이티브 앱까지 다루는 데스크톱 에이전트를 만들 때, 스크린샷 의존을 걷어내고 구조화된 UI 접근으로 갈아탈 수 있는 1차 도구입니다.
- 누가
- lahfir (오픈소스 메인테이너)
- 무엇을
- OS 접근성 트리로 네이티브 데스크톱 앱을 제어하는 AI 에이전트용 Rust CLI — 스크린샷·픽셀매칭 없이 구조화된 UI 접근
- 언제
- 2026-06-28 (v0.4.3 release)
- 어디서
- GitHub (lahfir/agent-desktop), macOS/크로스앱 (Finder·Safari·Slack·VS Code 등)
- 왜
- 스크린샷 기반 컴퓨터 유즈의 토큰·지연·오류를 접근성 트리 구조화 접근으로 78~96% 절감하고 결정론적 element ref 제공
- 어떻게
- 54개 명령 + snapshot/refs(@e1) + C-ABI FFI 로 파이썬·Node·Swift·Go·Ruby·C 에서 호출
#agent-desktop#desktop-automation#accessibility-tree#rust#computer-use
이미지: AI 생성 이미지원문 →
