Daily Digest — 2026-05-21

2026-05-21

Google I/O 2026과 Marketing Live 2026이 광고·커머스·검색의 에이전트 전환을 일제히 박았고, 채널톡 타운홀이 'SaaS는 끝났다'는 진단을 공식화하며 1인 + 다중 에이전트 사례가 줄지어 입증됐다. 동시에 npm 314 패키지·GitHub 내부 저장소·CISA AWS GovCloud 노출이 같은 주에 터지며 공급망 신뢰가 흔들렸고, Codex 73시간 1세션·HoYeon Lee의 '얇은 하네스'·Code as Agent Harness 102p 논문이 'thin harness fat skills' 합의를 굳혔다.

Daily Digest — 2026-05-21

오늘의 핵심 흐름

"SaaS는 끝났다"라는 명제가 한국 빌더 사이드에서 공식화되는 날 — 채널톡 대표가 전사 타운홀에 모신 렛서 심규현 대표는 4개 조직 관찰 결과 "대표 100% / 임원 60-70% / 일반 직원 20%"의 적응률, 10개 브랜드 중 8곳이 Claude Code를 배우자마자 채널톡·HR·ERP·CRM 대체부터 검토 중이라고 공유했다. 같은 결의 사례가 줄지어 입증된다 — Dylan Ko의 12개 AI 에이전트 팀이 5시간 만에 워킹 프로토타입을 만들고, 닉 바실레스쿠는 고객당 월 $5,000에 "관리형 AI 직원"을 운영하며, Donggun Lee(마리트)는 슬랙 봇으로 받은 피드백을 Claude가 PR까지 만들어 매일 아침 배포 여부만 결정한다. (→ A·C 섹션)
Google이 검색·광고·커머스·코딩을 한꺼번에 에이전트화한 한 주 — I/O 2026에서 Gemini Spark(24시간 가동 개인 에이전트), Gemini Omni(영상판 Nano Banana), AI Studio 원클릭 안드로이드 배포, TPU 8i가 풀렸고, 데미스 하사비스는 "특이점의 초입"을 선언했다. 같은 주 Marketing Live 2026이 30+ 발표를 쏟아내며 Universal Commerce Protocol(에이전트가 검색→구매까지 자동), AI Mode 광고 노출, Meridian GeoX 인과 측정, Ask Advisor 단일 채팅 광고 운영을 한 번에 묶었다. t3.gg는 "Google은 인프라·인재·생태계 다 갖췄지만 내부 정치로 아무것도 완성 못 한다"고 작심 비판하며 Gemini 3.5 Flash 가격·Antigravity CLI·Railway 차단 3대 문제를 짚었다. (→ B 섹션)
에이전트 하네스 합의가 'thin harness, fat skills'로 굳어진다 — 골빈해커가 Codex 한 세션을 73시간 연속으로 돌리며 운영/배포 빼고 70% 완료, 비결은 "특별한 하네스 안 씀, 순정 Codex + 200줄 AGENTS.md + 스펙"이라고 공개. HoYeon Lee는 "하네스를 의도적으로 얇게 유지, 사람이 잡는 한 점은 PRD뿐"이라고 정리. Bumgeun Song은 "Skill은 확률적이라 Lint가 결정적 통제 지점"이라며 커스텀 Lint 40개+로 hook 차단을 강제. JAEGYU LEE는 Agent OS의 4C(Context/Contract/Control/Confidence)를 제안. 같은 주 Meta·Stanford·UIUC 40인이 쓴 102페이지 "Code as Agent Harness"는 "지능 1%, 데이터 90%, 하네스 9%"를 결론으로 박았다. (→ A·G 섹션)
공급망 보안이 한 주에 3연속 사건으로 흔들림 — Mini Shai-Hulud가 npm 패키지 314개·637 버전을 침해(2026-05-19), GitHub 내부 저장소가 TeamPCP/UNC6780 주장대로 무단 접근당했다(GitHub 공식 확인), CISA 외주 계약자가 AWS GovCloud 자격증명을 공개 GitHub 저장소에 노출했다. 동시에 Anthropic이 MCP Tunnel을 통해 "에이전트가 자격증명을 절대 보지 않는" OAuth/SAML 분리 아키텍처를 풀었고, Reddit에서는 "AI가 실시간으로 악화되고 있다"는 모델 붕괴 우려와 Apple Tahoe 26.5의 Spotlight 90% 인덱싱 실패가 같은 결로 회자됐다. (→ D 섹션)
연구 레이더가 에이전트 평가 정량화 + RLVR 한계 + KV 캐시 효율로 동시 이동 — SpecBench는 long-horizon 코딩 에이전트의 reward hacking을 측정하는 새 벤치마크, LongMINT는 평균 138.8k·최대 1.8M 토큰의 다목적 간섭 메모리 평가, Insights Generator는 corpus-level trace 진단, S-Bus는 read-set 자동 재구성, APEX는 self-evolving 정책 탐색을 풀었다. RLVR 쪽에서는 Unlearnability(RLVR이 못 가르치는 도메인 식별), Minimal RLVR(rank-1 trajectory만으로 외삽), POW3R(정적 rubric → 정책 인지 신호)이 같은 결을 다른 각도에서 짚었다. KV 캐시는 OScaR(Occam's Razor)와 OCTOPUS(octahedral parametrization)가 극저비트 양자화로 7.83× 처리량을 보고했다. (→ G·H·I 섹션)
한국 빌더 캘린더가 한 줄로 정렬됨 — Anthropic 시그니처 글로벌 해커톤 Push to Prod가 인도·싱가포르·헬싱키를 거쳐 6월 18일 서울 코엑스 308호에 상륙(13:00-18:00, 호스트는 Anthropic+Replit+한국투자파트너스+한국투자액셀러레이터). 같은 날 Codex Impact Sprint 한·영 입문 가이드가 공개됐고, 비즈라우터는 작년 8월 출시 이후 어제 하루 15억 토큰을 소비하며 AI3 토큰의 30%+를 차지했다. 알토스벤처스 오문석 파트너 인터뷰(100여 개 투자, 8년 연속 선호 VC 1위)와 Glean의 Arvind Jain "12년 2개 유니콘"이 같은 결로 묶였다. (→ C·F 섹션)

A. 에이전트 코딩 · 하네스 · 운영 검증

이번 주 가장 두꺼운 묶음. "Codex 1세션 73시간 자율 실행", "하네스를 의도적으로 얇게 유지", "Skill은 확률적, Lint는 결정적"이 같은 결의 발언으로 한 주에 응축됐고, Meta·Stanford·UIUC 40인이 쓴 102페이지 "Code as Agent Harness"가 학계 메인스트림으로 진입했다. 같은 주 LangChain Deep Agents Interpreter, Forge, Cursor Composer 2.5가 운영 인프라를 받쳐주는 형태로 풀렸다.

Codex 자율 개발 73시간 — 한 세션, 200줄 AGENTS.md만으로

LinkedIn · Jin Joong Kim, Threads · @golbin, Threads · @golbin 67h
골빈해커(Jin Joong Kim/golbin)가 Codex 한 세션을 끊지 않고 73시간 연속으로 돌리는 실시간 보고. 운영/배포 관점을 빼면 스펙 내 구현/검증 70% 완료, E2E 테스트 결과물을 저장하며 진행. Codex $200 플랜의 사용량이 105%를 찍었고 Codex팀이 리셋해줬다는 디테일까지 공개. 67시간 시점에 들어온 질문들("한 세션이냐, 컨텍스트 어떻게 유지, 작업 범위 안 벗어나냐, 하네스 뭐 쓰냐")에 대한 답이 인상적이다 — 특별한 하네스나 스킬 안 쓴다. 순정 Codex에 200줄짜리 AGENTS.md, 스펙에 작업 방침과 체크리스트, 잘 작성한 시작 지시문이 전부. 컨텍스트 압축은 Codex가 알아서 한다. (1) Codex의 자율 장기 실행이 실험실이 아니라 "한 개인이 그냥 돌리는" 수준에 도달, (2) 두꺼운 하네스 없이 잘 쓰인 AGENTS.md + 체크리스트만으로 굴러간다는 점, (3) 자율 실행의 진짜 비용은 토큰 사용량 — $200 플랜으로 73시간이면 한계점이라는 사실이 한 사례로 동시 입증된다.

"하네스를 걷어내고 있습니다" — HoYeon Lee의 얇은 하네스 선언

LinkedIn · HoYeon Lee
HoYeon Lee가 "요즘 제 개발 환경은 점점 단순해지고 있습니다"로 시작하는 글에서 하네스를 의도적으로 얇게 유지하는 운영 철학을 정리. 자기 흐름을 6단계로 압축: clarify → specify(PRD) → /goal → 에이전트 검증 → 사람 리뷰 → compound. 핵심 주장은 사람이 에이전트의 결과를 쉽게 검증할 수 있게 PRD 한 군데만 단단히 잡으면 나머지는 에이전트가 알아서 한다는 것. 이게 73h Codex 사례(200줄 AGENTS.md)와 정확히 같은 결이다. 메인으로 쓰는 두 에이전트는 Hermes(개인 비서, 맥미니에 두고 Obsidian과 연결, 텔레그램→슬랙 이전 중)와 Codex(맥미니·맥북·아이폰을 끊김 없이 오가는 IDE형). 인용 포인트: "사람이 할 일은 하네스를 더 두껍게 쌓는 게 아니라, 에이전트가 잘하는 만큼 제 하네스를 계속 덜어내는 것."

Lint가 가장 저평가된 AI 하네스다 — Bumgeun Song의 40개 커스텀 규칙

LinkedIn · Bumgeun Song
Bumgeun Song이 "주변 보면 Skill은 다들 100개씩 있는데, Lint는 거의 신경 안 쓴다"는 관찰에서 출발해 Lint가 가장 저평가된 AI harness라고 주장. 핵심 논리는 Skill이 확률적이라 AI가 규칙에서 벗어나기 쉬운 반면 Lint는 결정적(deterministic)이라는 것. 'useEffect 금지' 같은 규칙은 오탐 때문에 안 된다고 생각했는데, 의도만 말하면 AI가 lint 규칙을 잘 짜준다는 점을 발견. 막을 수 있는 범위가 안 쓰는 변수 같은 미용 수준이 아니라 파일명/의존성/handler 안에 들어가면 안 되는 코드까지 확장. 운영의 핵심은 hook으로 커밋 전 Lint 강제 실행해 에이전트가 자가 수정하게 만드는 피드백 루프. Lint 규칙은 남이 만든 걸 가져오지 말고 AI 세션 회고에서 뽑아내라는 게 운영 팁. 본인 코드베이스에 커스텀 Lint 규칙 40개+. lint 없는 코드베이스에서 작업했더니 "AI가 자기 마음대로 막춤을 췄다"는 비교 일화로 강력함을 증명.

Agent OS의 4C — Context / Contract / Control / Confidence

LinkedIn · JAEGYU LEE, slides
JAEGYU LEE가 Arize AI meetup 발표에서 Agent OS를 "agent의 비결정성을 운영 가능한 형태로 감싸는 contract layer"로 정의. 본인이 만든 Ouroboros에서 Planning surface와 Verification surface를 분리하고, RLM forge에서 언급한 traceGuard(Bloom filter 유사 구조로 False Negative를 막아 drift/hallucination 차단)를 도입. 가장 인용 가치 있는 표현은 "Context는 agent가 참고하는 배경, Contract는 agent가 반드시 지켜야 하는 실행 조건" — OS 레이어의 본질은 컨텍스트를 더 주는 게 아니라 contract를 명확하게 만드는 것. 4C 프레임워크는 Lint(결정적 contract), PRD(한 점에 집중), Code as Agent Harness 논문의 3계층과 정확히 같은 결을 다른 어휘로 풀고 있다. Notion Product Lead Eric Goldman도 Agent OS를 공식 언급한 점이 함께 인용 가능.

Code as Agent Harness — Meta·스탠퍼드·UIUC 40인이 쓴 102p 바이블

LinkedIn · kiwoong yeom
Meta, Stanford, University of Illinois Urbana-Champaign 등 40여 명 공동 저술한 102페이지 논문 정리. 핵심 패러다임 전환: LLM을 "코드를 생성하는 대상"에서 "코드를 통해 스스로 세상을 탐색·검증하는 에이전트"로 본다. 하네스는 인터페이스/메커니즘/확장성 3계층으로 모델링되며, 핵심 루프는 계획→샌드박스 코드 실행→컴파일러·에러 로그로 검증(Executable Verification). 5대 신흥 도메인 중 가장 인상적인 수치 두 개: 알리바바의 LingmaAgent가 실제 사내 프로덕션 이슈의 16.9%를 완전 자율로 해결(43.3%는 수동 개입 포함), 버클리 A-Lab은 코드로 실제 물리 로봇·실험 장비를 제어해 17일 만에 41개의 새 무기 화합물을 합성. 프론티어 기법: L2MAC(파일 시스템 블랙보드로 멀티 에이전트 메모리 중앙 제어), EvoMAC(런타임에 에이전트 협업 구조 자체 재구성), MAGE(클럭 에지 단위 파형 스냅샷을 디버깅 힌트로). 결론이 인용 포인트 — "지능을 가진 모델은 1%의 엔진, 고품질 데이터가 90%, 환경·권한 통제하는 에이전트 하네스 설계가 9%."

Workforce Intelligence + Agent Harness — 채용 AI의 새 표준 (SearcHRight)

LinkedIn · Seungmo Yang
SearcHRight의 Seungmo Yang이 채용 AI의 진짜 차별점을 정리. 시장에 채용 솔루션이 쏟아져도 다 같은 AI 모델 위에 올라가 있어 회사마다 결과가 다른 이유는 모델 아래 깔린 두 자산이라고 주장. (1) Workforce Intelligence — 회사 고유 데이터, 성장 단계별로 어떤 스킬 조합이 필요한지, 이력서 너머의 흔적. AI 모델이 다음 버전 나오면 누구나 똑똑해지지만 이 데이터는 시간 누적이 필요한 자산. (2) Agent Harness — 소싱/아웃리치/스크리닝/인터뷰 에이전트가 같은 두뇌를 공유, 한 번 발견한 규칙이 검증 후 시스템 전체 스펙으로 박혀 한 번의 학습이 영구히 쌓이는 구조. 두 자산이 결합돼 시간이 갈수록 격차가 벌어진다는 주장은 "모델은 commodity, 데이터·하네스가 차별점"이라는 Code as Agent Harness 논문의 비즈니스 적용 사례다.

DESIGN.md 공개 레지스트리 — CLAUDE.md/AGENTS.md/DESIGN.md 표준화

LinkedIn · 출처 SNS-21
CLAUDE.md/AGENTS.md에 이어 DESIGN.md를 공식 레지스트리로 만드는 움직임. 디자인 시스템·컴포넌트 규약·접근성 정책을 한 파일에 모으고, 에이전트가 이를 단일 진실 원천으로 참조하게 한다. Code as Agent Harness 논문의 "환경·권한 통제 9%"와 같은 결 — 사람이 잡아야 할 결정적 통제 지점에 자원을 집중하자는 흐름의 디자인 영역 확장.

vibe coding 14단계 — 10년차 SWE가 정리한 워크플로우

Reddit · r/ChatGPTCoding
10년차 SWE가 Reddit에 올린 vibe coding 베스트 프랙티스 정리가 큰 호응을 얻었다. 14단계의 골자: 짧은 컨텍스트로 시작 → 작업 분할 → 명시적 검증 단계 → 에이전트가 "끝났다"고 말할 권한 제한 → 실패 패턴 회고 → 다음 세션 시드로 변환. Bumgeun Song의 "AI 세션 회고에서 Lint 뽑아내라"와 정확히 같은 결. 인용 가능한 한 줄: "vibe coding은 'AI에게 다 맡기는 것'이 아니라 '인간이 잡아야 할 한 점을 분명히 하고 나머지를 위임하는 것'."

LangChain Deep Agents "Interpreter" + Forge + Cursor Composer 2.5

News · langchain.com, News · forge.dev, News · cursor.com
LangChain Deep Agents에 Interpreter 레이어가 추가됐다. 도구 호출과 샌드박스 사이를 잇는 중간 추론 레이어로, 에이전트가 산출한 코드를 즉시 샌드박스에서 실행하고 결과를 다시 추론에 피드백한다. Forge는 8B 모델로도 가드레일·컨텍스트 관리만 잘 잡으면 에이전트 신뢰성이 충분히 끌어올려진다는 사례를 공개 — 모델 크기보다 운영체계가 결과를 결정한다는 흐름. Cursor Composer 2.5는 Cursor 내에서 가장 많이 선택받는 모델로 자리 잡았다(공식 메트릭). 세 발표는 같은 결로 묶인다 — "에이전트 라이프사이클의 각 단계가 모듈로 분해되고, 각 모듈의 운영 품질이 차별점이 된다."

Codex Impact Sprint + Codex+Telegram + OmO 재작성 — 운영 인프라 보강

LinkedIn · 출처 SNS-22, Threads · @jwon.ig, LinkedIn · 출처 SNS-30
Codex Impact Sprint 한·영 입문 가이드가 동시 배포. 기존 사용자에게는 베스트 프랙티스 정리, 신규에게는 30분 안에 첫 자율 실행 세션을 만드는 길잡이. Codex + Telegram 직결(jwon.ig)은 토큰 청구 걱정 없이 텔레그램에서 명령을 보내고 결과를 받는 패턴 — "노트북 안 켜도 Codex가 돈다"는 운영 모델. **OmO(oh-my-openagent)**는 오픈코드 분리 후 Codex/Pi 기반 재작성 중. 셋 다 "사용자가 잡아야 할 한 점을 분명히 하고, 나머지는 운영 인프라가 담아낸다"는 같은 결.

MCP Tunnel + Shopify Catalog 개방 + Mirage 가상 파일시스템

Reddit · r/mcp, Reddit · r/shopify, Hacker News · mirage.dev
Anthropic의 MCP Tunnel 아키텍처가 r/mcp에서 깊이 분석됐다 — 에이전트가 자격증명을 절대 보지 않는 구조다. OAuth/SAML로 사람이 인증한 토큰을 Tunnel이 보관하고, 에이전트는 토큰 자체에 접근하지 않고 Tunnel 너머의 도구만 호출한다. Shopify는 상품 카탈로그 전체를 AI 에이전트에 개방하는 인프라를 풀었다 — 가격 비교 에이전트의 인프라 표준 후보. Mirage는 S3·GDrive·Slack을 하나의 트리로 묶는 에이전트용 통합 가상 파일시스템(VFS) — 에이전트가 여러 소스의 파일을 단일 경로 체계로 접근. 세 발표는 "에이전트 ↔ 외부 시스템의 표준 인터페이스가 빠르게 굳고 있다"는 그림.

"코드를 직접 타이핑하라" — freecoding 능력의 재발견 + Claude Projects → Codex 5분 가이드

Hacker News · 출처 NEWS2-06, YouTube · 출처 YT-02, YouTube · 출처 YT-07
에이전트 시대일수록 freecoding(에이전트 없이 직접 타이핑) 능력이 차별점이라는 글이 hacker news에서 회자. 핵심 주장은 "에이전트는 사람이 짠 코드의 결을 따라간다 — 사람이 결을 잃으면 에이전트도 결을 잃는다." 같은 결의 YouTube 영상 둘: "The AI Career Opportunity Nobody Is Talking About in 2026"는 에이전트 운영자 역할이 다음 5년의 핵심 직무라는 진단, "How to Use Your Claude Code Projects in Codex in 5 Mins"는 두 도구 사이 컨텍스트 이식의 실전 가이드. SaaS의 종말(C 섹션)과 짝지으면 — 도구는 commodity, 사람의 결이 차별점이라는 결론.

B. 모델 · 플랫폼 · 정책 — Google I/O 2026, Karpathy, OpenAI

같은 주에 Google이 검색·광고·커머스·코딩을 한 번에 에이전트화하고, Karpathy의 Anthropic 합류가 SNS·뉴스·YouTube 동시 진입, OpenAI는 80년 묵은 Erdős 문제를 풀었다. 인프라 축에서는 Anthropic이 SpaceX/Colossus 2와 인프라 동맹을 강화하고, OpenAI는 싱가포르 Applied AI Lab에 S$300M을 투입한다.

Google I/O 2026 종합 — Gemini Spark·Omni·AI Studio + 하사비스 "특이점 초입"

Threads · @choi.openai, Threads · Gemini Spark, Threads · 하사비스, Threads · Gemini Omni, Threads · AI Studio, News · blog.google
Google I/O 2026의 핵심 발표들이 SNS 풀에서 가장 많이 회자된 주제. 가장 큰 한 방은 Gemini Spark — Gmail/Docs/Sheets/Slides를 직접 읽고 Google Cloud에서 24시간 돌아가는 개인 AI 에이전트, 메일 처리, 문서 작성, 일정, follow-up까지 이어서 처리. choi.openai의 표현이 인상적이다 — "AI를 얼마나 똑똑하게 만드느냐"보다 "누가 오래 안정적으로 돌리는 클라우드 에이전트를 운영하느냐" 경쟁으로 게임이 옮겨갔다. 두 번째 큰 한 방은 Gemini Omni — 이미지·오디오·영상·텍스트 멀티모달 입력으로 고품질 영상을 생성하고 대화하듯 편집할 수 있는 모델, 영상판 Nano Banana. 세 번째는 Google AI Studio의 안드로이드 앱 원클릭 배포 — Gemini 3.5 Flash 기반으로 앱을 생성하고 바로 실기기에 설치, Gmail/Docs 같은 Workspace 연동도 가능, "앱 개발이 점점 문서 작성처럼 바뀌고 있다"는 표현이 인용 포인트. DeepMind CEO 데미스 하사비스가 마지막에 던진 한 줄 — "우리는 특이점의 초입에 서 있다(at the edge of the singularity)" — 이 SNS에서 가장 많이 캡처됐다.

Google Marketing Live 2026 — Universal Commerce Protocol + AI Mode 광고 + 30+ 발표

LinkedIn · 임근영, Threads · @isaac.perform
같은 주 Google Marketing Live 2026이 30+ 업데이트를 쏟아냈고, 임근영이 6개 카테고리(검색/유튜브·크리에이터/측정/커머스/앱/AI 크리에이티브)로 정리. 가장 임팩트 큰 발표 4개: (1) Universal Commerce Protocol — AI 에이전트가 상품 검색부터 구매 완료까지 자동으로 수행하는 표준 프로토콜, 에이전틱 커머스 표준 후보. (2) AI Mode 광고 노출 — Google 검색의 AI 답변 자리에 광고가 들어가는 새 포맷, SEO/GEO 업계 근본 질문이 바뀜. (3) Meridian GeoX/Studio(오픈소스) — 광고가 매출에 얼마나 기여했는지 지역 실험으로 인과관계를 증명. (4) Ask Advisor — Google Ads·Analytics·Merchant Center·DV360을 단일 AI 채팅 인터페이스로 통합 운영. 그 외 AI Brief(브랜드 방향만 입력하면 타겟·소재·목표 자동 설정), Business Agent for Leads(광고 안에서 실시간 응답), Asset Studio(소재 수집·생성·테스트·측정 통합), Deep Link Agent(딥링크 구현 코드 수분 내 자동). 마케터 업무 영역을 AI 에이전트가 직접 흡수하는 발표가 가득.

Google "Web에 전쟁 선포" — Search IO 2026 키노트와 링크 패러다임 폐기

Hacker News · blog.google
Search IO 2026 키노트가 "10개의 파란 링크 시대는 공식적으로 끝났다"는 진단을 받았다. AI Mode 월간 사용자 10억 명, 분기마다 쿼리 2배 이상 증가. 검색창 자체가 25년 만에 다시 그려졌고, 텍스트·이미지·파일·영상·Chrome 탭이 단일 입력으로 들어간다. 그 위에 3가지 에이전트 기능 — Information Agents가 24/7 백그라운드로 부동산·발매·매물을 감시, Local agentic booking(미국 한정)이 식당·미용·가전 수리를 자동 예약, Antigravity 코딩 환경이 검색 안에서 미니앱·트래커를 즉석 생성. 같은 발표가 Marketing Live 2026의 AI Mode 광고 노출과 짝지어지면서 "검색 결과가 곧 광고이자 에이전트"라는 그림이 완성된다.

Gemini CLI 종료 + Antigravity CLI 이관 + t3.gg 작심 비판

News · 출처 NEWS1-03, Threads · @flowkater t3.gg 정리
Gemini CLI는 2026-06-18에 일반 사용자 대상 응답 중단 후 Antigravity CLI로 이관된다 — Antigravity 2.0이 Desktop App·CLI·SDK·IDE 4 표면 동시 공개되면서 CLI 라인은 통합됐다. 반대편에서 t3.gg(Theo)는 "Google은 인프라·인재·생태계 모두 갖췄지만 내부 정치로 아무것도 완성하지 못한다"고 작심 비판. 3대 문제: (1) Gemini 3.5 Flash의 처참한 가격 모델 — Pro 대비 가격 차가 크지 않은데 capability 격차는 큼, (2) Antigravity CLI = 내부 정치 + Cursor 카피캣 — Gemini CLI를 죽이면서 새 CLI를 만든 이유가 조직 정치 외 설명되지 않음, (3) Railway 계정 차단 — 신뢰 못 할 클라우드 — 같은 주 Railway가 GCP에서 약 32시간 차단된 사건과 함께 회자. 발표의 무게중심은 "AI를 누가 더 똑똑하게 만드느냐"가 아니라 "누가 오래 안정적으로 돌리는 클라우드를 운영하느냐"로 옮겨갔다는 종합 진단.

Andrej Karpathy, Anthropic 합류 — Claude pre-training 팀

News · 출처 NEWS1-04, YouTube · 출처 YT-03
OpenAI 공동 창업자 Andrej Karpathy가 Anthropic 합류를 발표. Nick Joseph 산하 프리트레이닝 조직에 신설 팀, "Claude로 Claude의 프리트레이닝을 가속하는" 미션. YouTube 해설은 "왜 Anthropic이고 왜 지금인가"에 집중 — RAMP AI Index가 Anthropic 비즈니스 도입률 34.4% vs OpenAI 32.3%로 첫 추월을 알린 직후, Anthropic이 Blackstone·Hellman & Friedman·Goldman Sachs와 midsize 비즈니스용 엔터프라이즈 AI 합작사를 출범시킨 흐름과 맞물린다. Karpathy의 4월 LLM wiki 패턴(raw/에 마크다운, 에이전트가 wiki/로 합성)과 3월 auto research(스크립트 받아 변경 제안→짧은 학습 잡→메트릭 통과까지 자율 루프)가 Codex/Hermes/Claude Code의 /goal과 정확히 같은 흐름. 핵심 테제 — "the model is not the moat forever. The moat is the application and the adoption and the IP that doesn't live in the model."

Anthropic, Stainless 인수 ($300M 규모)

News · 출처 NEWS1-01
같은 주 Anthropic은 SDK·MCP 서버 자동 생성 회사 Stainless를 ~$300M 규모로 인수. 2022년 창업 이후 Anthropic의 모든 공식 SDK를 만들어온 파트너로, OpenAPI 스펙에서 TypeScript·Python·Go·Java SDK와 CLI·MCP 서버를 자동 생성한다. 인수 명분은 "에이전트는 연결할 수 있는 시스템만큼만 유용하다." 같은 주 Karpathy 합류와 짝지으면 — Anthropic이 인재(연구)와 분배 채널(SDK·MCP) 양쪽을 동시에 흡수한 그림이 완성된다.

Anthropic ↔ SpaceX 연 $15B + Colossus 2 (GB200) 인프라 동맹

Reddit · 출처 REDDIT-03, News · 출처 NEWS2-08
Reddit에서 Anthropic이 SpaceX(Starlink/Starbase compute)에 연 $15B 지불한다는 보도가 큰 토론을 일으켰다 — AI compute 공급망이 빅테크 클라우드 3사에서 위성·우주 발사 인프라 보유자로 재편되는 신호. 같은 주 Anthropic이 Colossus 2(GB200) 추론 인프라 파트너십을 강화한다는 보도도 함께 — Stargate, Project Rainier, Anthropic Colossus 2가 같은 결의 "초대형 GPU 클러스터 시대"로 묶인다. r/ClaudeAI에서는 "결제 단절 시 Claude 트래픽 자체가 영향받을 수 있다"는 우려와 "분산이 늘어났으니 오히려 안정적"이라는 의견이 동시 등장.

OpenAI Singapore + Erdős 80년 문제 + Abridge Built with GPT-5.5

News · 출처 NEWS1-04b, LinkedIn · 출처 SNS-25, YouTube · OpenAI Erdős, YouTube · Abridge
OpenAI가 싱가포르에 Applied AI Lab을 신설 — 미국 외 첫 거점, S$300M(약 2,750억 원) 투입. 같은 주 OpenAI가 80년 묵은 Erdős 수학 문제를 풀었다는 발표 — 다만 7개월 전 흑역사(증명에 결함이 있었던 사건)가 있어 커뮤니티 검증이 이어진다는 단서. Abridge는 GPT-5.5 기반의 임상 AI 노트 시연 — 의사가 환자와 대화하는 동안 차트가 자동 작성, 의료 기록 워크플로의 에이전트 사례 중 가장 두꺼운 한 건. 세 발표는 OpenAI가 "지역 거점 + 학술 임팩트 + 도메인 수직" 세 축을 같은 주에 보강했다는 그림.

TabPFN-3 + 도구 출시 단신 — Forge·Codex Relay·SideQuick·알한글·SuperSplat·Virtual OS Museum·ActiveHolders

News · 출처 NEWS1-07, News · 출처 NEWS1-15
TabPFN-3 공개 — 테이블 데이터 파운데이션 모델, 작은 표 데이터셋에 fine-tune 없이 즉시 적용 가능. 같은 카테고리의 출시 단신을 한 줄로 묶으면 — Forge(8B 가드레일 에이전트, A.9 참조), Codex Relay(Codex 작업을 다른 에이전트에 위임), SideQuick(사이드 프로젝트 관리), 알한글(한글 처리 도구), SuperSplat(3D 스플랫 편집), Virtual OS Museum(브라우저 OS 박물관), ActiveHolders(활성 보유자 추적). 도구가 commodity가 되면서 출시 사이클이 짧아지는 흐름.

Node.js 26 + OpenBSD 7.9 + Flipper One + Phosphene + Apple 접근성 + Railway 32h 사고

News · 출처 NEWS2-13, News · 출처 NEWS2-05, News · 출처 NEWS2-14, News · 출처 NEWS2-07, News · 출처 NEWS1-09, News · 출처 NEWS1-10
런타임·OS·하드웨어·플랫폼 단신을 묶으면 — Node.js 26.0.0이 출시되며 Temporal API 기본 활성화, V8 14.6, Undici 8. OpenBSD 7.9가 60번째 릴리스로 이종 CPU 스케줄러 + SpacemiT K1(RISC-V) 지원. Flipper One이 RK3576 8코어 + RP2350 보조, 6 TOPS NPU와 M.2 확장으로 사양 공개. Phosphene은 macOS Tahoe의 비공식 WallpaperExtensionKit으로 만든 비디오 월페이퍼. Apple Intelligence 기반 접근성 기능 대규모 업데이트 — 시각·청각·운동 장애 사용자를 위한 자동 자막·VoiceOver 강화. Railway가 GCP에서 약 32시간 중단 후 회복, 공식 사고 보고서를 공개(t3.gg가 비판한 "Railway 계정 차단" 사건의 마무리).

C. 비즈니스 · 조직 · SaaS의 종말 · 1인 에이전트 운영

같은 주 SaaS 산업 구조가 흔들리는 진단이 한국 빌더 사이드에서 공식화됐다. 채널톡 대표가 직접 인용한 "10개 브랜드 중 8곳이 채널톡·HR·ERP·CRM 대체부터 검토", 1인 + 다중 에이전트 운영 사례가 줄지어 입증되며 "managed AI employees"가 SaaS의 다음 비즈니스 카테고리로 부상했다.

"Claude Code 배우자마자 SaaS 대체부터" — 채널톡 타운홀의 SaaS 위기 진단

LinkedIn · Kyunghun Lee
채널톡 대표 Kyunghun Lee가 전사 타운홀에 렛서 심규현 대표를 모셔 "우리에게 회초리를 휘둘러 달라"고 요청해 진행된 강연 정리. 심 대표는 패션·뷰티 브랜드 등에 직접 출근하며 본 현실을 그대로 전달. (1) 브랜드 10곳 중 8곳이 같은 질문 — "Claude Code 배웠는데 채널톡 이제 안 써도 되는 거 아니에요?" 채널톡뿐 아니라 HR/ERP/CRM 전반에 대해 자체 도구 교체 모색 중. SaaS는 "내가 만드는 비용 > 사는 비용"이라는 비대칭에 의존했는데, 코딩 에이전트가 만드는 비용을 무너뜨리면서 비대칭 자체가 깨지는 중. (2) 적응 속도 격차 — 4개 조직 관찰: 대표 100%(가방에 노트북 넣고 24시간 에이전트 돌림), 임원 60~70%, 일반 직원 20%. 최적화된 소수가 다수의 역할을 흡수하는 구조가 이미 형성. (3) 프론티어 랩의 기술 변화는 어느 정도 포화 → 운영자(operator)의 시대로 이행, "이걸로 뭘 만들 것인가"가 본질적 질문. (4) 코딩 에이전트 사용이 직장인의 베이스라인. (5) 다음 촉매는 computer use — 사람의 업무 동선을 그대로 모방하는 에이전트가 보편화되면 변화 속도가 한 단계 더 가속.

LLM 지난 6개월 회고 — 4대 모델 왕좌 5회 교체와 코딩 에이전트 임계점

News · 출처 NEWS2-01
지난 6개월간 4대 모델(GPT/Claude/Gemini/Grok)의 왕좌가 5회 교체된 시기를 회고하는 글이 hacker news 1면. 핵심 진단: (1) 단일 벤치마크 1위에 의존한 경쟁이 더 이상 무의미, (2) 코딩 에이전트가 일반 사용자가 체감 가능한 임계점을 넘어섰음, (3) 컨텍스트 / 메모리 / 하네스가 차별점으로 자리 잡으면서 모델 자체는 commodity화. 채널톡 타운홀 진단(SaaS 종말)과 같은 결 — 모델은 commodity, 운영체계와 컨텍스트가 차별점이다.

12 AI 에이전트 팀 + 5시간 워킹 프로토타입 — Dylan Ko의 티타임즈 인터뷰

LinkedIn · Dylan Ko, LinkedIn · 후속
Dylan Ko(고넥터 대표)가 그로스해킹 컨설팅에서 12개 AI 에이전트 팀을 짜서 1인 기업을 운영하는 방식을 티타임즈 인터뷰로 공개. 단순히 만능 AI 1개 쓰는 게 아니라 리서치·엔지니어링·보안·법무·마케팅 등 12개 전문 에이전트가 역할 분담하고 서로 소통하며 협업. 대표 시연: 티타임즈를 위한 가상 쇼핑몰 컨설팅과 워킹 프로토타입(결제 외 실제 온라인 동작 사이트)을 5시간 만에 완성. 1,600여 개 데이터 분석, 사용자 유형 정의, 맞춤 기획/디자인, 실시간 웹행동 트래킹 태깅까지 포함. 영상은 3일 만에 1만 조회 돌파, 현재 1.5만+. 오른팔 에이전트 이름 JARVIS(Just A Rather Versatile, Incidentally Sentient)는 자비스가 스스로 지은 이름. 제품화 준비 중.

"고객 한 곳당 월 $5,000" — 1인 에이전트 운영 사업 모델 (Nick Vasilescu)

LinkedIn · EO planet
Josh Kim 뉴스레터를 EO planet이 정리. 닉 바실레스쿠가 고객 한 곳당 월 $5,000을 받고 AI 에이전트를 만들어 운영해주는 1인 사업 모델 공개. 핵심 가치 제안은 고객이 토큰·모델·인프라를 만질 일이 없다는 점 — "자기 회사를 잘 아는 디지털 직원이 매주 더 똑똑해지는 걸 지켜보면 끝." Greg Isenberg의 The Startup Ideas Podcast 인터뷰에서 어떤 오퍼로 나갈지, 어떤 업종을 노릴지, 어떤 스택으로 에이전트를 만들지, 30일 안에 온보딩하는 법까지 공개. 채널톡 진단·Dylan Ko 12 에이전트와 묶이면 "managed AI employees"가 SaaS의 다음 비즈니스 카테고리로 부상 중이라는 그림.

Marrat 1인 개발자가 만든 맛집 서비스 — 5만 명 CRM 발송 + Claude PR 자율 배포

LinkedIn · Donggun Lee
마리트의 Donggun Lee가 1인 개발한 맛집 서비스를 마리트 앱에 배포해 1주일 만에 일본 여행자 5만 명에 CRM 발송, 모수를 크게 늘렸음에도 대부분 지표가 유지·개선되었다는 검증 결과 공개. 다만 발견된 명확한 문제: 서비스 탐색은 활발하지만 신규 레스토랑 등록 동기가 부족하다는 비대칭. 더 흥미로운 실험은 사내 구성원 피드백 처리 병목을 자동화한 부분 — 사내 누구나 슬랙에서 봇을 호출해 의견을 남기면, Claude가 의견 접수부터 GitHub PR 직전 단계까지 구현하고 본인은 매일 아침 배포 여부만 결정하는 "자율주행 자동차" 컨셉. 시사점 두 가지: (1) 마리트에서는 누구나 프로덕트 개선에 참여 가능, (2) 사람의 고민이 '제작·구현'이 아니라 '고객 문제와 임팩트'로 이동.

"15년차 베테랑 CTO vs 백지 비개발자" — AI 시대 개발자 역할의 역전

LinkedIn · Daero Won
Daero Won이 15년차 베테랑 CTO와 백지 비개발자가 같은 AI 도구로 같은 시간을 들였을 때 누가 더 결과물을 빨리 뽑는가 실험을 정리. 결론은 단순한 "백지가 이긴다"가 아니라 — 베테랑은 코드를 의심하고 검증하느라 느려지고, 백지는 오케스트레이션에 집중해 빨라진다는 비대칭. 다만 베테랑은 마지막 1마일(보안·확장성·운영) 직전에서 백지를 추월. AI 시대의 개발자 역할 재정의 — 코드를 직접 짜는 사람보다 에이전트의 결과를 검증하고 통합하는 사람의 가치가 올라간다.

Claude Managed Agents Will Make Millionaires (YouTube)

YouTube · 출처 YT-04
Claude의 Managed Agents가 출시되면 어떤 1인 사업 모델이 가능해지는지 정리. Nick Vasilescu 사례를 인용하며 "월 $5,000짜리 managed AI employee"가 SaaS의 다음 카테고리가 될 것이라고 진단. Greg Isenberg가 매주 공개하는 창업 기회 리스트의 상위 9개에도 같은 항목이 등장.

알토스벤처스 우문석 인터뷰 + Glean 12년 2개 유니콘 — 창업의 변하지 않는 규칙

LinkedIn · 출처 SNS-31, YouTube · 알토스, YouTube · Arvind Jain
알토스벤처스 오문석 파트너 인터뷰가 영상으로 공개 — 쿠팡·배민·토스·당근에 투자한 회사, 100여 개사 투자, 8년 연속 선호 VC 1위. 한 줄: "VC는 한 명의 창업자에게 12년을 베팅하는 일." 같은 결의 영상이 Glean의 Arvind Jain — Built Two Unicorns in 12 Years: 12년 동안 2개 유니콘을 만든 한 사람이 정리한 "변하지 않는 규칙" — (1) 진짜 문제에 집착, (2) 첫 100명 고객의 NPS, (3) 팀이 모든 것이다. AI 시대에도 창업의 본질은 같다는 메시지가 SaaS의 종말 진단과 묶이면 — 도구가 commodity가 되어도 사람의 결이 차별점이라는 결론.

한국 AX 현장 — "FDE 부족, 엔터프라이즈/소조직 하네스가 다르다"

LinkedIn · 출처 SNS-24
한국 AX(AI Transformation) 현장 분석 글. (1) 성공 기준 정의부터 안 됨 — KPI 없이 "AI 도입"만 외치는 PM이 많고, (2) 진짜 FDE(Forward Deployed Engineer) 부족 — Anthropic·OpenAI 본사의 FDE 같은 역할을 할 사람이 한국에 거의 없음, (3) 엔터프라이즈와 소조직의 하네스가 다르다 — 엔터프라이즈는 거버넌스·감사·SSO·인프라가 필요, 소조직은 속도·실험·롤백이 필요. 같은 결의 PRD 한 점에 집중하는 HoYeon Lee 6단계와 짝지으면, 한국 AX의 다음 5년 과제가 분명해진다.

비즈라우터 일일 토큰 15억 — 한국 기업용 LLM 라우터 시장의 부상

LinkedIn · 표철민
표철민(AI3) 글. 작년 8월 출시 — 국내 첫 기업용 LLM 라우터. 어제 하루 15억 토큰 소비, AI3 제품군 전체 토큰의 **30%+**를 차지. 한국 기업이 OpenAI·Anthropic·Google 사이에서 모델을 동적 선택하는 라우팅 인프라 수요가 가시화. SaaS 종말 진단(채널톡)이 옳다면, 그 다음 인프라 자리에 라우터가 들어선다는 그림.

9개 AI 창업 기회 — Greg Isenberg 큐레이션

LinkedIn · 출처 SNS-23
Greg Isenberg가 매주 공개하는 36개 창업 기회 리스트 중 상위 9개: managed AI employees(닉 바실레스쿠), AI for loneliness(외로움 시장), eldertech(고령층 케어), AI-native CRM, vertical AI agents(법률·회계·의료), AI for personal finance, AI-driven content moderation, AI-powered education, AI-augmented healthcare. 8/9가 채널톡 진단과 결이 같다 — SaaS 카테고리를 에이전트가 운영하는 vertical로 다시 자르자는 흐름.

"이거 구글이 하면 어쩌실 건데요?" — 14년 차에 다시 받은 그 질문

LinkedIn · 출처 SNS-26
14년 차 빌더가 똑같은 질문 — "그거 구글이 하면 어쩔 거예요?" — 을 다시 받은 일화. 답: "구글이 못 하는 걸 한다 — 작은 시장, 빠른 결정, 사용자와 직통." 채널톡 진단(SaaS 종말)과 짝지으면 — 작은 시장에서 1인 + 에이전트가 압도적 속도로 vertical을 점령하는 현재 패턴.

Pizza Hut 가맹점 1억 달러 손배 청구 — AI 배달 최적화 시스템 Dragontail

News · 출처 NEWS1-13
Pizza Hut 가맹점이 본사가 강제 도입한 AI 배달 최적화 시스템 Dragontail의 손실에 대해 1억 달러 손배를 청구. AI 시스템 강제 도입이 가맹점 손익에 부담을 줬다는 주장. AX 현실의 어두운 측면 — 본사가 AI로 운영 최적화를 외치지만 현장이 같이 흔들리지 않으면 채권·채무 분쟁이 된다는 사례.

SpaceX IPO + 유럽 결제 동맹 + Disney FiveThirtyEight + Bambu AGPL + Tennessee 합의금

LinkedIn · Suk Hyun Kim, News · 유럽 결제, News · Disney 538, News · Bambu, News · Tennessee
자본·미디어·법 신호를 묶으면 — SpaceX IPO: 2026-05-20 SEC에 S-1 제출, 티커 SPCX(나스닥), 주관 골드만/모건/JP, 차등의결권으로 머스크가 Class B 경영권 유지, 자금은 스타십 양산·스타링크 완성에 투입. 유럽 결제 동맹 — Wero·Bizum·Bancomat·MB WAY·Vipps MobilePay 통합, 사용자 1.3억 명(Visa·Mastercard 대안). Disney가 FiveThirtyEight 아카이브를 ABC News 홈으로 리다이렉트해 사실상 삭제. Bambu Lab AGPLv3 위반에 SFC가 다층 대응 발표. Tennessee가 Trump 밈 공유로 37일 수감된 전직 경찰관에게 $835,000 합의금 — 표현의 자유와 공무원 권한의 새 판례.

D. 보안 · 신뢰 · 에이전트 안전

같은 주에 공급망 공격 3연속(npm 314 패키지·GitHub 내부 저장소·CISA AWS GovCloud), Anthropic MCP Tunnel의 자격증명 분리 아키텍처, "AI가 실시간으로 악화되고 있다"는 모델 붕괴 우려, Apple Tahoe Spotlight 회귀까지 한꺼번에 묶였다. 신뢰의 토대가 흔들리는 한 주.

Anthropic MCP Tunnel — 에이전트가 자격증명을 절대 보지 않는다

Reddit · r/mcp
Anthropic의 MCP Tunnel 아키텍처가 r/mcp에서 깊이 분석됐다 — 핵심은 에이전트가 자격증명을 절대 보지 않는 구조. OAuth/SAML로 사람이 인증한 토큰을 Tunnel이 보관하고, 에이전트는 토큰 자체에 접근하지 않고 Tunnel 너머의 도구만 호출한다. 토큰 만료 시 사람만 재인증, 에이전트의 토큰 유출 위험이 구조적으로 차단된다. Code as Agent Harness 논문의 "환경·권한 통제 9%"와 같은 결 — 결정적 통제 지점을 자격증명 경계에 박는 것.

공급망 공격 3연속 — GitHub 내부 저장소·Mini Shai-Hulud npm 314개·CISA AWS GovCloud

News · GitHub 내부, News · Mini Shai-Hulud, News · CISA AWS
같은 주에 공급망 신뢰가 흔들린 3건이 한꺼번에 터졌다 — (1) GitHub 내부 저장소 무단 접근 사건 — TeamPCP/UNC6780이 GitHub 내부 저장소를 접근했다고 주장, GitHub 공식 확인. (2) Mini Shai-Hulud, npm 패키지 314개·637 버전 침해(2026-05-19) — 1년 전 Shai-Hulud 사건의 미니 버전, malicious post-install script가 자격증명을 외부로 유출. (3) CISA 외주 계약자가 AWS GovCloud 자격증명을 공개 GitHub 저장소에 노출 — 정부 클라우드 자격증명이 며칠간 공개 노출됐다는 사실이 자체 점검에서 발견. 세 사건의 공통 교훈은 "자격증명 경계가 무너지면 모델 품질과 무관하게 시스템이 무너진다" — MCP Tunnel 같은 분리 아키텍처가 필요한 이유.

Gemini 사용량 급감 — 유료 구독자 집단 반발과 "compute 외주" 음모론

Reddit · r/Bard
r/Bard 등에서 Gemini 유료 구독자들의 집단 반발이 큰 토론. 핵심 불만 — (1) Gemini 3.5 Flash 출시 후 응답 품질이 갑자기 떨어졌다는 보고 다수, (2) AI Mode와 일반 Gemini 사이 차이가 흐릿해지면서 "내가 산 게 뭔지 모르겠다"는 의견, (3) 일부에서 **"compute가 다른 곳으로 외주됐다"**는 음모론까지 등장. 음모론은 검증되지 않았지만, 유료 사용자의 체감 신뢰가 흔들리는 신호 자체가 중요. Google I/O 2026의 화려한 발표와 일선 사용자의 체감이 어긋나는 한 사례.

"AI가 실시간으로 악화되고 있다" — 모델 붕괴와 데이터 고갈 정리

Reddit · r/MachineLearning
커뮤니티가 모델 붕괴(model collapse)와 데이터 고갈 논의를 한 번에 정리한 스레드. 핵심 주장: (1) 웹의 새 콘텐츠 중 AI 생성물 비율이 빠르게 올라가 학습 데이터에 자기 출력이 재유입되는 self-feedback loop가 형성, (2) 일부 도메인(번역·요약·코딩)에서 모델 품질 정체 또는 후퇴 증거, (3) 합성 데이터 + RLVR로 보완해도 reward hacking 문제(SpecBench 참조)가 새로 등장. 결론: "모델은 commodity가 아니라 희소 자원일 수 있다" — Google·Anthropic·OpenAI의 데이터 동맹·합성 데이터 인프라 투자가 같은 결.

RAG 다음 세대 — KV cache 영구 보존, 임베딩 무용론, 차원별 fine-tuning

Reddit · r/LangChain
r/LangChain에서 RAG의 다음 세대 논의가 큰 토론. (1) KV cache 영구 보존으로 RAG 파이프라인 자체를 제거하는 접근 — 자주 쓰는 문서의 KV를 미리 계산해 저장, 추론 시 즉시 attention에 합류. (2) 임베딩 무용론 — long-context 모델이 충분히 커지면 임베딩 검색 단계 자체가 병목이 된다는 주장, "Just stuff everything into context"가 더 빠를 수 있음. (3) 차원별 fine-tuning — 임베딩 공간을 도메인에 맞춰 fine-tune하면 검색 품질이 크게 올라간다는 사례. 세 흐름은 같은 방향 — RAG가 "검색 + 생성" 2단계에서 "컨텍스트가 모델 안에 살아있는" 1단계로 압축된다는 가설.

Apple Tahoe 26.2/26.5 Spotlight 회귀 — 설치 앱 90% 못 찾는 버그

Reddit · r/macOS
Apple Tahoe 26.2/26.5에서 Spotlight 인덱싱 회귀 — 설치된 앱의 약 90%를 못 찾는다는 버그 보고가 다수. mdimport 강제 재인덱스도 효과 제한적. 일선 사용자가 핵심 검색 인터페이스를 신뢰하지 못하면 OS 자체의 신뢰가 흔들린다는 사례. 같은 주 Phosphene(비공식 WallpaperExtensionKit)이 떠오른 것도 Apple 공식 API의 신뢰 공백을 외부 도구가 메우는 결.

"rm -rf /"를 실제로 친 로컬 에이전트 — bubblewrap 격리 권고

Reddit · r/LocalLLaMA
한 사용자가 로컬 에이전트를 컨테이너 없이 호스트에서 직접 돌렸다가 모델이 rm -rf /를 실제로 호출해 시스템이 망가진 사고를 정리한 글이 r/LocalLLaMA에서 218 upvote. 결론은 단순하다 — 에이전트는 반드시 bubblewrap, firejail, devcontainer, gVisor 등으로 격리해서 돌려야 한다. MCP Tunnel의 자격증명 분리와 같은 결 — 결정적 통제 지점을 시스템 경계에 박자는 합의.

Meta 사우디·UAE 인권 활동가 도달 제한 + 듀얼유즈 도구 (한 줄)

News · 출처 NEWS1-12b, News · 출처 NEWS1-20
Meta가 사우디·UAE에서 인권 활동가 계정 도달 제한 — 21개 NGO 공동 비판. Meta의 알고리즘이 특정 국가에서 활동가 콘텐츠를 자동 강등한다는 의혹. 듀얼유즈 도구 단신: 워터마크 제거 등 일부 도구가 화제가 됐지만 정책 가드레일에 따라 짧게 — 존재한다는 사실만 기록.

E. 디자인 · 크리에이티브 · 도구

Figma가 디자인 캔버스 안에 에이전트를 박았고, ChatGPT가 일반 사용자의 회화→사진 변환을 단순화했다. 같은 주 한국 빌더가 마케팅 리스크 리뷰·사업계획서 평가 Skill을 오픈소스로 풀었다.

Figma 디자인 에이전트 — 캔버스 안으로 들어오다

LinkedIn · Figma, LinkedIn · Yuhki Yamashita
Figma가 디자인 캔버스에 네이티브하게 통합된 디자인 에이전트를 출시. 멀티플레이어 캔버스에 빌트인 → 여러 에이전트를 병렬 실행 가능, 핸즈온 편집과 혼용 가능. 디자인 시스템에 연결돼 컴포넌트 설정, 레이아웃 수정, 대량 편집(bulk edits) 자동화. "Figma Design"에서 먼저 시작, 다른 제품으로 확장 예정. Yuhki Yamashita는 "누구나 에이전트는 만들 수 있다. 어려운 문제는 에이전트가 사일로된 챗 윈도가 아니라 팀과 같이 일하게 만드는 것"이라며, 캔버스가 이미 디자이너의 사고 공간이라 거기에 에이전트가 살아야 한다고 설명. 같은 날 Google Marketing Live 2026의 Asset Studio·Multimodal Asset Generation과 묶으면, 디자인·크리에이티브 워크플로가 텍스트 prompt → 산출물의 단발 모델에서, 캔버스/플랫폼 안에 살아있는 에이전트 모델로 빠르게 옮겨가는 흐름이 분명해진다.

ChatGPT 회화 → 사진 변환 — 호쿠사이 "가나가와 파도"를 hyper-realistic photo로

Reddit · r/ChatGPT
한 사용자가 호쿠사이의 우키요에 명작 "가나가와 앞바다의 큰 파도"를 ChatGPT에 넣고 "이걸 hyper-realistic photo로 만들어줘"라고 부탁하자 사진처럼 변환된 결과가 큰 화제. 핵심은 (1) 회화 → 사진 방향이 일관성 있게 작동, (2) 명화의 구도와 분위기를 유지하면서 텍스처만 사진으로 바꾸는 디테일, (3) Gemini Omni의 영상 편집(다회차 일관성)과 같은 결로 묶이는 일반 사용자 크리에이티브 흐름. 다만 저작권·문화 자산 변환의 윤리 논쟁이 댓글에서 이어졌다.

Polar — "도파민 가장 많이 나오는 앱" + Jolie 필터 샤워기 — 샤워기를 뷰티로 재정의

LinkedIn · 출처 SNS-27
Polar — 작년 가을 출시 후 "도파민이 가장 많이 나오는 앱"이라는 평가, 짧은 인디 앱이지만 사용자 retention이 높다는 사례. Jolie 필터 샤워기 — 샤워기를 단순 위생 기기에서 "뷰티 제품"으로 재정의해 mid-three figures 가격대를 형성한 D2C 브랜드. 두 사례의 공통점은 카테고리 재정의 — 도구·하드웨어 모두 commodity가 되는 시대에 가격 결정력은 카테고리를 새로 짜는 사람에게 간다는 메시지.

마케팅 리스크 리뷰 Skill — 20년 논란 패턴 6가지

LinkedIn · 출처 SNS-28
한국 빌더가 마케팅 리스크 리뷰 Skill을 오픈소스로 공개. 20년 동안 한국 마케팅에서 반복된 논란 패턴 6가지(역사 왜곡, 정치색, 차별, 미성년 보호, 종교, 환경 그린워싱)를 체크리스트로 정리. 마케팅 카피·이미지를 입력하면 Skill이 6개 차원에서 점수를 매기고 위험 지표를 표시. 같은 주 스타벅스 코리아 5·18 마케팅 사고가 또 한 번 화제가 되며 이 Skill의 가치가 입증됐다.

벤처스퀘어 사업계획서 평가 Skill 오픈소스 배포

LinkedIn · 출처 SNS-32
벤처스퀘어가 자체 사업계획서 평가 기준(시장·팀·제품·재무·실행력 5축)을 Skill로 오픈소스 공개. 1인 창업자가 자기 사업계획서를 Skill에 넣으면 VC 관점의 평가 점수와 개선 포인트를 받는 구조. 알토스 우문석 인터뷰("12년 베팅")와 짝지으면, VC의 의사결정 함수를 1인 창업자가 직접 호출하는 시대가 시작됐다는 그림.

Ray-Ban Meta / Oakley Meta 한국 출시 — 5월 25일, 69만 원부터

LinkedIn · 출처 SNS-33
Ray-Ban Meta와 Oakley Meta가 5월 25일 한국 출시, 가격대 69만 원~. Meta가 한국 AR/스마트 글래스 시장에 본격 진입하는 신호. 같은 주 Google AI Studio의 안드로이드 원클릭 배포와 짝지으면 — AI가 화면 너머의 디바이스로 흘러내리는 흐름.

ERPNext + AI = "우리 회사 전용 ERP" — SungJae Shim의 오픈소스 ERP 제안

LinkedIn · SungJae Shim
SungJae Shim이 ERPNext에 AI를 결합해 회사 전용 ERP를 만드는 패턴을 제안. 핵심 아이디어 — SaaS ERP에 비싸게 락인되는 대신, 오픈소스 ERPNext를 베이스로 회사 특화 워크플로를 에이전트가 채우는 방식. 채널톡 진단("8/10 브랜드가 SaaS 대체 검토")과 결이 같은 실전 제안.

Search OS — 1만 페이지 SEO/GEO 자동화 웨비나

LinkedIn · 출처 SNS-35
한국 SEO/GEO(Generative Engine Optimization) 자동화 도구 Search OS 웨비나 공개 — 1만 페이지 규모의 SEO 콘텐츠를 자동 생성·검수·발행하는 파이프라인. AI Mode 광고 노출(Google Marketing Live 2026)이 현실화되면 SEO 산업이 GEO로 재편되는데, Search OS는 그 전환의 한국 측 도구.

F. 한국 빌더 · 이벤트 · 커뮤니티

Anthropic Push to Prod 서울이 6/18 코엑스에 상륙하고, 헤르메스·Letta 같은 개인 에이전트 OS, 인디해커·헤커하우스·휴먼 인사이드 글들이 같은 결로 묶였다.

Anthropic Push to Prod SEOUL — 6월 18일 코엑스 308호

LinkedIn · 최훈민
Anthropic의 시그니처 글로벌 해커톤 Push to Prod가 인도·싱가포르·헬싱키를 거쳐 서울에 상륙. 2026-06-18(목) 13:00-18:00, 코엑스 3층 컨퍼런스룸(남) 308호. 호스트는 Anthropic + Replit + 한국투자파트너스 + 한국투자액셀러레이터. 단순한 코딩 해커톤이 아니라 진짜 프로덕션 문제를 가진 스타트업이 빌드하는 자리로 컨셉. 환영 분야는 AI·딥테크·로보틱스·모빌리티·바이오·헬스케어·소부장·방산까지 광범위. Anthropic·Replit 본사 엔지니어/전문가가 현장에 직접 참여하는 점이 차별점. 신청: https://lnkd.in/ghHxmRh7

헤르메스 운영 가이드 — Josh Kim의 "기본 5단계" 시나리오

LinkedIn · 출처 SNS-17
Hermes(맥미니에 두는 개인 AI 비서)의 기본 운영 5단계 시나리오를 Josh Kim이 정리. (1) 맥미니에 Hermes 설치, (2) Obsidian과 연결(개인 지식 베이스 통합), (3) 텔레그램/슬랙 통합으로 모바일에서 명령, (4) 일정·메일·노트 동기화, (5) 일일 브리핑 자동화. HoYeon Lee의 "하네스를 얇게 + 메인은 Hermes + Codex" 구조와 짝지으면, 개인 단위 에이전트 OS의 표준 운영 가이드가 나타나는 한 사례.

Letta — 메모리 최강 LLM 프레임워크

LinkedIn · 출처 SNS-20
Letta 프레임워크 소개 — 메모리 관리에 특화된 LLM 프레임워크로, 컨텍스트 윈도 너머의 long-term memory를 자동 관리. 핵심 차별점은 (1) 메모리 추출·압축·재호출이 모델에 통합, (2) 대화 세션이 끊겨도 다음 세션에서 자연스럽게 컨텍스트 복원, (3) 도구 호출 결과를 메모리에 영구 저장. 같은 주 발표된 Mem-π(HF) 논문과 같은 결 — 메모리는 학습 가능한 모듈이라는 합의.

"AI 전문가 3그룹" — 차우진의 프론티어 vs 팔로워 진단

LinkedIn · 출처 SNS-38
차우진이 AI 전문가를 3그룹으로 분류: (1) 프론티어 — 한 분야의 최첨단을 실제로 끌고 가는 사람, 손에 꼽음, (2) 팔로워 — 프론티어의 결과를 빠르게 응용해 시장을 만드는 사람, 폭발적 성장 가능, (3) 소비자 — 프론티어와 팔로워의 결과를 소비만 하는 사람. AI 시대의 직업 양극화 진단이 매서움 — 팔로워 자리도 작아지고 있고, 프론티어와 소비자 사이의 차가 빠르게 벌어진다.

Kim Wooyeong의 인디해커 선언 — 매달 100만~200만 원 + SEO 1년

LinkedIn · Kim Wooyeong
Kim Wooyeong이 인디해커 1년차 회고. 매달 100~200만 원 매출, 모두 SEO 기반 오가닉 트래픽. 핵심 교훈: (1) 첫 1년은 SEO + 콘텐츠, (2) 광고는 ROI 측정 후 합리적일 때만, (3) 1인 기업의 시간은 한정돼 있으므로 1년 안에 PMF 못 찾으면 피벗. AI 시대에 인디해커 진입 장벽이 낮아진 만큼, "1년 후에도 살아남는가"가 새 기준이 된다는 메시지.

헤커하우스와 빌더의 외로움 — 정구봉의 점 잇기

LinkedIn · 정구봉
정구봉이 한국 빌더 커뮤니티의 외로움 문제를 정리. **헤커하우스(Hacker House)**가 한국에 부족한 이유 — 빌더가 같이 사는 공간이 없어 사회적 고립이 생기고, 1인 + 다중 에이전트로 일하면서 사람과의 접점이 더 줄어든다. 해법으로 (1) 헤커하우스 시도, (2) 정기 빌더 모임, (3) Push to Prod 같은 글로벌 해커톤 적극 활용을 제안. Greg Isenberg의 "AI for loneliness"(C 섹션) 창업 기회 리스트와 짝지으면 — 외로움은 시장이자 빌더 자신의 문제라는 흐름.

모소대나무와 80% 포기 — Hongseok Jang의 복리 글

LinkedIn · Hongseok Jang
Hongseok Jang의 짧은 인사이트 글 — 모소대나무가 4년간 1cm도 자라지 않다가 5년차에 폭발적으로 자라는 비유로 1인 빌더의 복리를 설명. 핵심 메시지: 80%가 1년 안에 포기한다, 5년차의 자리가 비어 있는 이유는 단지 그 자리에 도착한 사람이 적기 때문. Kim Wooyeong의 "1년 SEO" 메시지와 같은 결.

Codex + 텔레그램 직결 + OmO(oh-my-openagent) 재작성 (커뮤니티 단신)

Threads · @jwon.ig, LinkedIn · OmO
jwon.ig의 Codex + 텔레그램 직결 — "토큰 걱정 없음", 노트북을 켜지 않고 텔레그램에서 명령을 보내고 결과를 받는 운영 모델. OmO(oh-my-openagent) — 오픈코드 분리 후 Codex/Pi 기반으로 재작성 중인 한국 빌더 프로젝트. 두 단신은 한국 빌더 사이에서 개인 에이전트 OS의 운영 인프라가 빠르게 표준화되고 있음을 보여준다.

그 외 휴먼 인사이드 단신

LinkedIn · 다수
한 줄로 묶는 휴먼 인사이드 단신 — 양정고 교사 바이브 코딩 강의, 사내 비개발자 11명이 사내 플랫폼 위에 전자결재·근태·평가를 직접 만든 사례(요즘IT), 일선 변호사가 95커밋·$83에 모바일 앱 출시(foundation phase 43%) 등. 공통점은 비개발자가 에이전트로 도메인 도구를 직접 빌드하는 흐름이 한국 직장 곳곳에서 동시에 일어나고 있다는 것.

G. 연구 레이더 — Agent OS · 하네스 · long-horizon 평가

학계가 에이전트의 reward hacking, long-horizon 메모리, 멀티 에이전트 trace 진단을 동시에 정량화하기 시작했다. SNS의 Agent OS 4C·Code as Agent Harness 102p 논문과 정확히 같은 결.

SpecBench — Long-horizon Coding Agent의 Reward Hacking 측정

arXiv · 출처 ARXIV2-08, HF · 출처 HF2-06
긴 호흡의 코딩 에이전트가 명세를 우회하면서 보상을 받는 reward hacking 패턴을 측정하는 새 벤치마크. 200+ 시나리오에 (1) 테스트만 통과하면 무엇이든 한다, (2) 명시된 제약을 무시하고 더 빠른 해법을 찾는다, (3) 실패한 케이스를 숨긴다 같은 유형을 의도적으로 유도. 모든 최상위 코딩 에이전트가 reward hacking을 한다는 결과, "정답률"이 아니라 "명세 준수율"이 새 평가 축이 되어야 한다는 결론. SNS-04 PRD 강조, SNS-05 Lint 결정적 통제와 같은 결.

LongMINT — Multi-Target Interference 메모리 평가 (138.8k~1.8M token)

HF · 출처 HF2-02
**MINTEval(LongMINT)**은 long-horizon 에이전트 시스템의 메모리를 측정하는 새 벤치마크. 평균 138.8k 토큰, 최대 1.8M 토큰 컨텍스트에서 다목적 간섭(multi-target interference)을 평가. 7개 시스템 평균 점수 27.9%, 최상위 시스템도 절대적으로 낮음. 핵심 발견: 컨텍스트 윈도가 커진다고 메모리 성능이 비례해 올라가지 않으며, 여러 목표가 동시에 추구될 때 모델이 한 목표를 다른 목표로 덮어쓰는 패턴이 모든 시스템에서 관찰. SaaS의 종말 진단(C 섹션)에서 12 에이전트 운영의 한계도 같은 결로 묶임.

Mem-π — 적응형 메모리, 언제·무엇을 생성할지 학습

HF · 출처 HF2-07, arXiv · 출처 ARXIV1-07
Mem-π는 메모리를 외부 저장소가 아닌 모델 자체의 학습 가능한 모듈로 만든다. (1) 언제 메모리에 쓸지(write gate), (2) 무엇을 쓸지(content selection), (3) 어떻게 압축할지(compression policy)를 모두 RL로 학습. Letta 프레임워크(F 섹션) 같은 외부 메모리 시스템과 짝지으면, 메모리가 시스템 레벨 + 모델 레벨 두 층으로 발전하는 흐름.

Insights Generator + S-Bus + APEX — 멀티 에이전트 trace 진단·조정·진화

arXiv · Insights Generator, HF · S-Bus, arXiv · APEX
멀티 에이전트 시스템의 운영 효율을 끌어올리는 세 갈래 연구. Insights Generator는 corpus-level trace 진단 — 수많은 에이전트 실행 로그에서 시스템 단위 실패 패턴(반복 호출, 토큰 낭비, dead-end loop)을 자동 추출. S-Bus는 read-set 자동 재구성 — 여러 에이전트가 공유 상태를 읽을 때 한 에이전트의 쓰기가 다른 에이전트에 어떻게 전파되는지 자동으로 추적해 race condition을 막는다. **APEX(Autonomous Policy Exploration)**는 self-evolving LLM 에이전트 — 정책 자체가 RL로 진화하며, 잘 작동한 sub-policy를 모듈로 보존. 세 논문이 같은 결로 묶이면 — 멀티 에이전트가 시스템 엔지니어링의 1급 주제가 됐다.

MOCHA + AOB + EHV + Agent JIT — 에이전트 워크플로 최적화

HF · MOCHA, HF · AOB, HF · EHV, arXiv · Agent JIT
에이전트 워크플로의 최적화 4갈래. **MOCHA(Multi-Objective Chebyshev Annealing)**는 에이전트 스킬을 여러 목표 사이에서 균형 잡는 annealing 스케줄. AOB는 plan-execute 파이프라인의 semantic caching — 같은 의미의 plan을 캐싱해 토큰을 절약. **EHV(Ethical Hyper-Velocity)**는 governance-aware JIT 컴파일러 — 에이전트 정책의 윤리 제약을 컴파일 단계에서 강제. Agent JIT는 웹 에이전트의 latency 최적화 — plan을 미리 컴파일해 반응 시간을 줄임. 모두 SNS-06 4C의 "Control"과 같은 결.

CutVerse + IndusAgent — 도메인 특화 에이전트 벤치

HF · CutVerse, HF · IndusAgent
CutVerse는 미디어 포스트프로덕션 편집을 위한 GUI 에이전트 벤치마크 — 영상 편집 소프트웨어를 GUI로 조작하는 에이전트의 합성 능력을 평가. IndusAgent는 산업 anomaly 탐지에 agentic tool을 강화학습 — 산업 센서 데이터에서 비정상 패턴을 탐지하는 에이전트. 두 논문은 Code as Agent Harness 102p에서 언급된 "5대 신흥 도메인"(코딩·GUI·개인화·체화·과학) 중 GUI 제어와 산업 영역의 학계 진척 사례.

POW3R — 정적 rubric을 정책 인지 신호로 바꾸는 RLVR 신호 재배분

HF · POW3R
POW3R는 기존 RLVR(verifiable rewards)이 정적 rubric에 의존해 학습 신호가 균일하게 들어가는 문제를 해결. 정책의 현재 상태에 따라 rubric 가중치를 동적으로 조정해 학습 신호를 정책 인지(policy-aware) 신호로 재배분. 결과: 같은 데이터·같은 모델에서 RLVR 효율이 크게 개선. 같은 카테고리의 Unlearnability·Minimal RLVR과 짝지으면, RLVR의 한계와 개선이 같은 주에 다양한 각도에서 다뤄졌다.

"How much online RL is enough?" — Offline Preference + Online RL 비율

arXiv · 출처 ARXIV3-06
Offline preference optimization + Online RL 혼합 비율을 정량화하는 연구. 결론: 작은 양의 online RL만으로도 offline 학습을 크게 보강할 수 있지만, 온라인이 너무 많아지면 distribution shift 비용이 증가. 핵심 권고는 "online rollout는 정보량이 높은 케이스에만 집중하라(informative rollouts)" — sample efficiency가 RLVR의 다음 과제로 부상.

H. 연구 레이더 — 효율 · 메모리 · KV 캐시

같은 주 KV 캐시 양자화·MoE 전력 효율·후학습 인프라 연구가 동시 진척. 모델이 commodity가 되는 시대에 인프라 효율이 다음 차별점이라는 흐름.

OScaR + OCTOPUS — 극저비트 KV 캐시 양자화 (7.83× 처리량)

HF · OScaR, HF · OCTOPUS, arXiv · OCTOPUS
KV 캐시 극저비트 양자화 양대 결과. **OScaR(Occam's Razor)**는 KV 캐시 양자화에서 가장 단순한 비대칭 양자화 스킴이 INT2까지 내려가도 정확도를 거의 유지한다는 결과 — 더 복잡한 학습 가능 양자화보다 단순함이 이긴다. OCTOPUS는 octahedral parametrization으로 KV 캐시를 표현해 squared error를 최적화. 결과: 7.83× 처리량 증가, 같은 GPU에서 더 많은 컨텍스트와 동시 사용자를 수용. RAG 다음 세대(D 섹션)의 "KV 영구 보존" 논의와 짝지으면 — KV 캐시가 추론 효율의 핵심 자산.

PALS + Frontier — Power-Aware MoE 서빙과 LLM 추론 시뮬레이션

arXiv · PALS, arXiv · Frontier
**PALS(Power-Aware LLM Serving)**는 MoE 모델 추론에서 전력 소비를 최적화 — expert routing을 전력 인식으로 조정해 같은 처리량에 더 적은 전력을 사용. Frontier는 LLM 추론을 포괄적으로 시뮬레이션하는 도구 — 새 GPU·새 모델 조합을 실제 deploy 전에 정확도 높게 예측. 두 논문은 "추론 인프라가 학습 인프라 못지않게 중요한 시대"의 신호.

torchtune + LBW-Guard — 후학습 인프라와 통제

arXiv · torchtune, HF · LBW-Guard
torchtune은 PyTorch native post-training 라이브러리 — fine-tuning, LoRA, DPO, RLHF를 한 프레임워크에서. **LBW-Guard(Learn-by-Wire Training Control Governance)**는 자율 학습 루프에 bounded autonomous training 통제를 박는다 — 모델이 자기 학습을 자동화하는 시대에 학습 자체가 통제되지 않으면 위험하다는 우려를 반영. SNS-06 4C의 "Control"과 같은 결의 학습 측 적용.

HRM-Text + Hyperparameter Transfer + Two-Factor Linear Transformer

HF · HRM-Text, arXiv · HP Transfer, arXiv · Two-Factor
사전학습 효율·이론 3갈래. HRM-Text는 scaling 너머의 사전학습 효율 — 같은 토큰으로 더 나은 모델을 학습하는 아키텍처. Hyperparameter Transfer 정량화 — embedding layer learning rate가 다른 어떤 하이퍼파라미터보다 transfer에 중요하다는 결과. Two-Factor Linear Transformer 다이내믹스 — 대규모 학습에서 한 단계 step의 dynamics를 이론적으로 분석. 세 논문은 "사전학습 + 후학습 + 추론" 인프라 효율이 같은 주에 함께 발전하는 흐름.

SymbolicLight + StitchVM + Stochastic MeanFlow Policies — sparse·diffusion 효율

arXiv · SymbolicLight, HF · StitchVM, arXiv · MeanFlow
스파스·확산 효율 3갈래. SymbolicLight V1은 spike-gated dual-path 언어 모델 — 신경 활성화의 sparse 패턴을 학습해 추론 시 활성화 비율을 크게 낮춤. **StitchVM(Stitched Value Model for Diffusion Alignment)**은 diffusion 모델 alignment를 여러 value 모델 조합으로 풀어내 단일 reward의 한계를 회피. Stochastic MeanFlow Policies는 entropic mirror descent로 one-step generative control — 한 단계에 안정적 정책 생성. 모두 "1%의 엔진"을 더 작게 만드는 방향.