Daily Digest — 2026-05-12

2026-05-12

멀티 에이전트 운영 UI가 표준이 되고, 모델사가 컨설팅 사업으로 직접 들어오며, 공급망 보안과 신뢰성 비판이 같은 주에 동시에 가시화된 날

Daily Digest — 2026-05-12

오늘의 핵심 흐름

오늘의 첫 번째 흐름은 멀티 에이전트 운영체계의 표준화다. Anthropic이 Claude Code 2.1.139에 Agent View와 /goal을 동시 출시했고, Codex의 goal 기능과 Hermes의 persist ghost가 거의 같은 주에 등장하면서 "한 화면에서 N개 세션을 LLM judge로 자율 실행시킨다"는 워크플로가 industry 표준 자리에 올라섰다. ralph-loop의 max-iter 정지 조건이 LLM-judged stop condition으로 진화한 것이 결정적 변화다.

두 번째 흐름은 모델사의 GTM 분기다. OpenAI는 40억 달러로 Deployment Company를 신설해 Tomoro와 FDE 150명을 흡수하며 컨설팅·SI 시장에 직접 진입했고, 같은 주 Anthropic은 금융 도메인 reference agent 10개 + MCP 커넥터 11개를 통째로 오픈소스화했다.

같은 사건을 정반대로 푸는 두 베팅이며, Bloomberg가 "분 단위 응수"라 부른 7배 평가가치 격차가 이를 압축한다.

세 번째 흐름은 공급망과 신뢰 경계가 실제로 깨지고 있다는 신호다. TanStack 42 패키지가 6분간 악성 publish됐고, Hugging Face #1을 사칭 OpenAI 필터가 24만 다운로드로 가져갔다.

Google이 2027년 Programmable Search 전 웹 검색을 닫고, hardware attestation이 웹으로 확장되며, 로컬 AI와 사용자 자율성에 대한 긴장이 동시에 올라왔다.

네 번째 흐름은 에이전트 자율성 자축론에 대한 정면 반론이다. Yutori의 Das가 "50-step × 90% accuracy = 폭주"를 지적하고, r/AI_Agents 빌더가 "babysit이 필요하면 자동화가 아니다"라며 30k 에이전트 견적과 4k 자동화의 가격 격차를 폭로한다.

PrefixGuard 같은 실시간 실패 경보 연구가 같은 흐름에 붙는다.

마지막 흐름은 연구 쪽의 RL 회의론과 효율화 폭증이다. ReasonMaxxer가 "RLVR은 reasoning을 가르치는 게 아니라 base 모델의 이미 있는 답안을 sparse selection할 뿐"이라며 학습비용을 1000× 줄인다.

동시에 ROPD·ARR-RPO·AEM·c-GDPO 같은 GRPO 변형이 멀티모달·distillation·에이전트 RL을 가로질러 동시 등장한다.

멀티 에이전트 운영체계의 표준화

Claude Code Agent View와 `/goal` — 멀티세션이 표준 UI가 되다

LinkedIn · Claude 공식, Threads · @claudeai, Reddit · r/ClaudeAI, YouTube · Nate Herk

Anthropic이 Claude Code 2.1.139에 Agent View를 Research Preview로 풀었다. claude agents 한 줄이면 실행 중·대기 중·완료 세션이 한 목록으로 펼쳐지고, 인라인 답장으로 막힌 세션을 풀거나 /bg로 백그라운드 전환이 가능하다.

PC 리부팅 후에도 claude agents만 띄우면 세션이 그대로 살아 있다. Dylan Ko는 "지금까지 본 멀티 에이전트 관리 도구 중 최고"로 평가했고, 임근영은 백그라운드 세션도 구독 사용량을 동일 소모한다는 점을 운영 팁으로 짚었다.

단축키 체계는 세션 안에서 ← Agent View, → 세션 재진입, claude --bg "task" 신규 백그라운드 세션, Ctrl+X 두 번 종료.

함께 추가된 /goal은 목표를 정해주면 LLM judge call이 "goal satisfied?"를 판정해 완료까지 중단 없이 돌아간다. r/ClaudeAI와 r/ClaudeCode에 같은 공지가 동시 게재되어 합쳐서 likes 527 / comments 108로 거의 동일 비중의 관심이 쏠렸다. 같은 날 r/ClaudeAI 1위 농담글 "using Claude to close a </div>"(784/36)는 모델 비용 대 효용 논쟁의 정서적 기저를 드러낸다.

Codex `/goal`과 Hermes persist ghost — ralph-loop의 LLM-judge 진화

YouTube · AI Jason, YouTube · Nate Herk, Threads · peach.prompt

Codex가 "goal" 기능을, Hermes Agent가 거의 동시에 "persist ghost"를 출시했다. Codex 팀은 "올해 Codex가 ship한 것 중 가장 영향력 있다"고 표현했다.

두 도구의 핵심 차이는 stop condition을 코드 max-iter가 아닌 별도 LLM judge call로 바꾼 것이다. Codex 프롬프트는 "do not accept proxy signals as completion ... only marks a goal achieved when the audit shows the objective has actually been achieved"라며 self-judge를 강제하고, Hermes는 별도 judge LLM이 매 turn 평가한다.

AI Jason은 이 기능으로 9시간 야간 JS→TS 마이그레이션을 돌렸다. OpenClaw 메인테이너 Vincent의 학습은 "paste-and-go는 garbage"라는 것 — QA 프롬프트에 "20 discrete new issues" 같은 정량 정지 조건을 박아야 한다.

같은 흐름의 모델 내장 버전이 Anthropic Claude Managed Agents의 Dreaming 기능이다. 에이전트가 지난 작업 기록·메모리를 되짚어 반복 실수·성공 패턴을 텍스트 노트·플레이북으로 저장하고, 다음 작업에 자동 반영한다.

Nate Herk가 정리한 Hermes의 다섯 기둥(memory/skills/soul/crons/self-improving loop)은 정확히 이 패턴의 오픈소스 구현이다 — VPS + Telegram + OpenAI Codex OAuth로 ChatGPT $20 구독을 재활용, hermes config set GITHUB_TOKEN으로 비밀키 주입, 컨테이너 격리 + least-privilege rule. 컴팩션 임계치 약 136k 토큰, 데모에서 170k에 도달해 fallback context marker 삽입.

하네스 엔지니어링 — 모델보다 환경이 결과를 만든다

LinkedIn · Jaewoo Cho, LinkedIn · Junghwan Na, Threads · unclejobs.ai, Threads · roach_log

unclejobs.ai의 헤드라인이 흐름을 압축한다. "더 똑똑한 모델이 더 좋은 코드를 짠다는 2년 묵은 명제가 흔들린다.

좋은 모델 + 허술한 스캐폴딩 vs 평범한 모델 + 잘 깎은 스캐폴딩 — 후자가 승산이 높다." Addy Osmani가 "harness engineering"이라는 라벨을 던졌고, 65줄짜리 CLAUDE.md 템플릿이 GitHub 12만+ 스타를 받았다. Bun 팀은 Claude Code 에이전트 수백 개를 병렬로 돌리는데 CLAUDE.md 한 장이 코어라는 vyblor 인용.

Jaewoo Cho는 "감독의 역설"을 제기한다. Anthropic 자체 연구에서 개발자 디버깅 능력 47% 하락이 측정됐고, Simon Willison(30년차)이 "애플리케이션의 멘탈 모델이 사라지고 있다"고 진단했다.

Junghwan Na는 72시간 동안 100개+ OSS repo에 커밋 500건+로 GitHub 계정이 정지된 경험에서 "사람이 개입해야 하는 지점과 AI가 밀어붙일 수 있는 지점을 나누고 검증 gate를 설계하는 일"로 하네스를 정의한다. Ouroboros의 PR #824는 소크라테스 5단 묻기의 Wonder/Reflect/Refine/Restate를 인터뷰 게이트로 통합해 압축을 마지막 Restate 한 번만 일어나게 만들었다.

운영 무대도 Discord/메뉴바로 옮겨가는 중이다. roach_log의 UltraHermes는 Discord에서 /ultragoal·/ultraworkers로 30일 자율 실행을, yong076의 agent-cat은 메뉴바에서 Claude·Codex·Gemini 사용량과 서버 상태를 보여준다. _ju_tiger_lee_가 정리한 Claude Code 토큰 절약 우선순위는 1) code-review-graph 2) Serena(LSP) 3) Grep/Read 4) git.

에이전트 신뢰성 비판 — "first-try 작동 못하면 부족"

YouTube · EO Global · Yutori, Reddit · r/AI_Agents, arXiv · PrefixGuard

Yutori의 Abhishek Das(Grad-CAM 공저자, 20k+ 인용)는 "if it's not good enough to work on the first try, it's not good enough"이라고 단언한다. "if 10-step or 50-step workflow, even if accuracy at each step is 90%, the 10% error rate compounds very quickly." 사회가 "9/10 작동을 정상으로 받아들이는 것"을 거부한다.

Yutori는 모든 production query를 evals 파이프라인으로 통과시키고 도메인별 약점을 추적한다. 디자인 철학으로 Grad-CAM의 "proof of work" — Scouts UI에 inspect 버튼으로 어떤 사이트를 방문해 어떤 정보를 추출했는지 백스테이지를 노출한다.

r/AI_Agents의 "Stop building AI agents"(120/53)는 같은 메시지를 자영업자 시점에서 친다. 헬스케어/핀테크 40+ 프로젝트 빌더의 주장 — 30k짜리 "에이전트" 견적 대비 4k 자동화로 90% 가치를 뽑는다.

텔레헬스 인테이크 라우터(임상의 하루 4시간 절감, 6주), 핀테크 ACH 화해 스크립트(ops 1명 절감), 메드스파 노쇼 패턴 감지(분기 매출 14%↑) 모두 LLM 콜은 1회뿐, 나머지는 평범한 코드다. 4-Q 결정 체크리스트: 단계 그릴 수 있나 → 자동화, 분기 5+ + 예측불가 입력 → 에이전트 후보, 오답 비용 크면 → 자동화, 컴플라이언스 검토 대상이면 → 자동화 풀스톱.

HIPAA/SOC 2 감사가 자동화는 20분, 에이전트는 6개월짜리 악몽이다.

연구 쪽에서는 PrefixGuard가 raw trace에서 모니터를 합성한다. StepView 어댑터가 이질적 로그를 고정 schema로 정규화하고, GRU/Transformer/soft-FSM 백엔드가 prefix 단계에서 실패를 예측한다.

WebArena AUPRC 0.900, τ²-Bench 0.710, SkillsBench 0.533, TerminalBench 0.557로 raw-text GRU 대비 평균 +0.137 개선, LLM-as-judge는 같은 프로토콜에서 현저히 약했다.

모델사 거버넌스·GTM 분기

OpenAI Deployment Company vs Anthropic Financial Services — 정반대 두 베팅

News · OpenAI, News · GitHub anthropics/financial-services, LinkedIn · Goobong Jeong, Threads · unclejobs.ai

OpenAI가 40억 달러로 Deployment Company를 신설했다. Tomoro 인수로 FDE 150명이 day-1 합류했고, Tomoro의 기존 고객엔 Tesco·Virgin Atlantic·Supercell이 포함된다.

파트너 구성이 핵심이다 — TPG 리드, Advent/Bain Capital/Brookfield co-lead, McKinsey/Bain & Company/Capgemini가 동시에 투자자 겸 파트너. 다수 지분은 OpenAI가 보유하며 후원사 포트폴리오 2,000+개사가 distribution 채널로 들어온다.

Goobong Jeong은 "모델만 파는 회사에서 멈추지 않고 기업 내부 AI 운영체제를 직접 깔러 들어간다"고 정리했다. 이동욱은 같은 사건을 정반대로 본다 — "AI가 사람을 줄이는 기술이라면 왜 모델 회사들은 사람을 고객사 안으로 더 깊게 보내고 있는가."

같은 주 Anthropic은 금융 reference 자산을 통째로 오픈소스화했다. 10개 에이전트(Pitch Agent, Meeting Prep, Market Researcher, Earnings Reviewer, Model Builder, Valuation Reviewer, GL Reconciler, Month-End Closer, Statement Auditor, KYC Screener), 7개 vertical plugin, 11개 MCP 데이터 커넥터(Daloopa·Morningstar·S&P Global Kensho·FactSet·Moody's·LSEG·PitchBook 등), 그리고 슬래시 커맨드 /comps·/dcf·/lbo·/3-statement-model·/ic-memo·/buyer-list. 같은 소스가 Claude Cowork 플러그인과 Managed Agents API 양쪽에 배포 가능하며, Microsoft 365 add-in admin tooling이 Vertex AI/Bedrock/내부 LLM gateway로 라우팅을 지원한다. unclejobs.ai가 Bloomberg를 인용한 "분 단위 응수"가 두 발표의 격차를 압축한다 — Anthropic 컨설팅 법인 평가가치 2조 1,900억 원, 일주일 뒤 OpenAI는 14조 6,000억 원.

컨설팅 commoditization과 결과 기반 가격

LinkedIn · Grant K. Baldwin, LinkedIn · EO planet · Sierra, LinkedIn · 황현태 · Klarna, LinkedIn · 양승만 · Haus

Grant K. Baldwin은 Bain이 Fortune 50 COO에게 $1.2M에 납품한 AI 워크플로 우선순위 분석(6주, 200페이지, heatmap + maturity quadrant)을 Claude Opus 4.7 기반 4개 Skill — Workflow Cartography, Handoff Forensics, Architecture Auditor, Automation Readiness Verdict — 으로 재구성했다.

그가 던지는 칼은 "레시피는 무료다. 진짜 가치는 레스토랑이다(senior operator judgment)"와 "진짜 시퀀스는 일을 이해 → AI 포함 TOM 설계 → 도구 구축." OpenAI DeployCo가 Bain/McKinsey를 파트너로 끼는 이유의 정반대 논리.

Sierra가 시리즈 E로 9.5억 달러를 받고 밸류 158억 달러를 매겼다. 매출의 100배가 넘는 멀티플의 정당화는 outcome-based 과금 — 좌석/사용량이 아닌 "고객 문의가 실제 해결됐을 때만" 청구한다.

Klarna는 정반대 방향에서 깨졌다 — 작년 "AI가 상담원 100% 대체" 선언 후 700명 해고, 품질 저하/고객 불만으로 재고용 유턴. 황현태의 처방은 다섯 가지: 포지션 통째 대체 타이밍 아님, 업무 단위 접근, 리더의 디테일 파악, 조직 실험 지속, 목적은 비용 절감이 아닌 밸류업.

Haus(미국)는 광고 lift를 약물 임상시험식 지역 대조군으로 측정한다 — 스탠퍼드 Susan Athey 합류. 18개월 분석 결과 핵심 숫자는 전체 lift의 약 25%가 캠페인 종료 후 도착한다는 것. 카테고리별로 화장품 12%(충동 구매), 가구/핀테크 앱 28%(고관여)다.

채널(YouTube/CTV/Linear TV) 차이는 몇 %p 안. 캠페인 종료와 동시에 측정 닫으면 진짜 ROI의 1/4를 못 보고 결정하며, 끊은 채널이 뒤늦게 매출 도착하면 "끊은 게 정답이었어"로 해석되는 false positive 루프에 빠진다.

GitLab Act 2와 노동시장 양극화

News · about.gitlab.com, YouTube · a16z · Andreessen, YouTube · OpenAI · Endava

GitLab CEO Bill Staples가 "Act 2"를 선포했다. 4가지 구조조정 — 국가 수 최대 30% 축소(현재 ~60개국), 매니지먼트 레이어 8→3, R&D 60개 자율 팀(거의 두 배), 내부 프로세스 AI 에이전트로 재구성. CREDIT 가치 프레임워크를 폐기하고 Speed with Quality, Ownership Mindset, Customer Outcomes 3개 원칙으로 교체했다. 5개 architectural bet 중 첫 번째가 "Git 자체를 agent-rate에 맞춰 재설계", 비즈니스 모델은 구독 + 컨센션(에이전트 작업 단위) 혼합.

Marc Andreessen은 같은 흐름을 다른 언어로 설명한다 — "AI vampires"라 부르는, 큰 다크서클에 완전히 지쳤지만 황홀해(euphoric)한 코딩 어시스턴트 사용자들. "leading edge programmers are like 20x more productive than they were a year ago." Twitter 70% 감원 후에도 잘 돌아가는 사례로 "미국 대기업은 2~4x bloated, 일부 응답자는 8x"이라며 AI를 "정리해고의 편한 scapegoat"로 본다.

새 직군 가설 "builder" — 프로그래머·PM·디자이너의 멕시칸 스탠드오프가 한 명으로 합쳐진다. 그가 명시 인용한 Codex goal은 "literally run projects for 24 hours or longer without human intervention."

Endava 지역 CTO Jordan Levy의 공식 증언이 엔터프라이즈 버전이다 — "What Codex has really helped us do is have small teams of people deliver massive value in a very condensed time frame. The shift has gone from us producing a lot of the code ourselves to us now overseeing the work Codex produces, and the quality has gone up exponentially." 시니어가 의도를 정확히 전달하면 Codex가 주니어가 따라잡을 정보로 변환하고, 주니어는 그 도구로 "senior and mature level outputs"를 만든다는 양극단 효과를 명시한다.

결제 충성도 흔들림 — Claude rate limit + Replit 청구서

Reddit · r/ClaudeCode, Reddit · r/OpenAI, Reddit · r/openclaw

본문 한 줄("claude's rate limits are awful")에 댓글 76개가 달린 신호와, 동일 사용자 snafu_2020이 곧바로 r/OpenAI로 "i cannot go back to claude now"(148/11)를 올린 의도적 이탈 선언. 인접 토픽이 패턴을 강화한다 — r/replit "Replit is such a ripoff"는 한 달 $1,000+ 청구를 맞고 Claude Code로 이주, "403 Error Is Back"은 월 $2,000+ 결제자가 데이터베이스 사고로 가입자 잃고 환불 요구.

결제 액수가 두 자릿수가 아니라 네 자릿수라는 점이 결정적. 같은 주 r/openclaw 모드가 "장기 + 명백한 astroturfing"을 이유로 대안 하네스 논의를 한시적 제한했다.

코딩 하네스 시장 전체가 사용자 이동과 커뮤니티 정치의 압력 아래 동시에 흔들린다.

공급망 보안과 신뢰 경계

TanStack 6분 침해와 풍자가 동시에 — 공급망 디스토피아

News · TanStack postmortem, News · CVE-2024-YIKES 풍자, Reddit · r/huggingface

2026-05-11 19:20-19:26 UTC, 6분 동안 TanStack의 42개 패키지에서 84개 악성 버전이 publish됐다. 세 가지 알려진 취약점의 체인이다 — (1) pull_request_target Pwn Request로 공격자 fork(github.com/zblgg/configuration)가 bundle-size.yml 워크플로에서 base repo의 cache scope에 1.1GB 페이로드를 저장(2026-05-10~11 11:31).

(2) 정상 PR merge로 release.yml이 트리거되면 포이즈닝된 캐시가 복원되고, 악성 바이너리가 /proc/*/maps·/proc/*/mem에서 OIDC 토큰을 추출해 registry.npmjs.org로 직접 publish POST. (3) postinstall에서 ~~2.3MB router_init.js가 AWS IMDS/Secrets Manager·GCP metadata·Kubernetes SA 토큰·Vault·~~/.npmrc·GitHub 토큰·.git-credentials·SSH 키를 수집해 Session(Oxen) messenger로 유출 — E2E 암호화라 IP/도메인 차단이 유일한 mitigation. 자기 전파로 victim의 다른 npm 패키지에도 동일 주입.

위장 신원은 claude <claude@users.noreply.github.com>(실제 Anthropic 아님). 내부 알람 없음 — 외부 감지자 ashishkurmi가 20분 내 발견.

행운은 페이로드가 테스트를 깨뜨려 정상 publish 스텝이 skip됐다는 것. 2026-05-11에 영향받은 버전 설치한 호스트는 AWS·GCP·Kubernetes·Vault·GitHub·npm·SSH 자격 증명 전부 rotate 필요.

같은 주 surfingcomplexity.blog의 CVE-2024-YIKES 풍자는 73시간 패러디 사고 보고서다 — left-justify(847M weekly downloads) 메인테이너의 YubiKey 분실 → AI Overview가 phishing 사이트 추천 → 자격 증명 탈취 → vulpine-lz4(cargo transitive dep) → snekpack(PyPI 'data' 패키지의 60%가 의존) → 약 420만 머신 감염, 동시에 cryptobro-9000 크립토 채굴 웜이 우연히 패치.

풍자된 실제 이슈 — npm registry password-only auth, AI Overview 신뢰성, "small crates" 철학, Dependabot 자동 merge, OIDC/2FA 우회. r/huggingface에는 가짜 "OpenAI Privacy Filter" 리포가 #1로 올라 24만 다운로드를 가져갔다는 짧은 신호도 함께 올라왔다.

에이전트 스킬·VLM 보안 레이어

arXiv · SkCC, arXiv · SAEgis, Threads · tab.tiny · Daybreak

Snyk 감사 결과 커뮤니티 스킬 3,984건 중 약 37%에 보안 취약점이 있고, 동일 SKILL.md여도 프롬프트 포맷에 따라 모델 성능이 최대 40% 변동한다. SkCC(Skill Compiler)는 LLVM 비유로 SKILL.md를 강한 타입의 IR(SkIR)로 컴파일해 Claude Code/Codex CLI/Gemini CLI/Kimi CLI에 emit하면서 Security Optimizer가 위험 HTTP·unbounded loop·destructive DB 패턴에 자동으로 안전 제약을 삽입한다.

SkillsBench pass rate가 Claude Code 21.1%→33.3%, Kimi CLI 35.1%→48.7%로 상승, Anti-Skill Injection 보안 트리거 94.8%, 런타임 토큰 10-46% 절감.

SAEgis는 VLM 어드버서리얼 방어에 Sparse AutoEncoder를 plug-and-play firewall로 끼운다. 동기는 명확하다 — GPT-5와 Gemini-2.5-Pro조차 SSA-CWA·AttackVLM·M-Attack·FOA-Attack 같은 최신 공격에 거의 100% 공격 성공률을 보인다. attack-relevant feature 선택은 단순 difference-of-means(clean vs adversarial 활성 점수 평균 차)로, 별도 classifier 학습 없이 cross-domain generalization에서 큰 폭 우위.

같은 주 OpenAI는 Codex 기반 사이버 보안 도구 Daybreak를 공개해 취약점 발견·코드 리뷰·패치 검증을 자동화한다. tab.tiny의 한 줄이 시그널을 압축한다 — "이제 바이브 코딩의 다음 화두는 보안이 될 것 같다."

디바이스 권한·검색 권력의 재편

News · unix.foo, News · hada · App Attest, News · Rossmann × Bambu Lab, Reddit · r/LocalLLM

unix.foo의 핵심 주장 — "Stop shipping distributed systems when you meant to ship a feature." Apple FoundationModels의 @Generable typed output 패턴으로 The Brutalist Report iOS 앱이 on-device 요약(~10k chars chunk, 2-pass)을 서버 호출 없이 처리한다.

로컬 모델이 잘하는 태스크는 summarize/classify/extract/rewrite/normalize, PhD-level intelligence는 cloud 필요. "Apple Neural Engine이 idle 상태로 놀고 있는데 Virginia 데이터센터에서 JSON을 기다리는 것이 ridiculous."

반대 방향에서 Apple App Attest API와 Google Play Integrity API가 Privacy Pass를 통해 웹으로 확장되는 중이다. 기기가 "정품 + jailbreak 안 됨 + 정식 OS"임을 cryptographically 증명해야 웹 서비스가 작동하는 인프라 — Linux/AOSP/root된 안드로이드 사용자 배제, 사이드로딩 앱·비주류 브라우저(Ladybird·Servo) 차단 위협.

Louis Rossmann은 Bambu Lab의 cease & desist에 맞서는 OrcaSlicer-BambuLab 개발자 Pawel Jarczak의 법률비 $10,000을 공식 약속했다 — Bambu Lab은 third-party integration이 클라우드 인프라에 일 약 3천만 unauthorized requests를 유발한다고 주장.

r/LocalLLM의 PieceOfPanic가 짚은 신호 — Google이 2027년 1월부터 Programmable Search Engine의 "전 웹(WWW) 검색" 모드를 비활성화한다. 사이트 소유자가 도메인을 지정해야만 검색 가능.

ollama + open-webui + programmablesearchengine.google.com 같은 로컬 AI 셋업에서 LLM이 진짜 웹 검색을 하던 경로가 막힌다. 40 likes / 32 comments — 정책 변화에 대한 토론 농도가 좋아요 비율 0.8로 높다.

사고 해석의 메타 — distancing through differencing

News · surfingcomplexity.blog

Lorin Hochstein(Resilience Engineering)의 핵심 주장 — "How could they have not done X?" 식 반응은 distancing through differencing의 전형이다. PocketOS의 AI agent가 production 데이터를 파괴한 사건 인터넷 반응 다수가 "저 사람 바보 아닌가" 톤이었지만, 정작 Railway는 같은 사고에서 학습해 system-level safety guardrail을 추가했다.

Cook & Woods 2006의 chemical fire 사례 — 미국 화학공장 화재 후 직원들은 해외 공장 사고를 "different workers, different conditions"로 dismiss → 학습 없음 → 동일 사고 재발. 같은 공장의 다른 shift 직원들조차 "그 shift 직원들이 less skilled"라며 distancing. AI 사고 보고서가 폭증하는 시기에 가장 실용적 메타 글.

개발 도구·인프라·로컬화

CLI가 다시 표준 인터페이스로 — Printing Press와 Bifrost

YouTube · Nate Herk · Printing Press, News · maximhq/bifrost

Nate Herk가 출시 다음 날 리뷰한 Printing Press(printingpress.dev)는 "CLI factory + 50+ pre-built CLI"다. 핵심 주장 — "APIs are built for code, MCPs are built for tools, CLIs are built for agents." 벤치마크 수치가 결정적이다 — "MCP used 35x more tokens than CLI on the same task. Reliability drops from 100% with CLI to 72% with MCP as tasks get harder." Skool(공식 API 없음) 데모에서 자연어 한 줄로 PP CLI가 호출돼 260 토큰 전송 / 132,000 토큰 응답을 받고, Claude 컨텍스트에는 약 2,000 토큰 요약만 적재된다.

도구의 기원이 인상적이다 — OpenClaw 창립자 Peter Steinberger가 공식 CLI 품질에 만족 못해 직접 GOG CLI(Google Workspace 대체)를 만든 흐름의 일반화. 사전 빌드 라이브러리에 ESPN/Linear/Amazon/Craigslist/eBay/Shopify/Hacker News/Airbnb와 합성 CLI Contact Goat(LinkedIn + Hunter cross-check) 포함.

Tally/YouTube Data API 같은 자체 빌드도 약 10분.

인프라 한 단 아래에서 Bifrost가 같은 메시지를 친다 — Go 기반 단일 바이너리, 23+ 프로바이더(OpenAI/Anthropic/Bedrock/Vertex/Azure/Cerebras/Cohere/Mistral/Ollama/Groq)를 단일 OpenAI 호환 API로 통합. 5K RPS sustained에서 추가 latency가 t3.medium 59µs → t3.xlarge 11µs(-81%), Queue wait 47µs → 1.67µs(-96%), API key 선택 ~10ns, success rate 100%. drop-in replacement는 base_url만 변경.

MCP 게이트웨이를 1st-class로 내장한다.

RAG·MCP 진화의 세 갈래

Reddit · r/Rag, Reddit · r/mcp, Reddit · r/indiehackers, Reddit · r/ChatGPTPro

r/Rag의 2년차 빌더 회고가 도착점을 정리한다(44/34, 댓글 비율 0.77) — 4가지 실패 모드: 조용히 썩는 stale chunk, 모호/멀티홉 쿼리 의도 불일치, 테이블·섹션 헤더·숫자를 가르는 chunk 경계, 너무 깔끔해서 실전 신호 못 잡는 eval set. 프로덕션에서 살아남는 구조는 deterministic ingestion + structured storage가 base, graph/relational로 명시적 관계, 벡터 인덱스는 fuzzy fallback으로 강등, reranker는 측정상 도움 될 때만.

LangChain/LlamaIndex는 "추상화가 chunk 경계, 재시도 로직, 커스텀 배칭 같은 가장 안 좋은 순간에 새서" 출시 전 뜯겨나간다. "PDF는 인쇄 지시서지 문서가 아니다."

r/mcp에서 동시 진행되는 세 갈래 — Longjumping_Bad_879는 MCP 서버가 단일 execute_tool({function_name, parameters})만 노출하고 SKILL.md + reference .md 번들을 함께 제공하는 패턴을 제안한다. 인증/시크릿은 서버 안에, LLM은 SKILL.md 라우팅으로 가이드.

ChristopherDci의 MCP Generator v2.0.0은 v1 피드백("raw endpoint를 tool로 노출하면 LLM 인터페이스로 부적합", "console.log가 stdio 오염")을 정확히 받아 incremental generation, stderr 분리, safe serialization, circular $ref 가드를 고쳤다.

mcp-gen init --from stripe 한 줄로 10+ API 레지스트리(Stripe/GitHub/Slack/OpenAI/Twilio/Shopify/Kubernetes 등) 2분 셋업. o9dev의 Credyt은 v0 프롬프트에 가격 정책을 자연어로 적으면 MCP 서버가 plans/prices/entitlements를 자동 생성하고 Next.js 앱에 /billing 라우트를 마운트한다 — reserve-then-commit 패턴으로 멀티스텝 에이전트 실패 시 이중과금 방지.

r/indiehackers의 짧은 관찰이 한쪽 거울이다(14/42) — "Notion, 폼, 태스크 관리, 이메일 드래프트를 직접 UI 안 거치고 Claude/ChatGPT로 처리 중. 앱은 백엔드로만 돈다." 반대 거울이 r/ChatGPTPro의 ChatGPT for Excel — Excel "안에서" 수식 복붙/탭 이동 없이 작동, 5가지 기능(프롬프트로 시트 생성, 수식 설명, 에러 추적, 탭간 트렌드 요약, 기존 시트 편집 시 수식/포맷 보존), 자동 변경 아니라 사용자 검토 후 적용.

SaaS가 AI 백엔드로 빠져나오는 방향과 AI가 기존 UI 안으로 들어가는 방향이 동시에 진행 중이다.

한국 빌더 스택 — gpt-slide, K-스킬, Mark, TanStack 조합

LinkedIn · Jeongmin Lee, LinkedIn · Jeffrey Kim · K-스킬, Threads · hanee.dev, Threads · handy__sama · 핸디독스

Jeongmin Lee의 gpt-slide는 Codex 환경의 gpt-image-2를 활용해 보고서를 슬라이드 이미지로 변환하는 4단계 파이프라인이다 — gpt-slide-design(레퍼런스에서 DESIGN.md 추출) → gpt-slide-plan(스토리라인) → gpt-slide-prompt(페이지별 JSON) → gpt-slide-generate(page_N.png 자동 렌더링).

Jeffrey Kim의 K-스킬은 Manus 호스트에서 KBO·부동산 경매·KTX 예매·전자공시 같은 한국 특화 워크플로를 .skill zip으로 배포한다. Jin Joong Kim의 Mark는 데스크탑 마크다운 뷰어/편집기로 Upstage 제휴 Solar Pro 3 무제한 무료 제공.

hanee.dev가 던진 스택 추천은 TanStack Start + TanStack Query + Zod + shadcn(Base UI) + Cloudflare Workers. Next.js 비추 3가지 — 라우트 경로 타입 안전성 약함, 'use client'/'use server' 안티패턴, 최근 보안 결함. Vercel 대신 CF Workers는 Cron 포함 하루 10만 회 무료.

핵심 결론은 마지막 줄 — "AI 에이전트가 가장 잘 이해할 수 있는 스택." 한국 인디 빌더 BM 분화도 같은 결로 가시화 — handy__sama의 핸디독스는 정부 "모두의 창업" 1등 10억 상금에 맞춰 사업계획서 자동화 툴 출시(10분 만에 합격 퀄리티, 댓글 339). foodibear_의 음식 포스터 프롬프트는 좋아요 1,692로 이날 가장 잘 퍼졌고, jaewonseo의 한 줄 — "예상 타겟은 개발자 남성, 실유입은 미감 상당한 여성"이 한국 AI 툴의 페르소나 미스매치를 압축한다.

폐쇄·BYOK 클론 4주 사이클 — Open Design, OpenGravity

News · nexu-io/open-design, News · ab-613/opengravity

Anthropic Claude Design(2026-04-17, Opus 4.7, 클로즈드/유료)이 출시 4주 만에 BYOK 로컬 오픈소스 대체제 Open Design(Apache-2.0)이 등장했다. 핵심은 daemon이 PATH를 스캔해 16개 코딩 에이전트 CLI를 자동 감지한다는 점 — Claude Code, Codex, Devin for Terminal, Cursor Agent, Gemini CLI, OpenCode, Qwen, Qoder CLI, GitHub Copilot CLI, Hermes(ACP), Kimi(ACP), Pi(RPC), Kiro(ACP), Kilo(ACP), Mistral Vibe(ACP), DeepSeek TUI. 각 CLI마다 별도 adapter가 있어 stdin/stream 프로토콜이 정규화된다. 31개 Skill + 129개 Design System + 5개 visual direction(Editorial Monocle, Modern Minimal, Warm Soft, Tech Utility, Brutalist Experimental), gpt-image-2/Seedance 2.0/HyperFrames 미디어 생성, SSRF 차단(loopback Ollama 허용).

학생 ab-613이 만든 OpenGravity는 Google Antigravity의 BYOK vanilla JS 클론이다. Google AI Studio에 스크린샷 다수 + prompt engineering, Gemini 3.1 Pro로 며칠 만에 UI 재현.

Pure HTML/CSS/JS, zero install, 브라우저 기반 IDE + xterm.js + WebContainer API + 로컬 파일시스템 sync + proactive agent. BYOK Gemini only, API key는 브라우저 localStorage에만 저장, GPL-3.0. 두 사례의 공통점은 폐쇄 도구의 UI 자체가 더 이상 moat이 아니라는 것 — AI로 며칠 안에 BYOK 오픈 클론이 등장한다.

로컬 LLM이 데스크탑에서 — Optane + llama.cpp + MiniCPM

Reddit · r/LocalLLaMA, LinkedIn · 장종례, Threads · feelfree_ai, Threads · sweet_bkan · antirez

APFrisco의 빌드(347/65)가 산업 신호다 — Intel Xeon Gold 6246 + Optane DCPMM 768GB(단종된 PMem을 중고로) + RTX 3060 12GB + DDR4 ECC 192GB. Kimi K2.5(Unsloth Q2_K_XL quant)를 llama.cpp override-tensor/ngl auto/cmoe 플래그로 hybrid GPU/CPU 추론, 1조 파라미터 ~4 tokens/sec 달성.

어텐션·dense layer·shared expert·라우팅은 GPU, sparse expert는 PMem/DRAM. Low-Alarm272의 llama.cpp 체험기는 RTX 3050 6GB로 35B 모델을 64k 컨텍스트에서 안정 26 t/s 코딩, 이전 9→4 t/s에서 회복. "노트북에서 $1000짜리 코딩 작업을 공짜로 한다, 사람들이 이걸 깨달으면 AI 버블은 터진다."

LinkedIn의 장종례 사례는 폐쇄망 Zero Trust 환경의 압축본이다 — 대기업 70본 개발(5월 말 마감, 20% 진행), 주말에 RTX 5090 노트북(600만원대) 구입, Ollama + Qwen3 Code 양자화 모델 + CLINE 환경. Vue.js 테스트에서 "기대 이상으로 안정적이고 생산성 잘 나옴." feelfree_ai의 MiniCPM-V-4.6은 SigLIP2(400M) + Qwen3.5(0.8B) = 1B VLM으로 기존 대비 토큰 19배 절약하면서 더 큰 소형 VLM 성능 추월, GGUF로 iOS/안드로이드 온디바이스 가능. sweet_bkan은 Redis 만든 antirez가 DeepSeek V4 Flash 전용 로컬 추론 엔진을 공개해 4일 만에 GitHub 스타 4,800개 받은 신호를 전한다 — 범용 엔진(llama.cpp) 흐름과 반대로 "모델 하나에 특화된 엔진." siya_dl은 RTX 3090 + Qwen 27B Q4_K_M GGUF로 100-130 t/s, Vast 빌려서 151 t/s 도달.

Vercel 운영 비용 경고와 Scrapling 1.5M

Reddit · r/nextjs, Reddit · r/webscraping

작은 신호지만 실무 가치가 있다. 7,500페이지짜리 SSG/ISR 사이트가 4,905 PV/30일로 Vercel 무료 한도 90%+를 채운다 — Fast Origin Transfer 10.27GB/10GB, Fluid Active CPU 4h 9m/4h, Edge Requests 543K/1M. dynamicParams = true로 on-demand 생성이 일어나면서 봇/스크래퍼가 컴파일 비용을 끌어올리는 가설이 가장 유력하다.

Python 웹 스크래핑에서는 Scrapling이 1.5M 다운로드를 향해 v0.4.8로 CrawlSpider + SitemapSpider 템플릿, LinkExtractor + CrawlRule 도입.

연구 레이더

RL의 본질을 다시 묻는다 — ReasonMaxxer + GRPO 변형 폭증

arXiv · ReasonMaxxer, arXiv · DeltaRubric, arXiv · ROMA, arXiv · ROPD, arXiv · AEM, arXiv · BalCapRL

USC/DEVCOM ARL의 ReasonMaxxer는 RLVR 통념에 정면으로 의문을 던진다. Qwen2.5/Qwen3 + GRPO/PPO/RLOO 전반의 token-level 분석 결과 — (i) RL은 전체 token 중 1-3%만 수정, (ii) 수정된 token은 항상 base 모델 top-5 내(평균 rank 2), (iii) 수정 위치는 base entropy가 높은 "decision points"에 집중.

RL-free 한 ReasonMaxxer는 entropy gating으로 decision point만 찾아 advantage-weighted contrastive loss를 적용 — 3개 모델 패밀리 × 6개 scale × 6개 수학 벤치마크에서 full RL과 동등 또는 우위, 학습 비용 약 3 orders of magnitude 절감(수십 문제, 분 단위 single-GPU).

결론은 "RLVR은 reasoning을 가르치는 게 아니라 base 모델이 이미 아는 답안 중 하나를 sparse selection할 뿐."

대조점에서 GRPO 변형들이 동시에 등장했다. Tencent Hunyuan의 DeltaRubric은 단일 MLLM이 Disagreement Planner → Checklist Verifier 두 역할을 multi-role RL로 학습 — Qwen3-VL VL-RewardBench Overall 4B 54.9→77.5(+22.6), 8B 61.3→80.1(+18.8).

같은 그룹의 ROMA는 dual-forward-pass(clean에서만 rollout, degraded view엔 teacher forcing)로 "reward poisoning"을 차단해 7개 reasoning 벤치마크에서 clean 68.7% 유지하면서 seen 59.2→61.6, unseen 54.0→56.3. NUS/Tencent의 ROPD는 GPT-5.2 같은 블랙박스 교사에서도 logit 대신 rubric을 reward로 써서 logit-based OPD 대비 10× sample efficiency. Baidu/Tsinghua의 AEM은 response-level entropy proxy로 advantage를 rescale해 ALFWorld +8.8%, DeepSWE SWE-bench-Verified +1.4%. Apple의 BalCapRL은 utility/recall/linguistic 3차원 reward를 c-GDPO(continuous GDPO)로 결합해 CapArena +29.0, DCScore +13.6.

추론 효율·KV 캐시 재정의

arXiv · SpecBlock, arXiv · TS-DFM, arXiv · SPEED, arXiv · TrimKV, arXiv · LiVeAction

SpecBlock은 EAGLE-3(autoregressive drafter, drafting cost ~30%)와 Medusa/ParallelSpec(parallel, ~7%인데 reject 多)의 균형으로, K=4 dependent positions + M=2 blocks/iter로 최장 path가 깊이 8에 도달하며 drafter는 2번만 호출.

Llama-3.1-8B/Qwen3-8B/32B에서 EAGLE-3 대비 mean speedup +8-13%, drafting cost 44-52%, cost-aware bandit 켜면 +11-19%. Apple+Ohio State의 TS-DFM은 discrete flow matching distillation의 새 진단 — 병목은 학생 capacity가 아니라 trajectory 자체. navigation shaping(K=5 후보 + 6-block transformer energy compass) + Sequence-to-Token 정책으로 170M 학생이 8-step에서 GPT-2 perplexity 56.1로 1,024-step 교사 대비 -32% PPL, 128× faster, energy compass 정확도 98.5%.

서울대의 SPEED는 prefill 토큰을 하위 K개 레이어만 처리·캐싱하고 decode 토큰은 전체 통과시키는 비대칭 정책. K=24(75% 레이어)로 OLMES 평균 51.2(Full-IT 51.4) 유지하면서 128K 컨텍스트 TTFT 33%↓, TPOT 22%↓, active KV 25%↓. Yale/CUHK의 TrimKV는 거꾸로 가설을 뒤집어 — 무관 토큰이 attention dilution을 일으키므로 적절한 eviction이 성능을 끌어올린다. learnable retention gate + tied scoring projection으로 글로벌 ranking을 학습, multi-turn dialogue와 VLM에서 full-cache 동등 이상.

UT Austin의 LiVeAction은 웨어러블·원격 센싱용 lightweight neural codec — asymmetric design + FFT-like block-diagonal structured operation + WPT(CDF 9/7) + FSQ로 Cosmos 대비 BD-rate 34% 개선 + 인코딩 10× 빠름, spatial audio/hyperspectral/3D CT까지 단일 구조.

T2I/생성 모델 alignment 클러스터

arXiv · UNO, arXiv · Flow-OPD, arXiv · SCOPE, arXiv · Delta-Adapter, arXiv · PAE, arXiv · Mean Mode Screaming

같은 날 T2I post-training이 한 클러스터로 묶였다. Tsinghua/Kuaishou의 UNO는 BAGEL 같은 unified 모델에서 understanding expert를 frozen으로 두되 noised generative representation에 conditioning시켜 captioning + visual regression supervision을 추가 — GenEval2 71.7→75.1, DPG-Bench 84.03→86.12, GEdit-Bench-EN 6.52→7.17. USTC/UCLA의 Flow-OPD는 LLM에서 검증된 On-Policy Distillation을 flow matching T2I에 처음 이식 — 도메인별 expert teacher 생성 → student를 SFT/model merging cold-start → task-routing labeling + Manifold Anchor Regularization. SD3.5 Medium 기반 GenEval 63→92, OCR 정확도 59→94, vanilla GRPO가 78에서 조기 수렴할 때 Flow-OPD는 93까지.

USTC/HKPolyU의 SCOPE는 복잡 T2I를 "semantic commitment" lifecycle 관리 문제로 재정의 — z=(E,C,U) 구조화 specification + Decomposer/Synthesizer/Generator/Verifier 코어 루프, Gen-Arena EGIP 0.60 SOTA, WISE-V 0.907, MindBench 0.61. SYSU의 Delta-Adapter는 exemplar 편집을 pair-of-pairs에서 single-pair로 단순화 — SigLIP delta + FLUX backbone 동결 + semantic delta consistency loss.

같은 날 토크나이저·DiT 스케일링 두 작업도 — PAE는 토크나이저를 reconstruction fidelity 대신 latent manifold organization 관점에서 재설계(SSC/LPC/GSQ 세 속성과 SSR/MCR/SCR 정규화). ImageNet 256×256에서 rFID 0.26, gFID SOTA 1.03, RAE 대비 13× 빠른 수렴.

Mean Mode Screaming은 1000-layer DiT 스케일 학습의 silent failure를 "mean-dominated collapse"로 명명하고 abrupt entry event를 MMS로 분리 — 메커니즘은 row-stochastic attention의 centered subspace contraction + softmax Jacobian null space에서 Q/K gradient 4 orders of magnitude 감소.

해법 MV-Split Residuals(centered residual gain β + leaky trunk-mean replacement α)로 400-layer 안정화 + 1000-layer scale validation 성공.

에이전트 평가·롱컨텍스트·멀티모달 search

arXiv · MLS-Bench, arXiv · HyperEyes, arXiv · Q-RAG, arXiv · Omni-Persona, arXiv · RLA-WM

UC Berkeley/Princeton/Tsinghua의 MLS-Bench(140 task × 12 domain, MLS-Bench-Lite 30 task)가 묻는다 — "프런티어 에이전트가 진짜로 새로운 ML 방법을 발명할 수 있는가?" GPT/Claude/Gemini 계열 모두 강한 인간 베이스라인을 컨텍스트로 받고 다중 이터레이션을 허용해도 인간 설계 방법을 안정적으로 능가하지 못한다.

엔지니어링 튜닝은 잘하지만 통제된 검증을 통과하는 새 메커니즘 제안에는 약함. test-time scaling, adaptive compute, 추가 컨텍스트 모두 "과학적 판단" 병목을 해소하지 못함.

DeepExperience의 HyperEyes는 "search wider, not longer" 원칙으로 Unified Grounded Search(visual grounding + retrieval을 단일 atomic action으로 융합)와 Dual-Grained Efficiency-Aware RL(TRACE macro + OPD micro)를 결합 — 6개 벤치마크에서 +9.9% accuracy, 5.3× 적은 tool-call rounds. 새 IMEB 벤치(300 multi-entity instances) 공개.

Q-RAG는 LLM은 freeze하고 embedder만 value-based RL(PQN backbone)로 fine-tune해 BabiLong/RULER에서 10M token까지 SOTA, ATLAS·ARMT·Titans·LongRoPE2를 1M token 이상에서 모두 능가. SNU의 Omni-Persona는 첫 omnimodal personalization 벤치(텍스트·이미지·오디오, 4 task group × 18 task × ~750 items), 새 지표 Calibrated Accuracy로 grounding + abstention 공동 보상 — 오픈소스 omnimodal에 audio < visual grounding gap 일관, RLVR이 dense rule-based supervision으로 부분 완화.

Rutgers/Purdue의 RLA-WM은 DINO 토큰 잔차(s_t, s_{t+h})를 latent action으로 인코딩한 뒤 flow matching으로 예측 — 비디오 디퓨전 월드 모델 대비 orders of magnitude 빠르게 ManiSkill XArm/UR10e SOTA. actionless demonstration video만으로 imitation, 오프라인 비디오만으로 WMRL(visual RL을 월드 모델 내부에서).

Lossfunk의 LIMEN과 Google의 PACEvolve++가 LLM-driven evolutionary search를 운전 — LIMEN은 관찰 매핑 φ와 보상 R을 executable program으로 공동 진화(5개 도메인 모두 성공, 단독 최적화는 적어도 1개 실패), PACEvolve++는 advisor 모델 RL + phase-adaptive credit으로 MoE expert-parallel load balancing·시퀀스 추천·단백질 fitness extrapolation 검증.

이론·해석가능성·기타 단발

arXiv · Geometry Conflict, arXiv · State Tracking, arXiv · AnisoAlign, arXiv · chatbots paradigm, arXiv · EC-Bench

이론 쪽에서 LLM continual post-training의 forgetting을 Bures-Wasserstein 거리 기반 "geometry conflict"로 진단한 GCWM 등장 — Qwen3 0.6B-14B에서 state-relative global gap의 Spearman 상관 |ρ_s|가 14B에서 0.86까지 상승, data-free continual merging이 가능.

State Tracking 이론을 expressivity가 아닌 error control로 재정의한 작업은 affine recurrent network(SSM, Mamba 계열, Linear Attention)가 state-separating subspace에서 error 보정 불가함을 증명, distinguishability ratio q(t) = R(t)/M(t)와 T_cross로 downstream max-passing length를 정량 예측.

AnisoAlign은 CLIP류 modality gap을 mean shift가 아닌 anisotropic residual structure로 재진단(C_λ=0.845, A_r=28.6, d_eff/d=0.284), dominant subspace에서 blockwise polar parameterization로 text-only MLLM training의 substitute representation 생성.

Hugging Face/UW/Salesforce/Microsoft 합작 "What if AI systems weren't chatbots?"는 산업의 챗봇 paradigm 수렴을 "neutral interface choice"가 아닌 dominant sociotechnical configuration으로 비판 — 사용자 needs 미충족, deskilling, 지식 homogenization, 노동 displacement, 경제 집중, 환경 비용.

CASIA의 EC-Bench는 멀티모달 knowledge editing의 시스템적 실패 모드 "Entity Identity Confusion"을 폭로 — 이미지 i의 결합을 e→e*로 수정한 뒤 텍스트만으로 "Biden의 풀네임"을 물으면 "Trump"를 답한다. 기존 MKE는 I-E 결합을 못 바꾸고 E-E relational에 spurious shortcut을 만든다는 진단, 편집 위치를 I-E 처리 영역으로 한정하면 EIC 크게 감소.

CPCANet은 고전 Common PCA의 Flury-Gautschi 알고리즘을 deep unfolding(Cayley retraction + hypernetwork step size)으로 differentiable화해 PACS/VLCS/OfficeHome/TerraIncognita 4개 DG 벤치마크 zero-shot SOTA. gated QKAN-FWP는 단일 qubit DARUAN(data re-uploading) + 스칼라 게이트로 12.5k 파라미터가 LSTM(25.9k-89.1k)/WaveNet-LSTM(167k) 13× 큰 baseline을 528개월 입력 / 132개월 forecast solar cycle에서 능가, IonQ/IBM 실 QPU에서 0.1% 이내.

RigidFormer는 mesh 없이 point cloud만으로 200+ object rigid-body 시뮬레이션을 23.9 FPS vs 3.0 FPS(~8× 가속), Anchor-Vertex Pooling + Anchor-based RoPE + Kabsch alignment. Tübingen의 Simply Connected Decision Regions는 ImageNet 6개 아키텍처(ResNet-50, DenseNet-121, EfficientNet-B0, ConvNeXt-Tiny, ViT-B/16, Swin-T)에서 1000개 loop 모두 label-preserving surface fill 성공 — decision region이 path-connected를 넘어 simply connected에 가깝다는 첫 경험적 증거.

신규 벤치마크·데이터셋·PEFT

arXiv · Soohak, arXiv · OmniBenchmark-1K (CaRE), arXiv · ModelLens, arXiv · MACE-Dance, arXiv · MatryoshkaLoRA

SNU/CMU의 Soohak은 수학자 105명이 만든 research-level 수학 벤치 — Challenge 340문항 + Refusal 99문항 + Soohak-Mini 702문항. Challenge에서 Gemini-3-Pro 30.39%, GPT-5 26.37%, Claude-Opus-4.5 10.39%, Kimi-2.5 13.87%. Refusal subset에서 어떤 모델도 50% 미달(GLM-5 49.49% 최고) — "잘못된 문제에 자신 있게 답하지 않는 능력"을 직접 학습 못함.

출제자 64명(faculty 38 + PhD/postdoc 25 + IMO medalist 5), 보상 풀 USD 260,000(문항당 36-3,623), 데이터셋 공개는 2026년 말 예정.

CaRE는 PTM 기반 클래스 증분 학습을 100+ task로 확장한 첫 시스템 — Bi-Level Routing MoE(router-selection + expert-routing 두 단계)로 자체 큐레이션 OmniBenchmark-1K(1,000 classes, ~190k images, 21 visual realms) 위에서 100/151/200/301 task 시퀀스 모두 SOTA. 100 task에서 TUNA 대비 +8.23%, 151 task에서 MIN 대비 +8.68%. ModelLens는 47K 모델 × 9.6K 데이터셋 × 1.62M 평가 기록을 ranking 문제로 캐스팅해 candidate 모델을 target dataset에서 실제 돌리지 않고 순위 예측 — Top-K 풀을 routing에 결합 시 QA 벤치에서 최대 +81%.

Alibaba AMAP/RUC/Tsinghua의 MACE-Dance는 BiMamba-Transformer 모션 expert + Wan-Animate 외형 expert 캐스케이드 MoE로 음악-3D 댄스 비디오 SOTA, 자체 MA-Data(70k clips, 116시간, 20+ 장르). UNSW/Google Research의 CGM-JEPA/X-CGM-JEPA는 JEPA를 CGM에 처음 적용 — 약 389k unlabeled CGM 측정 + 228명 cohort에서 venous→CGM transfer +3.6 AUROC, cohort generalization +6.5 AUROC(Wilcoxon p<0.001), demographic gap 25-54%↓. Queensland/CSIRO의 DiffRetriever는 LLaDA-8B/Dream-7B 디퓨전 LM에 K개 [MASK]를 한 번의 bidirectional forward pass로 채워 dense+sparse 표현 추출 — BEIR-7 최강, PromptReps 대비 zero-shot 15×/fine-tuning 3× 빠름.

EDMolGPT는 빈 binding pocket이 아닌 filler 영역의 저해상도 electron density로 조건화한 decoder-only autoregressive 3D 약물 설계, DUD-E 101개 타깃에서 Pocket2Mol/TargetDiff/MolCRAFT 능가. ISTA의 MatryoshkaLoRA는 A·B 사이에 carefully crafted diagonal P를 삽입해 LoRA/DyLoRA/Matryoshka를 단일 framework로 통합, AURAC 새 지표로 hierarchical adapter trade-off 측정.

Astana의 Rustem Yeshpanov는 kino.kz에서 100,502건 영화 리뷰(2001-2025, 4,943 작품)를 공개 — 러시아어/카자흐어/code-switched 라벨, 11,309건은 5-class 평점, code-switched 1,114건.

인터랙션의 다음 패러다임

Thinking Machines 200ms micro-turn과 Karpathy HTML 응답

News · thinkingmachines.ai, LinkedIn · Jaeyun Henry Lee, Threads · aijiyoon

Mira Murati 팀의 첫 공개 모델 TML-Interaction-Small(276B MoE / 12B active)이 현재 모델의 "single thread" 시간 인식 — 사용자 typing 끝까지 인식 동결, generation 끝까지 새 정보 차단 — 을 해체한다. 200ms micro-turn으로 입력/출력 토큰 스트림을 interleave해 VAD 같은 harness 컴포넌트 불필요, proactive interjection 가능, 동시 발화(라이브 번역) 가능, 시각 단서 반응 가능.

인코더-프리 early fusion으로 dMel(Bai et al. 2024) 오디오 임베딩, 40x40 패치 + hMLP 비디오, flow head 오디오 디코더 — 모두 from scratch co-train. interaction model(real-time) + background model(asynchronous reasoning) 분할.

FD-bench V1 turn-taking latency 0.40s vs GPT-realtime-2.0 min 1.18s / xhigh 1.65s / Gemini-3.1-flash-live 1.50s / Qwen 3.5 OMNI 2.14s, FD-bench V1.5 평균 77.8 vs 46.8/47.8. 다만 Audio MultiChallenge APR은 GPT-2 xhigh 48.5%가 TML 43.4%를 능가 — 인텔리전스 자체는 thinking 모델이 우위.

SGLang에 streaming session feature 업스트림(PR sgl-project/sglang#19171), batch-invariant kernels <5% overhead.

Karpathy의 제안은 같은 방향의 출력 쪽 응답 — 프롬프트 끝에 "답변을 HTML로 구조화해줘"를 붙이면 텍스트 뭉치 대신 깔끔한 레이아웃·표·클릭 가능 요소가 포함된 웹페이지 형태로 정보가 흡수된다. 인간 뇌의 약 1/3이 시각 정보 처리에 특화 — 정보 전달 진화 단계는 원시 텍스트 → 마크다운 → HTML → SVG 애니메이션(swyx 제안) → 인터랙티브 뉴럴 영상. aijiyoon의 디렉팅 팁도 같은 결 — "깔끔하게 해줘" 대신 "box-shadow 넣지 마"로 빼라.

AI는 기본적으로 쉐도우·둥글기·그라데이션을 과하게 추가하므로 "추가" 명령은 그 경향을 강화한다. jin___bro가 전한 OpenAI 직원 Goal 활용법 — 사용자가 목표를 직접 정하지 말고 모델이 스스로 설정하게 하면 최적 결과.

모델 시장 단신 — Kimi K2.6, Vidu Omni Video Pro, CVPR 21/25 중국

Threads · unclejobs.ai · Kimi K2.6, Threads · slamslam__ · CVPR, Threads · choi.openai · Vidu

Kimi K2.6이 OpenRouter 사용량 2위(1.68조 토큰)에 올랐고 뒤를 Claude Sonnet 4.6, Opus 4.7이 잇는다. 4월 20일 출시 후 한 달도 안 돼 글로벌 플래그십 두 개를 사용량으로 추월 — 차별점은 성능이 아닌 가성비. AI 영상 시장에서는 Vidu가 "Omni Video Pro"를 조용히 공개해 캐릭터 일관성과 움직임 퀄리티로 일본 AI 영상 커뮤니티가 반응, Seedance 2.0과의 비교 테스트가 줄줄이 올라온다.

CVPR 2026 통계는 가장 정량화된 신호다 — 16,000편 제출, 4,000편 액셉(25%), 상위 25개 기관 중 21개가 중국, 미국 2 · 싱가포르 2 · 한국 1. 국가 단위로도 중국이 미국의 2배 이상 제출. slamslam__의 코멘트가 한국 분위기를 압축한다 — "무지성 욕할 게 아니라 상황을 직시하고 전략을 세워야 할 때."

Gemini 3.2 임박, Manus 수익화, 디테일 돌파

Reddit · r/GeminiAI, Threads · zarvan_kim, LinkedIn · 김승진 · Blit

본문 한 줄짜리 도발("Gemini 3.2 coming to destroy everyone")에 댓글 105개 — r/GeminiAI 커뮤니티가 출시 임박에 결집 모드, 다만 정식 수치/리크 검증은 아직 없음. Manus는 정반대 톤이다 — zarvan_kim의 "마누스는 수익화 로직을 대놓고 다 넣어놨네요"가 한국 사용자 톤의 보수적 식음을 단적으로 보여준다.

Blit의 김승진은 2주 실험 끝에 idle/walk/run 같은 디테일 모션을 해결했고, 그 업데이트 후 동시 사용자 20명 초과로 Agent worker가 1시간 다운된 사고를 공유한다 — "대화→게임 에셋" 카테고리에서 디테일 돌파는 즉시 트래픽 폭증으로 연결된다. AI 워커풀 캐파 산정이 여전히 신생 도메인이라는 두 번째 신호도.

커뮤니티·한국 시장 신호

cmux × AIM 해커톤과 KYRO 1시간 빌드

LinkedIn · Seonmin Lee · cmux 해커톤, LinkedIn · Goobong Jeong · KYRO

cmux × AIM 랄프톤에 약 300명이 참전했다. 심사위원 Seonmin Lee가 유일하게 만점을 준 44bits 팀의 44code(대상 300만원)는 "설치 0단계" — 브라우저 탭 하나에 터미널과 Claude Code가 내장되어 클릭 몇 번으로 깃 레포 시연.

사내 보안으로 설치가 막히는 B2B 환경과 학생 계정 과금 구조를 동시 해결. 부문별 1위는 Business & Applications에서 Mindful Labs의 Shortify(PDF 한 장 드롭 → 30-60초 세로형 학습 숏폼 + 듀오링고식 streak), Developer Tooling에서 함수원의 Torya(브라우저 에러 발생 시 cmux에서 자동으로 잡고 페이지 재현으로 검증), AI Safety & Security에서 토큰낭비조의 Supply Chain Autopilot(npm 패키지 설치 직전 allow/warning/block — slopsquatting 시대의 공급망 방화벽).

학생 특별상($5,000 Azure 크레딧) Syncc(노건호)는 한 폴더에서 동시 실행되는 여러 Claude Code 세션을 코디네이터 없이 자동 조율 — Agent View 등장 직전 같은 문제를 학생이 먼저 해결한 사례.

Goobong Jeong은 함께 뛴 뒤 즉석 1시간 미니 해커톤을 돌려 8개의 작동하는 데모를 받았다. 성공 요인 셋 — (1) "웰니스, 러닝" 한 줄 컨텍스트가 뛰는 동안 완벽히 동기화, (2) KYRO가 본인 GPS trace/km split/영토 + 10만 명 익명 통계를 토큰 하나로 개방, (3) 그가 자리를 비웠는데도 자발 운영.

작품들 — KYRO Mate, 러닝 데이팅, ESTATE(영토 등기부), KYRO 뮤지엄(Vision LLM이 GPS 궤적에서 항아리/토끼/하트 큐레이션), 탄소발자국, 밤티 러닝 코스, Running MBTI, NomaDamas 팀의 한양런(당일 OSS 공개). 가장 신선한 컨셉은 100m 이내로 스쳐간 러너와 채팅하는 앱.

Pseudo Lab·Claude Bloom·사내 강연·대신증권

LinkedIn · Pseudo Lab, LinkedIn · Taewoo Park · Claude Bloom, LinkedIn · Jason Bae, Threads · ridingtwave · 대신증권

5월 한국 빌더 씬의 좌표 — Pseudo Lab Community Night(5/22, AWS 집현전, 라이브 빌더 토크), OpenAI × 어버이날 해커톤(5/8, 은퇴·조기 퇴직·공직 출신 참가자가 Codex로 피칭). Taewoo Park의 Claude Bloom 2차(AB180 라운지, 마이리얼트립 Donggun Lee 키노트, 100명 정원)는 4-6명 원탁 두 번 라운드테이블 포맷 — 직군이 의도적으로 섞이고 키노트가 정답이 아닌 대화의 물꼬가 된다.

그가 발표한 NODEPROMPT는 자연어 프롬프트를 3D 구면 위 개념 그래프로 분해 → 재편집 → 합성하는 도구로 Eleanor Rosch의 인지심리학 베이직 레벨 개념을 차용. Jason Bae의 사내 강연은 와이파이 사고에도 동시 시청자 350명, 회사 역대 1위 2회 연속 — 핵심 메시지는 "1명이 5배 잘하는 것보다 5명이 함께 5배 잘하는 것이 조직에 훨씬 더 큰 임팩트." ridingtwave가 캡처한 신호 — 대신증권이 리포트 원문을 자동 변환해 GitHub Pages에 게시하는 시스템 운영 중(jay-jo-0.github.io, 공식 여부 미확인).

PDF/HWP 기반 배포에서 마크다운/HTML 기반 정적 페이지로 옮겨가면 AI 에이전트의 리포트 인덱싱이 훨씬 좋아진다.

채용·경영·자기회고 메타

LinkedIn · 조홍준 면접, LinkedIn · Sung Uk Yang · 배민, Reddit · DistilBook, YouTube · 신수정, YouTube · 카파시

조홍준의 채용 함정 — "면접 분위기가 좋다 = 잘 통한다"는 유사성 편향의 신호. 좋은 면접은 약간 불편해야 하며 판단 기준을 묻고 실제 경험을 깊게 파고 애매한 부분을 다시 확인해야 한다. kiwoong yeom의 동시 신호 — Conscience Technology(로컬 sLM으로 환각 제거)가 투자 없이 초기 스타트업에서 최대 연봉 1억 제시.

여현준의 마이크로 매니징 글 — 본인보다 잘하든 못하든 발생하며 가스라이팅까지 동반. 채용 검증 밀도와 합류 후 권한 위임이 한 묶음.

Sung Uk Yang의 배민 매각 해석 — 매각주관사 JP모건, 희망가 약 8조 원, 한화 LOI 후 검토 중단. DH는 이미 2023-2025년 본사 배당·자사주매입으로 1조 4,399억(누적 영업이익 74%)을 가져갔고, 8조 매각이 성사되면 7년 누계 9.5조 회수.

영업이익 3년 연속 감소(6,998→6,408→5,928억)인데 매각가는 영업이익 13.5배로 도어대시-Deliveroo와 같은 글로벌 1티어 멀티플. 동시에 2025년 8월 서울 결제액에서 쿠팡이츠(2,113억)가 배민(1,605억)을 31% 초과 — 와우 멤버십 무료배달이 게임체인저.

후보군은 신세계/롯데/네이버(SI), 어피니티/칼라일/KKR(PEF), DH 지분 4.5% 확보한 우버. 실거래가 예상 6.5-7조.

자기회고 흐름에서 Kurt Lee의 한 줄이 메타 시그널을 압축한다 — "상상으로는 환상을 유지하기 쉽지만 데모를 보면 환상을 유지하기 쉽지 않다." AI 코딩의 진짜 가치는 빠른 구현이 아니라 빠른 환상 파괴. BZCF는 같은 질문을 더 넓게 던진다 — "도구는 주어졌는데 우리 삶이 어떻게 개선되어야 하는지는 별로 고민하지 않는다." Taesung Lee의 구름 10년 퇴사 회고 — "좋은 교육 경험은 결국 보이지 않는 디테일과 많은 사람들의 진심 위에서 만들어진다."

도구 워크플로 쪽에서 r/notebooklm의 4종 스택 글이 NotebookLM 한계를 시인한다 — 다이어그램/플로우차트/차트/하드웨어 스펙 같은 시각 컨텐츠를 "말로만" 처리한다. 처방은 NotebookLM(빠른 텍스트 합성) + DistilBook(시각 자료 → 애니메이션 영상) + ElevenLabs Reader + Claude/ChatGPT 분할.

창업자 ajithpinninti의 출시 후기(206/82) — 20일에 $335 매출, $35 미드티어로 거의 모두 직행, "한 명씩 직접 메시지" 전략으로 첫 매출. 같은 결로 r/indiehackers의 Ambitious-Age-5676(12/26)이 짚은 신뢰 경제 — 1년간 win 위주 게시 후 나쁜 한 달 공유가 모든 win 포스트보다 많은 참여를 받았고, 그 결과 주간 책임 콜 4개월 유지 + 사용자 2명 추가.

신수정의 메시지가 한국형 메타 프레임이다. 그는 "축적 후 발산"을 "축적과 발산"으로 업데이트했다 — 바라바시 미술가 성공 연구가 근거(뉴욕 일류 화랑 진입 확률이 작품을 다양한 지역에 분산 전시한 작가에서 압도적으로 높음).

본인 정보보안 컨설팅 초기에 약 100곳 프레젠테이션 후 3-4개월 뒤 첫 보험사 계약 → 보험권 전체 → 증권권으로 도미노. AI 시대의 가장 큰 통찰은 바둑계 사례 — AI 도입 전 성공 공식은 "천재성 + 엘리트 기원"이었지만 AI가 좋은 사부가 되며 지방·여성 기사가 구제됐다.

핵심 변수는 "천재성이 아니라 절대 시간·꾸준함"으로 재정렬됐다. "재밌는 건, 두려워하는 사람들은 기회가 있다는 것.

진짜 위험한 사람은 변화에 아예 깨어 있지 않은 사람이다."

카파시 인터뷰(B_ZCF)는 같은 흐름의 글로벌 버전이다. 그는 2025년 12월을 LLM 코딩의 임계 돌파 시점으로 지목한다 — "the chunks just came out fine ...

I can't remember the last time I corrected it." Software 3.0 정의가 핵심이다 — "1.0 = code, 2.0 = weights, 3.0 = prompts/context as the lever over the LLM interpreter." OpenClaw 설치 안내가 셸 스크립트가 아니라 "에이전트에 그대로 복붙할 텍스트"인 점이 software 3.0의 정수.

MenuGen 일화 — 본인이 만든 식당 메뉴 시안 앱이 Gemini의 nano banana 하나에 사진+프롬프트 한 번이면 동일 픽셀이 나오는 걸 보고 "actually all of my menu gen is spurious. that app shouldn't exist." Verifiability 가설 — "classical computers automate what you can specify in code; LLMs automate what you can verify." Jaggedness 사례 — "Opus 4.7이 100k 라인 리팩토링·zero-day 발견을 하면서도 50m 거리 카워시를 걸어가라고 답함." Vibe coding(플로어 상승) vs agentic engineering(천장 확장 + quality bar 유지) 정의.

Animals vs Ghosts — "if you yell at them, they're not going to work better or worse."

기타 주목할 콘텐츠

수면 추적기를 AI로 — 8시간 weekend 프로젝트

News · martin.sh

약 8시간으로 완성한 weekend 프로젝트 — 2개 USB mic(실내 + 창문 facing street), Raspberry Pi, Garmin watch + Home Assistant 자동화. 침대 + 수면 시간대만 활성화, rolling in-memory buffer, threshold-based snippet 저장.

DAW 스타일 multi-track UI(sleep stage, HR/HRV, sensor events, audio events). Pi 셋업에서 AI agent에 SSH 권한을 줘서 직접 실험(소리 내기, 물 틀기) + spectrogram 분석.

발견 — neighbor door, dishes 고음, 거리 모터바이크. 메시지는 기술 디테일이 아니라 패턴이다 — "AI tooling has lowered the bar for personal tooling." Measure before you fix, context beats raw data, simplest signal that's good enough.

AWS로 돌아왔다가 다시 떠나는 이유

News · hada

15년 AWS evangelist의 복귀-탈출기. EC2 spot 192코어 3시간 사용 후 "Suspected security breach" 자동 정지, 4일째 미해결, WorkMail까지 다운돼 비즈니스 메일 불가.

Claude on Bedrock 평가가 시그널 — Anthropic 구독 대비 "WAY, WAY more expensive", Claude Code는 slower, 가치 있는 use case는 데이터 privacy 필요한 경우뿐. AWS의 OpenSearch/Valkey/DocumentDB 클론 정책이 SSPL/Elastic License/RSAL 같은 source-available license 등장의 직접 원인이라는 비판도 명확.

ymawky — ARM64 어셈블리로 작성한 macOS 웹 서버

News · imtomt/ymawky

ARM64 어셈블리 syscall-only, libc 없음, fork-per-connection 웹 서버. macOS Apple Silicon 전용. 보호 기능 — PATH_MAX 4096 거부, path traversal 거부, O_NOFOLLOW_ANY로 symlink 거부, slowloris 방어(10초 timeout), MAX_PROCS 256. HTTP — GET/PUT/DELETE/OPTIONS/HEAD, MIME detection, Range bytes, atomic rename. macOS sigaction sa_tramp 필드를 핸들러로 직접 사용해 libc trampoline + sigreturn 우회.

호기심 사이드바.

r/vibecoding 692 likes 짤

Reddit · r/vibecoding

본문 0("Imagine buying an entire domain… just to pull this off")에 692 likes / 59 comments — 텍스트 페이로드는 비어 있지만 r/vibecoding 강한 화제 신호로 보관. 외부 이미지 맥락 필요.

교차 분석

오늘 가장 일관된 메시지는 "에이전트의 의미가 단일 자율 결정에서 복수 세션 라이프사이클 관리로 이동했다"는 것이다. Claude Code Agent View, Codex /goal, Hermes persist ghost, Anthropic Dreaming이 같은 주에 동시 출시된 점, 그리고 한국 빌더 씬의 cmux 해커톤 학생 특별상이 정확히 같은 문제(Syncc)를 먼저 푼 사실이 한 좌표에 모인다.

동시에 r/AI_Agents의 "Stop building AI agents", Yutori의 "first-try 작동 못하면 부족", PrefixGuard의 trace-to-monitor 합성이 같은 흐름의 반론을 형성한다. 자율성 자축론 옆에서 신뢰성 정상화 거부 운동이 동시에 굳어지는 중이다.

두 번째 교차점은 모델사의 GTM과 컨설팅 commoditization이다. OpenAI DeployCo가 McKinsey·Bain·Capgemini를 파트너로 끼고 들어가는 같은 주에 Grant K. Baldwin은 Bain의 $1.2M AI 분석을 4개 Claude Skill로 재구성해 분석 레이어 자체가 commoditized됐다고 단언한다.

Sierra의 outcome-based 과금($158억 밸류, 매출 100배)과 Klarna의 유턴(700명 해고 후 재고용), Haus의 25% lagged effect 측정이 같은 결로 정렬된다 — AI는 결과로 평가받아야 한다는 명제가 가격·측정·도입 결정에 동시에 새겨진다.

세 번째 교차점은 인프라 레이어의 양방향 긴장이다. CLI 표준화(Printing Press, Bifrost)와 로컬 LLM 데스크탑 추론(Optane 768GB + Kimi K2.5, RTX 3050 + 35B + 64k context), Apple FoundationModels의 on-device 패턴이 한쪽에서 사용자 자율성을 강화하는데, Apple App Attest의 웹 확장과 Google Programmable Search 종료, hardware attestation 의무화가 반대 방향에서 권한을 좁힌다.

TanStack 6분 침해(공급망), 24만 다운로드 가짜 OpenAI 필터(허브 큐레이션), Hochstein의 distancing through differencing 메타 분석이 "신뢰 경계를 어디에 그을 것인가"라는 단일 질문으로 수렴한다.

네 번째 교차점은 연구 쪽 RL 회의론이 운영 쪽 reasoning 회의론(SNS-LI-03 감독의 역설, 디버깅 47% 하락, Howard "AI 에이전트 올인은 퇴물 보장")과 같은 결로 정렬되는 점이다. ReasonMaxxer의 "RL은 sparse selection일 뿐"이라는 진단이 학습 비용을 1000× 줄이는 동시에, 운영 쪽에서는 "위임의 인지 비용"을 다시 묻기 시작했다.

카파시의 "outsource thinking but not understanding"과 신수정의 "AI 시대 절대 시간이 핵심 변수"가 같은 좌표에서 결국 같은 결론에 도달한다 — AI가 평탄화하는 만큼 "꾸준함과 노출 횟수"가 더 중요해진다.

Daily Digest — 2026-05-12