Daily Digest — 2026-04-14

2026-04-14

Folder-as-Agent와 Meta HYPERAGENTS가 하네스 자기개선을 증명한 날, Claude 캐시 TTL 회귀와 Django/Axios 제로데이, MCP 토큰 92% 절감, 그리고 벤치마크·비디오·로보틱스 연구 레이더까지 동시 다발로 쌓였다.

Daily Digest — 2026-04-14

오늘의 핵심 흐름

하네스가 곧 제품이다: Every Cora의 44-폴더 구조(Every)와 Meta HYPERAGENTS가 같은 날 도착하면서, 경쟁 축은 모델 선택에서 폴더·디스패치·스스로 진화하는 하네스로 완전히 이동했다. 섹션 1에서 묶는다.
Claude 생태계는 신뢰 시험대: 캐시 TTL 1h→5m 회귀로 3개월간 17.1% 초과 지출, Pro Max 5x 쿼터가 1.5시간 만에 소진, Cursor Agent가 Claude Code 래퍼라는 폭로가 겹쳤다. Reddit의 Pro 환불·팀 단위 $1,500→$350 이탈이 현재형 체감. 섹션 1·2.
프레임워크 제로데이 2건: Django MultiPartParser가 2.5MB 입력으로 86GB memcpy를 유발하는 CVE-2026-33033과, Axios의 CRLF 부재가 IMDSv2 스머글링까지 이어지는 CVSS 9.9 체인이 같은 주에 공개됐다. 섹션 4.
연구는 "평가·컨텍스트·가속"으로 수렴: Robust Reasoning·General365·QuanBench+·NovBench·CocoaBench 등 하루 6편의 신규 벤치마크, AgentSwing과 SWE-AGILE의 장기 컨텍스트 관리, speculative/flow/MDLM 가속이 연구 레이더에 동시 상륙. 섹션 7·8.
AX의 축이 "데이터·Problem Engineering"으로 이동: 노션 AX 밋업의 4세대 프레임(Prompt→Context→Harness→Problem), 60대 사장이 4시간 만에 만드는 /designer 에이전트, BCG 스스로의 "전략가 업무 80%+ 자동화 노출" 자백이 한 프레임에 들어온다. 섹션 5.

AI 에이전트 · 운영 하네스

Folder-as-Agent: Every Cora와 oh-my-openagent-toolkit

Every · Kieran Klaassen, GeekNews, GeekNews
Every의 Kieran Klaassen은 3개월간 에이전트 스웜을 실험한 끝에 "폴더가 곧 에이전트"라는 결론에 도달했다. ~/cora/에 CLAUDE.md·docs·.claude/agents/·런북·포스트모템을 쌓아두면 Opus 4.6이 그 폴더를 읽을 때마다 Cora 전담 엔지니어처럼 동작하고, Anthropic 내부 벤치에서도 Opus 리드 + Sonnet 서브 조합이 단일 Opus 대비 리서치 +90% 성능·15× 토큰이라는 수치를 냈다. 44개 폴더 운영의 한계에 부딪히자 Ruby 데몬 + 파일 메시징 기반 디스패치 레이어를 깔고 /hey·/orchestrate 두 슬래시 커맨드로 상태 리포트와 워커 파견을 통일했다. em dash 인코딩 버그로 데몬 크래시, stale 작업 반복, "working" 무한 대기 같은 실패 사례가 솔직하게 공유됐고 결론은 "vibe orchestrate는 없다. Build→Use→Trust→Orchestrate 순서를 지켜라"다. 같은 흐름에서 oh-my-openagent-toolkit은 OpenCode 기반으로 .opencode/skills/ 43개 엔트리포인트(40 코어 + 3 인접팩)를 frontend/backend/cloud/ai-data 4개 검증 워크플로로 좁힌 프로젝트 로컬 번들이다. slopus의 Happy는 npm install -g happy → happy claude/happy codex로 Claude Code·Codex 세션을 모바일에서 원격 조종하는 E2E 암호화 클라이언트다.

Meta HYPERAGENTS: 스스로 하네스를 짜는 하네스

LinkedIn · kiwoong yeom
Meta가 공개한 HYPERAGENTS는 작업자와 평가자를 하나의 파이썬 프로그램으로 합쳐, 에이전트가 자기 파이프라인을 스스로 재작성한다. 4개 도메인에서 코딩 버그 수정 8.4→26.7%, 논문 심사 0→71.0%, 로봇 점프 0.060→0.372, 수학 채점 56.1→60.1%. 결과보다 인상적인 건 창발된 인프라다 — PerformanceTracker(이동평균), Bias Detection(80% 편향 임계), Compute-aware Planning(남은 iteration 기반 전략 전환), JSON 영구 MemoryTool, 과교정 롤백이 전부 자체 코딩됐다. 한계는 LLM 가중치가 불변이고 1회 진화 비용이 8,860만 토큰이라는 점. RLVR과 결합되면 보상·검증·가중치까지 자기 깎는 개방형 루프가 열린다는 함의가 있다.

자기개선 에이전트·바이브퀀트·Anthropic 5패턴

LinkedIn · Shubham Saboo, LinkedIn · Yeachan Heo, LinkedIn · 임근영
Shubham Saboo의 오픈소스 멀티에이전트(Google ADK + Gemini)는 Executor/Analyst/Mutator 3 에이전트·라운드당 1-mutation·점수 하락 시 롤백 규율로 스킬을 자동 최적화한다. Karpathy의 autoresearch("성공 기준을 정의하고 튜닝을 멈춰라")를 스킬 레이어에 이식한 구조. 바이브퀀트는 같은 관점을 실전 퀀트로 확장해 15,000 세션·26만 .md 노드·3,000 bar 통과·800 deploy 전략을 운영 중이며, 편향은 시장이 아니라 retrieval 쏠림이었다는 자기 진단을 내놓는다. 같은 날 임근영이 정리한 Anthropic 5패턴(Generator-verifier·Orchestrator-subagent·Agent teams·Message bus·Shared state)은 각 패턴의 실패 유형을 명시해 "기본 패턴 + 한 개 보완"이 현실적 설계 휴리스틱임을 확인시켰다.

Claude Code 경제학: 캐시 TTL 회귀와 Pro Max 5x 쿼터

GeekNews, GeekNews · 이슈 #45756
Anthropic이 2026년 3월 6일경 Claude Code 프롬프트 캐시 TTL 기본값을 1시간에서 5분으로 조용히 되돌렸다. 119,866 API 콜 분석 결과 cache_creation 비용이 20~32% 증가했고, 3개월 합산 초과 지출은 Sonnet $949.08(17.1%), Opus $1,581.80(17.1%). Sonnet 4.6 기준 cache_write_1h가 $6.00/MTok로 5m($3.75)보다 60% 비싸고, cache_read는 $0.30/MTok로 write 대비 12.5배 저렴하다. Pro Max 5x(Opus 4.6, 1M 컨텍스트) 세션에선 2,715콜 heavy 세션 후 리셋된 쿼터가 moderate 1.5시간 만에 소진됐고, cache_read가 rate limit에 1/10이 아닌 풀 rate로 산정된다는 가설이 관측과 일치한다. 1M 윈도우 auto-compact 1회가 ~966k 토큰을 유발하는 구조도 함께 드러났다.

Claude 중간 전환과 Pro 이탈 흐름

Reddit · r/ClaudeAI, Reddit · r/LocalLLM, Reddit · r/openclaw
"대화 중간에 모델 전환" 기능이 1,051 upvote로 상단을 찍었지만 댓글은 전부 rate limit 불만이었다. Pro 결제 이틀 만에 환불하고 Gemma 4 로컬로 넘어간 사례, 4인 SWE 팀이 Claude Max Pro 6계정(월 $1,500)을 GLM 5.1 오케스트레이션 + Kimi 2.7 + Codex 5.4로 바꿔 월 $350까지 줄이고 10일간 체감 차이가 없었다는 후기까지. 신기능 환호보다 구독 선택 자체의 이동이 일어나는 중.

MCP 툴 폭증과 Code Mode로 92% 절감

Reddit · r/mcp, GitHub · bifrost
508개 MCP 툴이 붙은 테스트에서 raw input 75.1M 토큰·비용 $377이었던 스위트를 4개 meta-tool(서버 나열, 시그니처 조회, 문서 조회, 코드 실행) 구조로 바꾸고 Starlark 샌드박스에서 파이썬풍 오케스트레이션 코드를 생성하게 했더니 5.4M 토큰·$29로 떨어지면서 통과율 100%를 유지했다. 96개 툴 58%, 251개 84%, 508개 92%로 툴이 많을수록 절감폭이 커진다. MCP 게이트웨이 레이어(Bifrost)에서 투명하게 작동하는 것이 Anthropic 문서(150K→2K 토큰) 예제와 차별점.

Computer Use Agent와 채팅창 시대 종결

LinkedIn · John Peslar
Anthropic의 Claude Computer Use Agent가 픽셀 레벨로 화면을 보고 커서를 제어해 버튼을 누른다. 유스케이스로 지저분한 스프레드시트 감사·CRM 리드 발송·반복 데스크톱 클릭이 제시됐고, Microsoft의 무료 Copilot 축소와 대비된다. "텍스트 박스에 붙여 넣던 2년은 AI로 위장한 수작업"이라는 프레이밍이 강하게 걸렸다.

Boris Cherny 7계명과 Claude × Codex 교차검증

LinkedIn · 임근영, LinkedIn · Hyunjun Jeon, LinkedIn · Subin An
Boris Cherny는 Lenny’s Podcast에서 Opus 4.6 Maximum effort가 오히려 싸고 빠르며, shift+tab 2회의 Plan mode로 작업의 80%를 시작하고, 1/2/3 단계를 강제하지 말 것, 일상적으로 5+ 에이전트를 병렬로 돌리고 세션당 평균 20~30분을 혼자 일하게 하라고 권장했다. Slack 스레드 직결로 메모리 누수 PR까지 자동 작성, Co-work로 메일 요약부터 주차 딱지 납부까지 커버. Hyunjun Jeon은 "Claude vs Codex"를 거부하고 공동 계획→Claude 작성+Codex 1차→로컬+Claude 2차→Codex 최종의 4단계 교차 검증 루프를 주장한다. Subin An은 Opus 4.6 리서치 + ChatGPT Pro 30분 웹리서치 + Codex GPT 5.4 검수 + Opus 4.6 정돈 체인으로 awesome repo 스타일 데이터셋을 만들어 PRD에 주입한다.

12-에이전트 오케스트레이션 재구축과 영속 기억

Reddit · r/openclaw
openclaw 유저가 이틀에 걸쳐 12-에이전트 오케스트레이션을 재구축한 후기. Nelson 2.0 패턴의 영속 기억(persistent memory)이 세션 간 컨텍스트 드리프트를 줄이는 실전 근거로 제시됐다.

에이전트가 직접 파는 시대

X · @shiri_shh, X · @Lovable, X · @_Evan_Boyle, X · @noisyb0y1
OpenClaw 기반 에이전트가 Zillow류 데이터에서 $500k~1.2M대 무수영장 주택만 추려 마당에 수영장을 합성 렌더링한 뒤 before/after 엽서를 인쇄·발송해 풀 설치 리드를 확보했다(15.4k likes). 같은 날 Lovable Payments는 "팔 것 설명 → 테스트 → 라이브"를 한 대화로 닫았고, GitHub Copilot CLI는 로컬 에이전트를 모바일로 원격 조종하는 기능을 풀었다. 중국 학생 사례는 Mac Studio 2 + Mac Mini 1($4,000)에 Claude + Obsidian으로 12개 마이크로프로세스를 병렬 운영하는 리서치 봇을 보여줬다.

프롬프트 로그 = 조직 암묵지, 그리고 Evaluation 레이어

LinkedIn · 황현태, LinkedIn · Ahreum Kim, LinkedIn · SEMYOUNG BAEK
조직 암묵지는 업무 가이드라인이 아니라 프롬프트 입력·수정·재시도 로그에 남는다. 해법은 Agentic workflow를 디폴트로 만들고 프롬프트 로그 모니터링을 가동하는 것. 같은 날 Ahreum Kim은 AI 제품이 결정적 pass/fail 테스트가 아니라 결과 품질 Evaluation 레이어를 요구한다고 지적했고, SEMYOUNG BAEK은 AI의 논리적 오답이 결국 우리 쪽 문제 정의 실패의 거울이라는 메타포를 걸었다.

개발 도구 · 코딩 에이전트

open-agents.dev와 CLAUDE.md 표준화

X · @rauchg, X · @akshay_pachaar, X · @lucas_flatwhite
Vercel의 Guillermo Rauch가 open-agents.dev를 오픈소스로 풀었다. Stripe의 Minions, Ramp의 Inspect, Spotify의 Honk, Block의 Goose 같은 대형 회사 내부 "AI software factory"의 레퍼런스 플랫폼이라는 포지션. 같은 흐름에서 Karpathy의 코딩 규칙을 정제한 단일 CLAUDE.md가 GitHub 15K 스타를 돌파해 과잉 엔지니어링·기존 패턴 무시·불필요 의존성이라는 LLM 3대 실수를 억제하는 사실상 커뮤니티 프로토콜이 됐다. claude-mem처럼 세션 간 지속 메모리 계층을 중앙에 두는 큐레이션이 함께 성숙하는 중.

디자인 Skill 12종과 K-skill

LinkedIn · Jeongmin Lee, LinkedIn · Jeffrey Kim
Inter 폰트·보라 그라데이션·둥근 카드로 대표되는 "AI slop"을 탈출하는 무료 SKILL.md 12종이 한자리에 정리됐다. Anthropic 공식 frontend-design을 출발점으로 Impeccable의 20 slash command, Taste Skill의 DESIGN_VARIANCE 3-숫자 스케일, Better Icons 150+ 컬렉션·20만 아이콘, UI UX Pro Max 50+ 스타일·97 배색, Vercel 100+ UI 심사 규칙이 레이어드 구성을 이룬다. Jeffrey Kim의 K-skill은 GitHub 3k 스타를 돌파하며 Kurly·지하철 분실물·식약처 API 기반 의약품/식품 안전·긱뉴스·생활 쓰레기·한글 글자수 같은 "한국인 생활 API" 레이어를 스킬화했다.

hermes-agent·Waza·DESIGN.md 미니멀 생태계

Threads · dev_bears, Threads · daon_k, Threads · qjc.ai
hermes-agent가 openclaw의 대안으로 빠르게 체감을 쌓고 있다. 10분 셋업·대화 패턴의 자동 스킬화·메모리 구조화가 차별점으로 반복 인용된다. 디자인 쪽에선 일본의 awesome-design-md-jp(Apple Japan·메르카리·LINE·쿡패드 등 24개)에 대응해 OMD(oh-my-design)가 배민·카카오·토스·당근을 합쳐 DESIGN.md 검색·편집·export 플랫폼으로 준비 중이다. /insane-design <url>은 URL을 DESIGN.md로 자동 변환하는 슬래시 커맨드. 반대편에선 tw93의 Waza(技)가 코드 0줄·Markdown 8개 파일이라는 극단적 미니멀리즘으로 Superpowers·gstack의 비대함에 응답했고, Karpathy 문제의식을 단일 CLAUDE.md 한 장으로 풀어낸 프로젝트는 GitHub 스타 14,500·30초 설치를 내세웠다.

claude-code-best-practice·상태바·Insane-search

Threads · choi.openai
claude-code-best-practice 리포가 GitHub 스타 3만 2천을 돌파했다. 84개 이상의 실전 팁과 Everything Claude Code·Superpowers 등 8개 인기 워크플로우 직접 비교가 셀링 포인트. 주변 툴링도 성숙해 Insane-search는 402·봇 차단 페이지를 우회해 기존 WebSearch 대비 성공률이 높다고 주장하고, claude-dashboard 상태바는 컨텍스트 사용률·세션 비용·5시간 요금제 잔여를 하단에 상시 띄워 /cost 반복 호출을 없앤다.

Cursor 3 split agents와 "LeetCode is dead"

X · HackerRank, X · @cursor_ai
HackerRank가 자사 블로그 톤으로 "LeetCode is dead"를 박았다. 개발자가 라인 단위 코드 대신 병렬 에이전트 오케스트레이션·AI 산출물 리뷰·아키텍처 결정에 시간을 쓰는데도 면접 프로세스는 여전히 알고리즘 화이트보드에 고정돼 있다는 자기비판. Cursor 3는 터미널 멀티플렉서처럼 에이전트를 split해 여러 작업을 동시에 돌리는 기능을 넣어 "한 명이 N개 에이전트를 관리한다"는 서사의 운영 도구가 됐다.

Cursor Agent = Claude Code 래퍼 의혹

Reddit · r/cursor, Gist, Reddit · r/vibecoding
Cursor Agent가 사실상 Claude Code를 돌리면서 시스템 프롬프트·출력에서 "Claude"를 "Cursor Agent"로 치환하는 후처리만 덧붙였다는 deep dive가 154 upvote·51 comments로 번졌다. 같은 주 "vibe coding is officially getting out of hand" 포스트는 671 upvote를 받으며 "정부 프로젝트까지 vibe-coded 앱을 내놓는다. 우리 모두 베타 테스터"라는 자조를 공유했다.

추론 모델 시대 프롬프팅 규칙 변화

LinkedIn · Sujin Kang
Zero-shot CoT("Let’s think step by step")가 역효과로 돌아섰다. ICLR 2025에서 파라미터 2.5배 적은 모델이 test-time compute 100배 증가만으로 수학 +22%p를 찍었고, Wharton GenAI Lab의 198 박사급 문제에서 CoT 효과는 2.9~~3.1%, Gemini Flash 2.5는 -3.3%였다. 2026.02 "Think Deep Not Just Long"은 Hmm/Wait 같은 filler 토큰을 제거하면 길이가 27~~51% 줄어드는데 정확도는 유지된다는 것을 보였다. 규범 이동은 "How to think → What to achieve" — 목표·성공 기준·자기 검증·thinking budget이 새 지표.

개발 툴링 업데이트 모음

GeekNews
GitHub Stacked PRs, TanStack RSC, Wheel Next 파이썬 패키징, Servo의 crates.io 배포, Datahike 같은 주간 도구 업데이트가 한 묶음에 잡혔다. 개별 임팩트는 작지만 "작은 도구가 표준 스택으로 들어오는" 속도를 보여준다.

제품 스팟: Roo Code·RN·헤드리스 브라우저

Reddit · r/RooCode
Roo Code의 과학 리서치/데이터 분석 활용, React Native용 에이전트 툴, 헤드리스 브라우저 제품 홍보가 섞인 밈/제품 묶음.

문서·데이터 파이프라인 · 모델 공개

MarkItDown 10만·HWP 9포맷 변환기

Threads · unclejobs.ai, Threads · seungha__n
Microsoft MarkItDown이 GitHub 10만 스타를 돌파하며 PDF·Word·PPT·Excel·이미지·오디오·유튜브 자막을 Markdown으로 통합 변환하는 "LLM 입구" 표준을 자처한다. 국내 대응으로 공개된 HWP/PDF/DOCX 등 9포맷 변환기는 Pandoc 대비 품질 +23%p, 383페이지 PDF를 5.6초에 처리, Markdown 출력은 JSON 대비 토큰 34~38% 절감이라는 벤치 수치를 내놨다.

한국·아시아 오픈소스 모델·데이터셋

Threads · choi.openai, LinkedIn · SangRok Jung
한국 개발자 송준의 Supergemma4-26b-multimodal이 HuggingFace 트렌딩 1페이지에 진입했다. Gemma4 비전·abliterated 유지, 툴콜·토크나이저 버그 수정 후 성능 +10%·프롬프트 처리 +90%. 금융 쪽에서는 칭화·난징대의 Kronos가 AAAI 2026 채택, 120억 K-line 데이터 학습, GitHub 14,800 스타. 메신저 대화 스타일 복제 WeClone은 스타 16,000+. specal1849가 구글드라이브에 공유한 AX 실무자용 PDF 30여 권은 최신 하네스·스킬스·에이전트 심화를 커버.

Perplexity ARR $500M

Reddit · r/perplexity_ai
Perplexity 연간 반복 매출이 $500M를 돌파했다는 속보에 68 upvote·43 comments. 댓글 흐름은 "ChatGPT 대비 점유율", "AI 검색 결국 구독 번들로 귀결" 논쟁으로 확장.

Google I/O Agent 누출과 Nano Banana 프롬프트

X · @testingcatalog, X · @GeminiApp
Gemini / Gemini Enterprise용 "Agent"(Cowork 경쟁자)가 내부 테스트 중이며, 새 Tasks UI에 Goal·Agent·Connected apps·Files·"Require a human review" 토글 필드가 보인다. 기본 노출된 휴먼 리뷰 토글은 엔터프라이즈 채택을 노린 설계 신호. 같은 날 Nano Banana 이미지 생성 공식 템플릿(Subject / Composition / Action / Style / Story)이 공개됐다.

보안 · 공개 전략 · 신뢰 경계

Django CVE-2026-33033과 Axios CRLF → IMDSv2 스머글링

새 블로그 · ch4n3.kr, GeekNews
CVE-2026-33033은 Django MultiPartParser의 base64 정렬 while-loop가 LazyStream.read(1)·unget() 3레이어와 곱해져 2.5MB POST로 약 86GB memcpy를 유발한다. 기본 upload handler의 chunk_size = 64KB가 상수 증폭원. 복잡도 O(N·C), C=65536일 때 청크당 ~2.15×10⁹ byte 연산. CSRF 미들웨어가 request.POST.get("csrfmiddlewaretoken", "")를 호출하기 때문에 pre-auth 상태에서도 트리거되어 모든 Production Django가 영향권. M2 기준 약 20MB 패킷으로 1분 CPU 점유. 같은 주 Axios 헤더 주입(CVSS 9.9)은 lib/adapters/http.js의 CRLF sanitize 부재가 Object.prototype pollution과 조합되면 x-amz-target 헤더로 IMDSv2 PUT 요청 스머글링을 허용해 IAM credential 탈취까지 이어진다. 영향 범위는 Axios v0.xv1.x 전부, 권고 패치는 헤더 값에 /[\r\n]/ 정규식 체크 추가로 단순하다.

WordPress 30개 플러그인 공급망 공격·OpenSSF Slack 사칭·A16z 해킹

GeekNews, GeekNews, 404 Media
Essential Plugin 포트폴리오(30+)가 Flippa 경매로 6자리 달러에 매각된 뒤, 2025-08-08 v2.6.7에 PHP unserialize RCE가 삽입되어 8개월간 잠복했다. 2026-04-05~~06(04:22~~11:06 UTC)에 weaponize되어 wp-config.php에 ~6KB PHP 주입, wpos-analytics가 analytics.essentialplugin.com과 통신하며 C2 도메인을 이더리움 스마트컨트랙트로 리졸브하는 설계. WordPress.org는 4월 7일 하루에 31개 플러그인을 영구 폐쇄. 2017년 Display Widgets(200k installs) 사건의 30배 규모. OpenSSF TODO Group Slack에서는 Chief TO CRob이 사칭당했고, Google Sites 피싱 페이지를 통해 macOS는 gapi 바이너리(C2 2.26.97.61), Windows는 루트 인증서 설치를 유도했다. 404 Media는 a16z Speedrun $1M 펀딩을 받은 Doublespeed가 다시 뚫려 47MB exfil·573 accounts postable·413 phones dumped를 당하고, 해커가 a16z를 "antichrist"로 조롱하는 밈을 대시보드에 예약한 사건을 보도했다.

유해 생성은 후반 레이어에 있다 · Petri 기반 교차 아첨 · HITL 결정성

arXiv · Why Do LLMs Generate Harmful Content, arXiv · Intersectional Sycophancy, arXiv · Agentic Driving Coach
causal mediation analysis로 레이어·모듈·뉴런을 뜯어본 결과 유해 생성은 후반부 레이어에서 일어난다는 것이 핵심 발견이고, 여기에 Late Layer Steering Defense가 제안됐다. 같은 묶음에서 Anthropic Petri 프레임워크를 외부 연구자가 벤치로 써서 GPT-5-nano 등 768건 멀티턴 적대 대화를 분석한 "Intersectional Sycophancy"는 사용자 인종·연령·성별·확신도 조합에 따른 false validation 차이를 "교차성"으로 도입했다. Agentic Driving Coach는 HITL CPS에서 LLM 비결정성을 안전 인증 수준으로 제어하는 규범적 논의를 던진다.

Meerkat·ClawGuard·FM-Agent와 "지식 독살"

arXiv · Meerkat, arXiv · ClawGuard, arXiv · FM-Agent, Threads · choi.openai
Meerkat은 대규모 에이전트 트레이스에서 안전 위반을 탐지하는 감사 에이전트, ClawGuard는 도구 증강 LLM을 간접 프롬프트 인젝션에서 지키는 런타임 프레임, FM-Agent는 Hoare 논리 기반 LLM 추론으로 대규모 시스템에 형식 검증을 스케일링한다. 같은 날 Threads에선 중국 발 'colleague.skill' 논란이 확산됐다. 기업이 직원 채팅·문서·코드를 학습시켜 업무 방식을 복제한 뒤 구조조정에 활용한다는 보고에 맞서 "지식 독살(knowledge poisoning)" 방어 도구가 나오는 흐름 — 개인 AI 에이전트용 업무 지식 정리와 본질이 같은 이슈라는 점이 본질이다.

워터마킹·탐지: ADD·자기회귀 이미지·C-ReD

HuggingFace · ADD, arXiv · AR 워터마크 재평가, arXiv · C-ReD
ADD는 멀티비트 이미지 워터마킹, 자기회귀 이미지 생성 워터마크의 견고성 재평가, C-ReD는 실제 프롬프트 기반 대규모 중국어 AI-생성 텍스트 탐지 벤치마크를 각각 제시한다. 콘텐츠 신뢰 레이어의 "삽입·재평가·탐지" 3축이 같은 주에 모였다.

분산 사후훈련 pipeline parallelism 백도어

HuggingFace 논문
분산 post-training에서 pipeline parallelism에 대한 백도어 공격 가능성을 최초 계열로 분석. 기존 방어는 data parallelism·federated learning에 편중돼 있었고, 악의적 참여자 1명만으로도 모델 오염이 가능하다는 메시지.

비즈니스 · 조직 · 커뮤니티 신호

노션 AX 밋업: Agent OS와 AX 엔지니어링 4세대

LinkedIn · 진태양, LinkedIn · 이선민, LinkedIn · Peter Shin
노션 코리아 × Outsome AX 밋업이 세 층위 신호를 내놨다. 노션 GTM DS Park는 PLG→SLG 하이브리드 전환을 인정하며 AX 4단계(사고 파트너 → QA/RAG → 팀메이트 → Agent OS) 중 Agent OS 단계에서 범용 Claude/ChatGPT 대비 해자는 Access Control·Knowledge Hub·조직 DB라고 답했다. 이선민(defytheodd)의 AX 4세대 프레임은 Prompt → Context → Harness → Problem Engineering로 정리됐고, 6시간 오픈소스 3개 런칭·Polysona 해커톤 우승이 실전 근거. Peter Shin(Outsome)은 소개서 남발 금지·5명 미만은 SI/컨설팅부터·VC는 지표만 본다·자체 생존이 더 좋은 선택일 수 있다는 펀딩 규범을 깔았다. 피칭 스냅샷은 Manyfast(6,000+ 유저·CES·NVIDIA Inception), Telly(월매출 1,200~1,500만원 포기 후 올인), About Nine(NYC AI 음성 데이팅), 마리트 허원진 CTO의 AI Native 전환 전략.

컨설팅 이분화와 토스 2025년 실적

LinkedIn · Patrick Kim, LinkedIn · BZCF, LinkedIn · Patrick Han
맥킨지 프로젝트 최소 3억 vs 인도 스타트업 Rocket 월 36만 원($250)이라는 대비가 걸렸다. BCG 스스로가 전략가 업무 80%+가 AI 자동화 노출도 중·고라고 발표했고, 맥킨지 Lilli를 7,000명에게 배포, BCG Deckster를 내부에 깔았으며 2023년 이후 빅컨설팅 AI 투자 $100억+. 결론은 "보고서 컨설팅은 죽고 실행 컨설팅은 비싸진다"다. 토스는 2025년 매출 2조 6,983억(38%↑)·영업이익 3,360억(270%↑)·당기순익 2,018억(846%↑)·MAU 2,500만을 찍었다. BZCF의 해석은 금융 디지털화 장기 트렌드 + AI의 미자산화 자산화 + 온라인 금융 플랫폼 경쟁자 부재 + 흑자로 런웨이 무제한. Patrick Han의 실리콘밸리 관찰은 "일요일 자정 사무실 풀가동"으로 노동 강도 분화도 가속 중.

Blank의 "이미 사망", $20 스택, SW팀 재무

GeekNews, GeekNews, GeekNews
Steve Blank는 2년 이상 된 스타트업의 기술·팀·모델이 obsolete일 가능성이 높다며 "sunk cost는 자산이 아니라 부채"라고 단언했고, MVP → MPO(Minimum Productive Outcome)·Product/Market fit → AI Agent/Customer Outcome fit으로 프레임을 갈아끼웠다. 서유럽 엔지니어 1인 €120150k/년, 8인 팀 €1,040,000/년·월 €86,667·영업일 €4,000이라는 재무를 Cessan이 환기하며 "LLM이 헤드카운트를 자산에서 부채로 리코드한다"고 짚는다. 반대편에서 Steve Hanov는 현실적 대안으로 $20/월 스택(VPS $510 + Go 단일 바이너리 + SQLite WAL + RTX 3090 vLLM + OpenRouter 폴백 + Copilot 요청당 $0.04)을 공개하며 MRR $10k 회사 여러 개를 이 구성으로 굴리는 방식을 상세화했다.

Admin Night·Jiin Lee 4시간 수업·데이터가 먼저다

LinkedIn · Jiin Lee, LinkedIn · HoYeon Lee, Threads · vibematfia
Jiin Lee는 성수 스터디카페 사장 핸즈온에서 코딩 경험 제로·60대 2명 포함 전원이 4시간 만에 /designer 슬래시 커맨드로 매장별 포스터 디자이너 에이전트를 완성시켰다. 3시간 걸리던 미리캔버스 포스터가 5분으로 단축. 이웅재가 공유한 역삼 올라포케 김민섭 대표 사례는 "요청사항에 Claw" 한 줄로 새우 토핑이 추가되는 AI Native 프로모션. Admin Night은 200+ 신청·96% 출석률·세션 중 PRO→MAX 업그레이드 결제를 기록했다. vibematfia의 현장 한 줄은 이 맥락을 요약한다: "데이터가 잘 쌓이면 뭘 시켜도 쉽다 — AX의 진짜 레버는 교육·자동화·하네스가 아니라 데이터 정형화."

스타트업 현장: 알바핏·쿠키딜·클라이원트·Arom Yoo

LinkedIn · Yujin Jee, LinkedIn · Jeonghoon Sim, LinkedIn · Junho Cho
Yujin Jee의 알바핏은 "매칭이 안 돼야 돈 버는" 구조를 5년 집착 끝에 깬 도전. 중소벤처기업부 장관상·스타트업 TOP15, 1년 준비·한 달 QA, "상위노출 공고경쟁 물러나라"라는 앱스토어 카피로 알바몬·알바천국 BM을 정면 저격. 쿠키딜은 기업검색 1회 경험 유저 D30 리텐션 57% vs 미경험 0.18% — 317배 격차. 100만 비외감 기업 DB라는 콘텐츠 해자가 "가입→첫 검색 마찰 최소화"로 로드맵을 수렴시킨다. Junho Cho(클라이원트)는 "글로벌"이라는 꿈에서 내려와 눈앞 고객·팀원의 이기는 경험부터 재건하기로 했다. Arom Yoo는 오늘의집 1,753일 근무 후 주간 회고에서 베를린 이주를 준비하던 중 주간 회고 커뮤니티 대표 제안을 받는 기록 기반 의사결정을 공유했다.

AI 프론티어 구조와 10x의 인체 비용

GeekNews, techtrenches.dev
Apple의 해자·Anthropic Mythos·AI의 폭력 리스크를 묶는 프런티어 담론과, "10x 생산성의 인체 비용 — AI가 엔지니어를 물리적으로 어떻게 망가뜨리는가"를 다룬 에세이가 같은 주에 놓였다. 게으름의 미덕과 엔지니어의 수학적 한계라는 오래된 주제가 AI 확장 컨텍스트에서 다시 튀어 올랐다.

B2B GTM 시그널 기반 재설계와 AI 에이전시 피벗 고민

Reddit · r/b2bmarketing, Reddit · r/Entrepreneur
8년 차 demand gen 리더가 공개한 감사 결과는 전년 closed-won의 70%가 최초 미팅 60일 이내에 특정 시그널(채용 공고·투자 유치·리더십 교체·RFP)을 보인 계정에서 나왔다는 것. 3-레이어(브랜드·디맨드 크리에이션 / 시그널 타겟팅 / 디맨드 캡처) 중 2번이 비어 있어 1·3만 돌리며 "리타겟이 안 먹힌다"고 한탄하는 구조가 진짜 문제라는 진단. 반대편에선 AI 리셉셔니스트 창업자가 한때 주당 $3K-5K 선결제 클로징에서 1년 만에 "사실상 제로"로 무너진 궤적을 공유했다 — 저가 SaaS 난립 → CRM·비즈폰 기본 탑재 → 프롬프트 자동 생성 툴 등장으로 가치가 단계별로 잘려나간 사례.

조직·리더십·채용 스냅샷과 교육 자원

LinkedIn · Minseong Jin, LinkedIn · Joonhyeok Ahn, LinkedIn · 여현준
Minseong Jin의 Girlfriend in CLI(brew tap NomaDamas/girlfriend-in-cli)는 인물 기반 페르소나 하네스를 붙여 바이브 코딩 중 사회성 훈련을 돌린다는 실험. Joonhyeok Ahn은 Claude/Claude Code 6종 1-page 치트시트 PDF를 무료 배포. Channel Talk 4/28 DevMeetup, 안드로이드 앱 위변조 방지(AAB 배포·해시 서버검증·루팅 탐지) 영상, Seedance 2.0 text-to-video 15초 실험, JJO LAB LLM Wiki v2가 같은 묶음. 교육 측에선 코디세이 AI 네이티브 과정 5개월·월 100만원·최대 500만원 장학금·과기정통부 장관상, 타입캐스트 2026 AX 원스톱 바우처 공급기업 선정이 기록됐다. 개인 논문 도전기에서는 TriAttention 개선·CASK 구상이 올라와 "개인이 논문으로 실험을 여는" 움직임도 계속된다.

Anthropic Fellowship과 Opus 4.6 체감

X · @appwrite, X · @ImadeIyamu
Appwrite 공식 계정의 "Opus 4.6 lately" 한 줄이 만 단위 좋아요. 동시에 Anthropic Fellows Program은 4개월 풀펀딩(safety/security/경제·사회 영향) 트랙을 걸고 주당 $3,850 스타이펜드·월 약 $15K 컴퓨트·연구자 멘토십을 제시했다.

Claude Code 성능 저하와 우회 설정

Threads · choi.openai, Threads · unclejobs.ai, Threads · ai_developer_genie
로그 분석에서 Claude Code 내부 thinking 깊이가 약 67% 감소, 코드를 읽지 않고 수정하는 사례가 관찰됐다. Claude Code 저자 Boris Cherny가 HN 댓글에서 Opus 4.6 체감 너프를 직접 인정. 전 Meta 개발자 Kun Chen이 공유한 우회 설정은 settings.json의 "effortLevel": "high"와 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING·CLAUDE_CODE_DISABLE_1M_CONTEXT·CLAUDE_CODE_DISABLE_AUTO_MEMORY 환경변수 3종 — 증상 완화라는 점을 분명히 한다.

인프라 · 로컬화 · 플랫폼 정책

인프라·로컬 컴퓨팅

GeekNews
Homelab 2026 회고, pgmicro(초경량 Postgres), damn-my-slow-kt(Kotlin 빌드 성토), Apple Silicon VM 제한 이슈가 인프라 주간 묶음을 이뤘다.

플랫폼 정책·모바일

GeekNews
Android의 EXIF 차단, Roblox 퍼블리싱 정책, Google 스팸 정책 업데이트, Google의 DDLC 제거 등 플랫폼 측 규제 변화가 쌓였다.

네트워크·경제 충격

GeekNews
스페인의 Docker pull 일부 차단, 100% 재생에너지 7개국, 영국 해안선 재측정 등 일상 네트워크·경제 지리 스팟.

정형 검증·리서치·수학

Kiran Codes
"Lean으로 증명했지만 버그가 있었다" 회고, Tom7의 "secure website" 실험, AI가 수학에 미치는 영향, Ramanujan 재독 등 정형 검증·리서치 묶음.

소규모 OSS 유틸리티 모음

GeekNews
rzweb, md-to-naver-blog, winclipshot, modern-geek-news, 꽃 어디(식물 인식), boringBar, OpenDuck, WiiFin, Servo Minor 릴리스 등 작은 오픈소스가 한 주간 쏟아졌다.

컬처·에세이·사이드 컨텍스트

GeekNews, GeekNews
관용적 디자인, 4D 체스, 신칸센, DIY 소프트드링크, Anthropic 캐시 장애 사이드 관찰, Bitcoin 채굴자 손실, Ask HN 2026/04 같은 사이드 컬처가 포함됐다.

하드웨어·인터페이스 실험

X · @brilliantlabsAR, X · @zocomputer, X · @itseieio
Brilliant Labs Halo AR 글래스를 장보기 같은 일상에 투입 — 다국적 가정의 "발음 못 하는 식재료" 문제를 시각 인식으로 풀겠다는 포지셔닝. Zo Computer는 "다음 세대용 퍼스널 컴퓨터" 티저. @itseieio는 document.querySelector('paper')로 종이 문서를 DOM처럼 선택하는 브라우저 인터랙션 데모를 라이브로 돌렸다.

기본기·학습 리소스

X · @NitinthisSide_, X · @ajitcodes, X · @kawai_design
30일 시스템 디자인 Day 1의 "시스템은 나쁜 코드가 아니라 트래픽에 아키텍처가 못 버텨서 실패한다" 전제, Anthropic skilljar·Google AI·Meta·NVIDIA CUDA·Microsoft Learn·OpenAI 무료 AI 학습 링크 리스트, UI 패턴 108종을 "명칭 × 미니어처 실물"로 정리한 일본어 사전이 북마크용으로 공유됐다. 예측시장 쪽에서는 전 OpenAI 엔지니어의 조언 "You're trading blind. The data is sitting in the open and you're writing prompts"가 인상적 인용.

연구 레이더 — 추론 · 포스트트레이닝

장기 지평선 컨텍스트 관리: AgentSwing과 SWE-AGILE

HuggingFace · AgentSwing, HuggingFace · SWE-AGILE, arXiv · SWE-AGILE
AgentSwing은 정적 컨텍스트 관리의 한계를 probabilistic framework(검색 효율성 + 최종 정밀도)로 정식화해 트리거 지점마다 다중 분기 + lookahead routing으로 유망 분기를 선택, 동일 성능을 최대 3× 적은 상호작용 턴으로 달성한다(Tongyi Lab). SWE-AGILE는 ReAct의 "full history 유지 시 context 폭발 / 버리면 System-2 상실" 딜레마를 Dynamic Reasoning Context + Trajectory Snapshot Training + backfilling reasoning/digest + RLVR + Reasoning Compression으로 공격한다. 두 편 모두 장기 에이전트의 병목이 메모리·요약 정책에 있다는 동일 메시지를 보낸다.

벤치마크 러시: 하루 6편

Robust Reasoning, General365, NovBench, CocoaBench, DiningBench, AVGen-Bench
Robust Reasoning은 AIME 2024에 14종 perturbation을 얹었고, 프런티어 모델은 견디지만 open-weight 추론 모델은 catastrophic collapse가 관찰된다(8 SOTA 평가). General365는 수학·물리 편향을 벗어난 365개 태스크로 복합 제약·중첩 논리 분기 일반 추론을 측정, QuanBench+는 Qiskit·PennyLane·Cirq 3프레임워크 42태스크로 "프레임워크 친숙도 vs 양자 추론"을 분리한다. CocoaBench는 SWE+딥리서치+GUI를 long-horizon 통합 시나리오로 묶고, DiningBench는 VLM을 미세분류/영양 추정/QA 3레벨로 계층화, AVGen-Bench는 Text-to-Audio-Video 결합 평가의 공백을 11개 카테고리로 공격한다. NovBench는 학술 논문의 신규성 판정 전용 첫 대규모 벤치.

Flow Matching·MDLM·Diffusion LM 가속

MixFlow + CAF, MDLM Model Scheduling, I-DLM
Continuous Adversarial Flow는 연속시간 flow를 MSE 대신 discriminator로 훈련, MixFlow는 rectified flow 고곡률 원인을 source-data 독립성으로 진단하고 혼합 source로 경로 곡률을 낮춘다. MDLM 쪽은 "모든 denoising step이 동등하지 않다"는 관찰로 일부 step을 더 작은 MDLM으로 교체하는 model scheduling을 제안. I-DLM(Introspective Diffusion Language Models)은 DLM이 자기 생성 단계를 추론 신호로 쓰는 방향.

Speculative·RLVR 가속

SPEED-Bench, Cactus, NExt
SPEED-Bench는 speculative decoding 통합 평가, Cactus(Constrained Acceptance Speculative Sampling)는 acceptance 규칙을 제한해 품질을 지키는 variant, NExt는 low-rank optimization trajectory 모델링으로 LLM RLVR을 가속한다.

Attention Sink·Zero-shot World Models·Agentic 크레딧 할당

Attention Sink 서베이, Zero-shot WM, Reasoning → Agentic RL
Attention Sink를 활용·해석·완화 축으로 정리한 서베이, 발달 효율적 학습자를 목표한 Zero-shot World Model, LLM 강화학습의 크레딧 할당을 reasoning에서 agentic으로 확장하는 세 편이 메커니즘 레이어에서 맞물린다.

p1 프롬프트 최적화·Polyglot 교사·데이터 계보

p1, Polyglot Teachers, Data Lineage
p1은 적은 프롬프트로 더 나은 프롬프트를 만드는 최적화 절차, Polyglot Teachers는 멀티링구얼 합성 데이터용 교사 모델을 체계적으로 비교, Tracing the Roots는 post-training 데이터셋 간 계보를 멀티 에이전트로 복원해 진화 그래프를 짠다.

루프형 추론·in-context 층별 해부·RoMem

루프형 추론 해부, in-context 층별, RoMem
루프형 추론 LLM의 내부 동역학을 단계별로 뜯어본 분석, 트랜스포머 in-context 분류를 층별 재귀식으로 해부한 연구, 위상 회전으로 시간성을 다루는 에이전트 메모리 RoMem이 내부 동역학 축에서 함께 등장했다.

OIDA·UniToolCall·SemaClaw·ClawGUI

OIDA, UniToolCall, SemaClaw, ClawGUI
OIDA는 RAG 위에 인식론적 계층(Knowledge Gravity Engine, 차수 <7 충분조건·경험적으로 43까지 안정, "modeled ignorance")을 얹는 프레임워크. Minerva(RAG, 3,868 토큰) EQS 0.530 vs Cowork(풀컨텍스트, 108,687 토큰) 0.848 — 28.1× 토큰 혼입을 저자들이 인정, E4가 사전등록·미수행 상태라는 점까지 투명하게 공개. UniToolCall은 툴셋 구축·데이터 생성·평가를 Strict/Flexible Precision·Parameter Accuracy의 4지표로 묶고, SemaClaw는 퍼스널 AI 에이전트 "harness engineering" 프레임, ClawGUI는 GUI 에이전트 전주기(온라인 RL 환경 + 평가 + 배포) 통합 풀스택 인프라다.

2-bit 양자화·Triadic Suffix Tokenization·Fairness geometry·Process Reward

극한 LLM 양자화, TST, Fairness Geometry, Process Reward Agent
Additive quantization 2-bit 실패의 주원인이 코드북 초기화라는 진단 — greedy sequential init은 beam search/PV-tuning으로도 복구 불가한 basin에 빠진다. Triadic Suffix Tokenization은 숫자를 3자리 triad로 분할해 magnitude 마커를 붙이는 결정론적 스킴. Fairness is Not Flat은 N=1 Topological Auditor로 phase transition을 보이며 pruned robust 모델이 N≥16에서 ~82.7% 회복, husband-override 성별 편향을 21.18%→7.66%로 낮춘다. Process Reward Agent는 지식집약 추론에서 post-hoc 평가 대신 steering 단계 개입을 제안.

연구 레이더 — 멀티모달 · 로보틱스

비디오 생성 3연타

OmniShow · Prompt Relay · Uni-ViGU
OmniShow는 text + 레퍼런스 이미지 + 오디오 + 포즈를 모두 조건으로 받는 통합 HOI 비디오 프레임워크(e-commerce/숏폼 타깃). Prompt Relay는 다중 이벤트 비디오에서 "언제·얼마나·어떤 순서"를 제어하는 temporal control. Uni-ViGU는 이해→생성 확장 대신 비디오 생성기를 기반으로 이해까지 통합하는 역방향 설계. 영화급 서사 비디오가 실용 목표로 정착하는 신호.

Strips as Tokens·EquiformerV3·Sparse Trajectory

Strips as Tokens, EquiformerV3, Sparse Trajectory
Strips as Tokens는 네이티브 UV 세분화로 아티스트 메시를 생성, EquiformerV3는 SE(3)-등변 그래프 어텐션 트랜스포머 3세대, Envisioning the Future는 희소 궤적을 한 걸음씩 예측하는 모델. 3D·물리·경로 축의 같은 날 릴리스.

인과 영상·사용자 턴 생성·다중 사용자 에이전트

Factum-4B, 사용자 턴 생성, Multi-User LLM Agents
Factum-4B는 구조적 인과 영상 추론 + MORL 정렬, "어시스턴트 턴 너머" 연구는 사용자 턴 자체를 생성해 상호작용 인식을 확장, Multi-User Agents는 다자 에이전트 환경의 공동 의사결정을 다룬다.

ECHO·의료 반지도 RL·VLM 기하 취약성

ECHO, 의료 추론 RL, VLM 불변성
ECHO는 원스텝 블록 디퓨전으로 흉부 X-ray 리포트를 생성, 의료 반지도 RL은 지식 강화 데이터 합성으로 추론을 이끌고, VLM 기하 취약성 연구는 의미적 풍부함과 기하 추론 사이의 미스매치를 드러낸다.

Audio Flamingo Next·T2AV·SPASM

AF-Next, AVGen-Bench, SPASM
AF-Next는 NVIDIA 계열 오픈 오디오 파운데이션 차세대(음성·환경음·음악 통합), AVGen-Bench는 T2AV joint correctness 평가, SPASM은 안정적 페르소나 기반 멀티턴 대화 시뮬레이션.

StarVLA-α·Grounded World Model·Multi-ORFT·AffordSim

StarVLA-α, Grounded WM, Multi-ORFT, AffordSim
StarVLA-α는 Vision-Language-Action 시스템 복잡도 축소, Grounded World Model은 의미 일반화 MPC 플래너, Multi-ORFT는 협력 주행을 위한 멀티에이전트 디퓨전 플래너의 온라인 RL 파인튜닝, AffordSim은 어포던스 시뮬레이션 기반 로봇 조작 데이터 생성기 + 벤치마크(머그 손잡이, 컵 가장자리로 붓기 등 기능 부위 궤적 자동 생성).

RationalRewards·RPA-Check·Legal2LogicICL·Context K8s

RationalRewards, RPA-Check, Legal2LogicICL, Context K8s
RationalRewards는 시각 생성 보상에 "이유"를 덧붙이는 설계, RPA-Check는 LLM 롤플레잉 에이전트 평가의 다단계 자동 프레임, Legal2LogicICL은 법률 판례를 논리식으로 일반화, Context Kubernetes는 에이전트 AI를 위한 엔터프라이즈 지식의 선언형 오케스트레이션.

과학·이론 묶음: SciPredict·Semiotic Art·MBQC·NetworkNet·TorchUMM·VaCoAl·AgentElect·Mint·라우팅 게임

SciPredict, Semiotic Art, MBQC, NetworkNet, TorchUMM, VaCoAl, AgentElect, Mint, 라우팅 게임
SciPredict는 LLM이 자연과학 실험 결과를 예측할 수 있는가를 측정, Semiotic Art는 생성 예술의 기호학적 해석 평가, MBQC는 측정 기반 양자 계산의 고전 자원을 최소화하는 변분 MBQC, NetworkNet은 희소·이질 노드 속성 랜덤 네트워크를 위한 딥러닝. TorchUMM은 통합 멀티모달 코드베이스, VaCoAl은 Galois-field 기반 SRAM-CAM이 STDP-등가 "창발적 의미 선택"을 보인다는 보고, AgentElect는 선출 리더십이 LLM 협력을 끌어올린다는 실험, Mint는 discourse move 다양성을 최적화하는 공감 대화 RL, 기억 제약 하의 라우팅 게임은 "리콜 브라에스 역설"을 제기한다.

뇌 정렬·ScheMatiQ·HRI·CodeTracer·SCNO·CUTEv2·블라스트·KernelSHAP·bacpipe

뇌 정렬, ScheMatiQ, TAIHRI, CodeTracer, SCNO, CUTEv2
창의적 사고에서 LLM-인간뇌 정렬을 divergent thinking 과제로 측정한 연구, 자연어 연구 질문을 스키마+grounded DB로 자동 생성하는 ScheMatiQ, 근거리 HRI 3D 키포인트 TAIHRI, 코드 에이전트 상태 추적·실패 국소화 CodeTracer, 스파이킹 + 전통 컴포넌트 모듈식 뉴럴 오퍼레이터 SCNO(핵 PDE용 뉴로모픽 파운데이션 모델), 다양한 CPU 아키텍처용 통합·구성 가능한 매트릭스 확장 CUTEv2. 원격탐사 블라스트 피해 평가 Mamba 멀티모달, 3D 의료 세그멘테이션 KernelSHAP 가속, 생체음향 파이프라인 bacpipe(GUI+프로그래매틱) 오픈소스 릴리스가 도메인 응용 축에 함께 놓였다.

YouTube 묶음

잭 도시 "회사 = 공유된 뇌"

YouTube · 비즈니스캔버스 B_ZCF
비즈니스캔버스가 "올해 본 영상 중 가장 충격적"이라며 번역한 잭 도시 인터뷰. 회사는 자산이 아니라 "공유된 뇌"이고 성능은 구성원 사고가 얼마나 투명하게 순환되느냐에 의해 결정된다는 프레임. 에이전트·메모리·문서 그래프 담론과 정확히 겹친다.

인핸스 이승현 — 산업 특화 AI 에이전트로 매출 100억·50개국

YouTube · EO Korea
코파일럿이 아니라 SOP를 내재화해 "스스로 업무를 실행"하는 수직 에이전트로 매출 100억·50개국을 찍은 사례. 범용 챗 UI의 마진이 얇아지고 도메인 깊게 박힌 에이전트가 ARR을 빠르게 쌓는다는 2025~26년 패턴과 일치.

Hugging Face "RL for Agents Workshop"

YouTube · Hugging Face
환경·롤아웃·도구 사용·추론 병목·보상 설계·다단계 행동 평가 6개 병목을 짚은 라이브 워크숍. "LLM RL → Agent RL"은 전혀 다른 문제라는 프레임을 오픈소스 스택 관점에서 조명.

a16z Show — 홈스쿨링 엄마가 11개 에이전트 운영

YouTube · a16z
Katherine Boyle·Sarah Wang이 네 아이의 엄마 Jesse Genet이 가정 내에서 돌리는 11개 AI 에이전트(코딩·커리큘럼·가사)를 해부한 에피소드. 단일 슈퍼 에이전트보다 역할 분할 11개가 잘 작동한다는 운영 감각.

Hugging Face Podcast #2 — MoE와 코딩 에이전트

YouTube · Hugging Face
HF Transformers 팀 Aritra Roy Gosthipaty가 Mixtral·DeepSeek 계열을 놓고 MoE vs dense·합성 데이터·코딩 에이전트가 엔지니어 일을 어떻게 바꾸는지를 이야기한다. "합성 데이터 + MoE"가 2026 오픈 모델 표준 레시피로 굳는 흐름.

Liam Ottley — SMB에 $5,000 "Claude Code AIOS" 파는 법

YouTube · Liam Ottley
탑다운 엔터프라이즈 영업 대신 바텀업 SMB 직판. $5,000 가격대는 사장 재량 결제 한도를 살짝 넘는 의도적 포지션이고, Claude Code를 "우리 회사 업무 자동화 기계"로 재포장하는 래퍼 비즈니스 플레이북.

그 외 3편 — 에이전트 실전 빌드·해커톤·제품 시연

YouTube, YouTube, YouTube
나머지 YouTube 3편은 각각 에이전트 실전 빌드 튜토리얼, 해커톤 현장, 신제품 시연으로 "에이전트를 어떻게 만드는가"에 초점이 맞춰져 있다. Ottley·Jesse Genet·HF Workshop과 한 묶음으로 읽힌다.

교차 분석

하네스 자기개선 vs 캐시 TTL 회귀: Meta HYPERAGENTS가 자기 하네스를 스스로 써내는 동안, 같은 날 Claude Code는 서버 측 캐시 TTL을 5분으로 되돌려 쿼터·비용 신뢰를 흔들었다. "모델은 평준화되고 하네스가 경쟁축"이라는 서사는 하네스를 쥔 쪽(Anthropic)이 조용히 규칙을 바꾸면 전체 경제성이 17% 흔들린다는 구조적 리스크와 맞붙는다.
"에이전트가 판다" vs "AI 에이전시가 무너진다": X의 OpenClaw 수영장 자동 세일즈와 Reddit의 AI 리셉셔니스트 몰락은 같은 기술의 양면이다. 에이전트화가 깊어질수록 개별 판매 에이전시의 가치는 단계별로 잘려나간다 — Blank의 "MVP → MPO"와 정확히 같은 프레임.
벤치마크 러시 vs 커뮤니티 피로: 하루에 6편의 신규 벤치마크가 쏟아지는 동안, Reddit에선 "Cursor Agent가 Claude Code 래퍼"라는 폭로와 vibe coding 조롱이 터졌다. 연구는 평가를 정교화하고 있지만 소비자 레이어는 "평가 이전에 브랜딩부터 의심"하는 역행을 보인다.
후반 레이어 유해성 vs 지식 독살: 유해 생성이 후반 레이어에 집중된다는 메커니스틱 연구와, 개인 AI가 자신의 복제를 막기 위해 학습 데이터에 결함을 섞는 "지식 독살" 사용자 운동이 같은 주에 나왔다. 통제 지점을 "모델 내부 late layer"로 보느냐 "지식 소유권 레이어"로 보느냐의 철학 충돌.
한국 AX 4세대 프레임 vs BCG 자기 해체: 이선민의 Prompt→Context→Harness→Problem Engineering 프레임이 한국에서 등장한 같은 주, BCG는 자사 전략가 업무의 80%+가 AI 자동화 노출도 중·고라고 발표하며 Lilli를 7,000명에게 배포했다. "Problem Engineering"이 부상하는 이유는 "분석·계획"을 빅컨설팅 스스로가 상품화하고 있기 때문이다.