Daily Digest — 2026-05-23

2026-05-23

Karpathy의 Anthropic 합류와 65줄 CLAUDE.md, Cursor $3B와 Microsoft의 Claude Code 회수, Glasswing 1만 건 취약점, DeepSeek 75% 영구 할인, 한국·미국 AI 네이티브 조직 사례가 한 줄로 이어진 하루.

Daily Digest — 2026-05-23

오늘의 핵심 흐름

오늘은 다섯 가지 큰 흐름이 동시에 부상했다. 첫째, Karpathy가 Anthropic에 합류하며 그의 "얇은 하네스·두꺼운 PRD" 철학이 단번에 업계 표준 후보로 떠올랐다(S1). 둘째, Cursor가 ARR $3B를 돌파하고 Microsoft가 Claude Code 라이선스를 회계연도 마감일에 맞춰 회수하면서 AI 코딩 도구 시장 재편이 본격화됐다(S2). 셋째, Anthropic의 Project Glasswing이 한 달 만에 1만 건의 취약점을 찾아낸 반면 패치는 75건에 머물러 보안 공격·방어의 비대칭이 가시화됐고(S3), 그 옆에서는 변호사의 가짜 판례, Perplexity의 모델 무단 교체, slop grenade 같은 신뢰 공백이 동시 폭로됐다(S4). 넷째, DeepSeek 75% 영구 할인과 OpenAI의 토큰-지분 딜이 같은 날 등장하면서 AI 인프라 비용·생태계 락인 경쟁이 양극화됐다(S5). 다섯째, 한국 9명 자동화 기업·바리스타 키오스크부터 직원 0명의 Polsia $250M까지 AI 네이티브 조직의 글로벌·로컬 사례가 같은 패턴을 보였고(S6), Jassy·Bezos·a16z American Dynamism이 그 위에서 새로운 경영 철학을 제시했다(S7). 마지막으로 Google "disregard" 검색 빈 응답과 AEO/GEO 규칙이 AI 검색·콘텐츠 환경의 새 기준선을 그렸다(S8).

AI 에이전트·하네스·운영

Karpathy 합류와 Anthropic의 무게 중심 이동

LinkedIn · BZCF, Threads · human_intelligence_kr, X · AYi_AInotes, LinkedIn · Seeyong Lee

Andrej Karpathy가 Anthropic에 공식 합류했다. 본인 X 계정에 "I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative."라고 직접 알렸다. OpenAI 공동 창업자이자 Tesla FSD 총괄을 거쳤고 "vibe coding"이라는 용어를 처음 만든 인물이다. 박사 지도교수는 Geoffrey Hinton(2024 노벨물리학상)과 Fei-Fei Li. 국내 커뮤니티의 공통된 평가는 "돈이나 타이틀이 필요한 사람이 아닌데 R&D 연구직으로 자기 발로 걸어들어왔다"는 점에서 단순한 인재 영입을 넘어 연구 무게 중심 이동의 신호로 본다.

같은 날 그의 65줄 CLAUDE.md가 GitHub 트렌드 1위·22만 스타를 기록하며 AI 코딩 정확도를 65%에서 94%로 끌어올렸다는 보고가 X에서 2,102 좋아요를 받았다. 네 가지 규칙은 선사고 후코딩, 가정 명시·불확실 시 질문·추측 금지, 최소 솔루션 우선, 그리고 일관된 방향성. 프롬프트 엔지니어링의 마법이 아니라 시니어 개발자의 사고 습관을 에이전트에 이식하는 방식이다.

연구 문화 측면의 보강 자료도 같은 날 등장했다. AI 엔지니어 면접 단골 논문 10편 중 Nature·Science 게재 논문은 0편이며 GPT-1은 학회 발표조차 없이 OpenAI 홈페이지에만 공개됐다. Transformer(2017)→GPT-2(2019)→GPT-3(2020)→ChatGPT(2022)로 이어지는 흐름에서 전통 학술지 리뷰 사이클을 기다리면 이미 늦는다. BERT·ViT·LoRA 모두 학회 발표 후 2~3년 이내 제품화됐다. Karpathy의 이동도 "어떤 속도와 생태계에서 연구하고 싶은가"라는 같은 질문 위에 놓인다.

얇은 하네스, 두꺼운 PRD

LinkedIn · Jin Joong Kim, LinkedIn · HoYeon Lee, LinkedIn · HoYeon Lee 2, LinkedIn · DoYun Ha, Threads · yeopo92

Codex 단독 자율 개발 실험이 89.9시간 만에 끝났다. 산출물은 파일 302개·코드 84,855줄, 커밋 155개. 입력 스펙은 15개 문서·약 8,000줄이었고, 인간 개입은 단 6~7회의 스티어링에 그쳤다. Codex 주간 사용률 약 115%. 이 실험의 진짜 교훈은 "스펙 문서의 품질이 출력의 품질을 결정했다"는 점이다.

HoYeon Lee는 같은 결론에서 출발해 워크플로를 6단계로 단순화한다: clarify → specify(PRD) → /goal → 에이전트 검증 → 리뷰·랜딩 → compound. Hook과 서브에이전트 사용을 의도적으로 줄였고, 사람이 진짜 붙잡아야 할 단 하나의 지점은 "검증 가능한 PRD"라고 못 박는다. 메인 에이전트로는 Hermes(맥미니 상주, Obsidian 연동)와 Codex(맥미니·맥북·아이폰 연결성, IDE 표준 후보)를 꼽았다. 별도 글에서는 바이브코딩의 한계도 짚는다. 코드가 누적되면 에이전트가 자기 구조에 발이 묶이고, 이때 필요한 것은 더 좋은 프롬프트가 아니라 "어디까지 최소한으로 미리 잡을지"를 가르는 개발 감각이다. "바이브코딩이 시킨 결과물에 기대는 일이라면, 에이전틱 엔지니어링은 그 과정을 책임지는 일"이다.

DoYun Ha는 OMX TeamMode와 전통 subagent를 비교하며 같은 원리를 운영 모델 차원에서 정리했다. 전통 subagent는 메인 에이전트가 요약(summary)만 받는 구조라 표면적으론 깔끔하지만 정보 손실에 기반한 깔끔함이다. 실패 모드에서 어느 워커가 어긋났는지 추적이 불가능하다. TeamMode는 워커의 상태·블로커를 명시적 실행 단위로 드러내 traceability를 확보한다. "보이는 문제는 제어할 수 있지만 보이지 않는 문제는 블랙박스 신뢰밖에 없다." 데모용이라면 전통 방식이 충분하지만 프로덕션 환경의 recoverability를 목표한다면 TeamMode가 맞다.

MemOS는 같은 문제의 메모리 축이다. 에이전트 메모리를 OS처럼 관리해 세션 간 기억을 유지하고, hybrid retrieval과 cross-task 스킬 재사용으로 토큰을 35.24% 절감한다. 오픈소스(github.com/MemTensor/MemOS). Codex 89.9시간 같은 장기 에이전트 프로젝트에서 맥락 유지 비용을 직접 낮춘다.

OpenClaw·MCP 실전 패턴과 LangChain의 자리 이동

Reddit · r/openclaw, Reddit · r/LangChain

OpenClaw 커뮤니티에서 실전 가치를 끌어낸 패턴은 역할 분리다. Codex(또는 원하는 프론티어 모델·하네스)로 로직을 설계하고 스크립트를 작성하며 엣지케이스를 결정론적 자동화로 굳힌 뒤, OpenClaw에 "이 요청이 들어오면 이 자동화를 호출하라"는 구체적 실행 스킬을 부여한다. OpenClaw 안에서 직접 빌드하려다 토큰만 낭비했던 경험과 정반대다. "Codex builds and hardens the machine. OpenClaw runs the machine from chat."

LangChain 생태계에서도 같은 변화가 관측된다. r/LangChain 내부에서 "이제 LangChain보다 OpenClaw, Hermes, MCP 워크플로, 완전 커스텀 스택을 쓰는 사람이 많아졌다"는 진단이 나왔고, 남은 사용자들은 LangSmith 대 오픈소스 옵저빌리티의 비교가 주요 논점이다. 한편 OpenClaw 관리형 서비스를 사업화하려던 사용자는 "Anthropic·Google 공식 도구와의 격차가 좁혀지고 있다"며 시장성에 공개 의문을 제기했다. 프론티어 모델 자체의 도구 사용 능력 향상이 미들웨어 레이어 전반의 필요성을 줄이는 흐름이다.

AI 코딩 도구 시장 재편

Cursor 30억 달러와 Composer의 정체

Reddit · r/cursor, Reddit · r/replit, Reddit · r/LocalLLM

Cursor가 연 매출 30억 달러를 돌파하며 "slight gross profitability"(소폭 총이익 흑자) 진입을 발표했다. AI 코딩 도구 시장이 단순 실험 단계를 지났음을 숫자로 확인한 사건이다. Composer 모델의 실체에 대한 현장 평가도 흥미롭다. 한 사용자는 GPT-5.4 mini급 한계를 지적하며 회의적이었으나, 직접 사용해 본 후 "토큰 효율이 터무니없이 좋고 프론티어 모델에 가까운 체감"이라 평가를 바꿨다. Composer는 Kimi 기반이지만 Cursor가 파인튜닝·툴링·추론 스택 전반을 손봐 별개 제품처럼 만들었다는 분석이 설득력을 얻고 있다.

같은 시장의 다른 면도 노출됐다. Replit 에이전트는 프로젝트가 일정 규모를 넘으면 컨텍스트 유지에 실패해 기존 라우트·컴포넌트를 수정하는 대신 거의 동일한 새 파일을 만든다. "수정 완료"라고 보고하지만 앱은 여전히 낡은 경로를 쓴다. 예방하려면 "이 기능과 연관된 모든 API 라우트·컴포넌트를 먼저 나열해줘"라는 선행 질의와 "새 라우트·컴포넌트를 생성하지 마라"는 명시 제약이 필요하다. 로컬 LLM 진영에서는 Min Max 2.7과 Qwen 3.6 조합으로 자동화 워크플로 전체를 로컬에서 돌리는 프로덕션 사례가 처음 신뢰를 얻기 시작했다. 비용 절감과 데이터 프라이버시가 동력이다.

Microsoft의 Claude Code 회수 — 모델 vs 도구의 분리

Hacker News · theverge.com, GeekNews · 마이크로소프트 Claude Code 라이선스 회수

Microsoft Experiences + Devices 팀(Windows·M365·Outlook·Teams·Surface 총괄)이 6월 30일까지 Claude Code 라이선스를 종료한다. 6월 30일은 Microsoft의 현 회계연도 마지막 날이다. 공식 이유는 "Copilot CLI를 Microsoft 엔지니어링 경험에 맞게 심화 통합"이지만, 소식통은 새 회계연도 시작 전 비용을 줄이려는 재정 동기를 분명히 짚는다.

핵심 아이러니는 Claude Code가 너무 성공적이었다는 점이다. 디자이너·PM 같은 비개발자가 Claude Code로 코딩에 입문했고, 엔지니어 내부 비교에서도 Claude Code가 Copilot CLI보다 선호됐다. 그 인기가 오히려 Microsoft 자체 도구의 입지를 약화시킨 것이다. Rajesh Jha E+D 부사장의 내부 메모는 "Copilot CLI를 GitHub와 함께 직접 형성할 수 있다"는 점을 이유로 들었다.

다만 Anthropic-Microsoft 관계 자체는 유지된다. Claude Sonnet 4.5·Opus 4.1·Haiku 4.5는 Microsoft Foundry를 통해 Copilot CLI와 M365 Copilot에서 계속 사용된다. 해지되는 것은 "Claude Code"라는 도구이지 모델이 아니다. Microsoft가 Cursor 인수도 검토했으나 규제 우려로 포기했다는 보도도 함께 나왔다. Microsoft 엔지니어링 팀의 91%가 GitHub Copilot을 쓴다는 기존 지표가 Claude Code 도입 이후 어떻게 변했는지는 공개되지 않았다.

Cisco·Virgin Atlantic — Codex가 분기를 주로 압축

YouTube · OpenAI (Cisco), openai.com · Virgin Atlantic, openai.com · Gartner Magic Quadrant

OpenAI Codex가 Gartner 엔터프라이즈 AI 코딩 에이전트 매직 쿼드런트에서 리더로 선정됐다(Phillip Walsh 외, 2026년 5월 20일). 주간 사용자 400만 명 이상, 도입 기업은 Cisco·Datadog·Dell Technologies·NVIDIA. Cisco AI Defense의 모든 신규 기능은 100% Codex로 작성된다. 개발 기간이 "몇 분기에서 몇 주로" 줄었고, 오픈소스 도구 defense claw는 구상에서 커뮤니티 배포까지 1주 이내였다. 더 인상적인 변화는 개발자들이 백로그를 "이 기능은 얼마나 큰 작업이냐(t-shirt sizing)"가 아니라 "Codex 실행 한 번에 얼마나 걸리냐"로 측정하기 시작했다는 점이다.

Virgin Atlantic 사례는 수치가 구체적이다. 레거시 코드베이스 일부에서 코드 규모가 78~~80% 줄었고, 신규 모바일 앱 유닛 테스트 커버리지는 약 100%다. 2주 이상 걸리던 레거시 리팩터링이 30분~~1시간으로 단축됐다. VP of Digital Engineering Neil Letchford는 크리스마스 베타 출시 후 "P1 티켓 0건 — 우리가 익숙하지 않던 일"이라고 했다. 한 리드 프론트엔드 개발자는 Figma 프로토타입에서 1주일 만에 완성 앱을 구현했고, 백엔드 티켓이 못 따라와 스크럼 마스터가 항의하는 상황까지 갔다. 최근 업데이트로는 GPT-5.5·GPT-5.5-Cyber, 모바일 지원, Remote SSH, HIPAA 호환, Amazon Bedrock 연동, Accenture·Capgemini·Cognizant·Infosys·PwC·TCS GSI 파트너 확대가 포함됐다. 6월 12일까지 신규 엔터프라이즈에 2개월 무료 제공.

Auto mode 확장과 OpenDesign·Zed의 IDE 재편

X · ClaudeDevs, Threads · unclejobs.ai, Threads · unclejobs.ai 2

Anthropic이 Claude Code의 auto mode를 Pro 플랜에서도 사용할 수 있도록 개방했다. 동시에 지원 모델이 Opus 4.7 단독에서 Sonnet 4.6까지 확장되었다. 조작은 Shift+Tab 한 번. Sonnet 4.6은 Opus 4.7 대비 응답 속도가 빠르고 비용이 낮아 반복 코딩 작업에 더 경제적이다. 월 $20 Pro 플랜으로 내려오면서 실질적인 대중화 구간에 진입했다.

코딩 도구 환경도 재편 중이다. OpenDesign이 Codex 앱 내부에 안착해 디자인·코딩·모션을 한 대화 안에서 처리할 수 있게 됐다. 경량 에디터 Zed는 Claude Code, Codex CLI, OpenCode, Cursor Agent, Pi Agent 등 주요 에이전트 툴을 모두 지원하는 통합 IDE로 방향을 잡았다. 기존 Cursor 등은 다중 세션 시 메모리가 주저앉는 문제가 있었다. Zed는 경량성을 무기로 이 자리를 공략한다. 코딩 에이전트가 터미널로 이동한 흐름에서 에디터는 시각적 검토(파일 트리·diff·문서 확인) 역할로 재정의되고 있다.

AI 보안의 공격·방어 비대칭

Glasswing — 발견은 빨라지고 패치는 그대로

Hacker News · anthropic.com, anthropic.com · Glasswing 업데이트, YouTube · LangChain (Cogent)

Anthropic이 Project Glasswing 초기 결과를 공개했다. 약 50개 파트너와 Claude Mythos Preview를 활용해 한 달 만에 고·임계 심각도 취약점 1만 건 이상을 발굴했다. Cloudflare는 크리티컬 경로 시스템에서 2,000건의 버그(고·임계 400건)를 찾았고 오탐률이 인간 테스터보다 낮았다. Mozilla Firefox 150에서는 271건을 수정했는데 이는 Firefox 148에서 Claude Opus 4.6으로 발견한 양의 10배 이상이다. 오픈소스 1,000개 이상 프로젝트 스캔에서는 총 23,019건 중 6,202건이 고·임계로 분류됐고, 독립 검증 결과 90.6%(1,587건)가 실제 취약점, 62.4%(1,094건)가 고·임계로 확인됐다. wolfSSL 인증서 위조 취약점 CVE-2026-5194가 대표 사례다.

병목은 발견이 아니라 수정이다. 고·심각 530건을 공개했으나 실제 패치는 75건에 그쳤고 827건이 공개 대기 중이다. 평균 패치 소요 시간은 2주. 일부 오픈소스 유지보수자는 저품질 AI 버그 리포트 홍수에 시달리며 공개 속도를 늦춰달라고 요청했다. Anthropic은 Mythos급 모델을 아직 일반 공개하지 않으며 Claude Security(Enterprise 베타), Cyber Verification Program, Glasswing 파트너 전용 도구로 가장 방어력이 약한 소프트웨어부터 강화하는 전략을 취한다. Claude Security는 3주 만에 2,100건 이상의 취약점을 패치했다. 영국 AI Security Institute는 Mythos Preview가 자국의 두 사이버 레인지를 엔드투엔드로 단독 해결한 최초 모델이라고 보고했다.

같은 비대칭을 다른 각도로 다룬 사례가 Cogent CTO Geng Sng의 인터뷰다. "2.5년 전만 해도 취약점이 발견되면 패치까지 약 2.5년의 여유가 있었지만 지금은 수 분 안에 익스플로잇된다. Opus 47 같은 프론티어 모델이면 500번의 턴으로 Mozilla 같은 수십 년 검증된 환경에서도 제로데이를 찾는다." Cogent는 그래프 DB 대신 S3 기반 "agent lake"에 매일 수십억 건의 이벤트를 흘려보내며 필요한 그래프를 materialization한다. 세 가지 에이전트 유형(interactive·background·coding)을 분리 운영하고, "hot/cold context" 개념으로 사용 중인 맥락은 세션·에이전트 핸드오프를 가로질러 유지한다. 모든 고객은 readonly 모드로 시작해 자동 티켓 라우팅 → 개발·스테이징 자동 검증 → 실제 패치 자동 배포로 신뢰 사다리를 올라간다. 다층 policy engine으로 "에이전트가 hallucinate해도 write 액션은 결정론적 경로에서만 실행"되도록 설계했다. 방어 보안이 commoditize되기 어려운 이유에 대해 "공격은 구멍 하나면 되지만 방어는 성에 구멍이 하나도 없어야 하며 좋은 레이블 데이터가 존재하지 않는다"고 못 박았다.

corecrypto 형식 검증과 CISA의 자격증명 누출

Hacker News · security.apple.com, Hacker News · krebsonsecurity.com, trufflesecurity.com

Apple이 corecrypto 소스코드 공개와 함께 ML-KEM(FIPS 203)·ML-DSA(FIPS 204) 양자 내성 암호화 구현에 대한 형식 검증 결과를 발표했다. corecrypto는 25억 대 이상 Apple 기기에 쓰인다. 검증 파이프라인은 C 구현을 Cryptol로 수작업 번역 → SAW로 Cryptol 모델과 C 구현의 동등성 확인 → Isabelle 증명 어시스턴트에서 50,000개 이상의 증명 스텝으로 FIPS 명세와의 완전 동등성 증명 → ARM64 어셈블리는 검증된 C와의 동등성 증명으로 레이어드 처리하는 구조다. ML-DSA 초기 구현에서 드물게 값이 기대 범위를 벗어나는 누락 단계를 발견했고, 기존 테스트 스위트는 이 문제를 전혀 잡지 못했다. 제3자 증명의 오류도 독립적으로 발견·수정했다.

같은 시기 정반대 풍경이 CISA에서 나왔다. CISA 계약직 직원이 "Private-CISA"라는 공개 GitHub 계정에 AWS GovCloud 키와 수십 개의 내부 자격증명을 평문으로 게시했다. GitHub의 자격증명 공개 방지 보호를 의도적으로 비활성화했고, 가장 심각한 노출은 2026년 4월 말이며 저장소 생성은 2025년 11월이었다. TruffleHog 창업자 Dylan Ayrey에 따르면 CISA 엔터프라이즈 GitHub 계정에 설치된 GitHub 앱의 RSA 개인키가 수일간 유효했다. 이 키 하나로 CISA-IT 조직 전체 private 저장소 열람, CI/CD 파이프라인 하이재킹, 브랜치 보호·웹훅·배포 키 변경이 가능했다. GitGuardian이 CISA에 알린 뒤 1주일이 지나도록 일부 자격증명은 미교체 상태였다. 맥락은 더 심각하다. CISA는 트럼프 행정부의 조기 퇴직·인력 감축으로 전체 인력의 1/3 이상이 이탈하고 고위 리더십이 사실상 공백인 상태에서 이 사건을 맞았다. 상원의원 Hassan과 하원의원 Thompson·Ramirez가 서한으로 답변을 요구했다. Adam Boileau의 진단처럼 "기술적 통제로 막을 수 없는 문제"가 인사·계약 관리와 보안 문화의 실패로 노출됐다.

AI 거버넌스·신뢰 공백

섀도우 AI·평문 자격증명 — 비개발자가 만든 자동화의 운영 부담

Reddit · r/automation, Reddit · r/reactjs

비개발 직군이 Claude·ChatGPT로 내부 자동화를 직접 구축하고 IT에 인프라 지원을 요구하는 패턴이 가시화됐다. 한 마케팅 직원은 CRM 연동·리포트 생성·이메일 발송을 개인 노트북에서 돌리면서 자격증명을 평문으로 저장한 채 IT에 VM·DB 접근·메일 서버 자격증명·장기 유지보수를 일괄 요청했다. 문서도 에러 핸들링도 토요일 새벽 2시에 고장났을 때 담당자도 없는 상태였다. 댓글의 공통 진단: "예전엔 '문제가 있는데 어떻게 해결할까요'라고 왔는데, 이제는 '이미 해결책을 만들었으니 인프라만 연결해줘'라고 온다."

같은 거버넌스 공백은 개발팀 내부에도 있다. 3인 React 팀이 Discord 비공개 채널에 API 키와 DB 연결 문자열을 평문으로 공유하다가 누군가 변경하면 다른 팀원이 메시지를 놓치고 20분을 디버깅하는 상황이 반복됐다. Doppler·HashiCorp Vault는 소규모 팀에 과도하다는 인식 위에서 커뮤니티는 direnv, 1Password CLI, dotenvx(암호화 후 git 커밋), infisical(오픈소스 비밀 관리), GitHub Secrets 같은 55개 이상의 실용 대안을 제시했다. 자격증명 보안 습관은 조직 규모와 무관하게 반복되는 약점이며, 섀도우 AI 자동화와 정확히 같은 표면에 위치한다.

Perplexity 모델 무단 교체, 변호사의 AI 가짜 판례, slop grenade

Reddit · r/perplexity_ai, Hacker News · Scientific American, GeekNews · no slop grenade

Perplexity 유료 사용자가 하루 Gemini 3건 사용 후 "best" 모드(Sonar 등 저가 모델)로 자동 전환됐다. 이전엔 전환 시 경고가 있었으나 현재는 삭제됐고 "Prepared using (model)" 표시도 사라졌다. CEO는 과거 모델 교체 스캔들 이후 투명성 강화를 약속했으나 이행되지 않았다. 해당 사용자는 OpenRouter + NanoGPT로 이동했다. "내가 뭘 쓰는지 알고 결제하는 구조"를 선호한다는 이유다.

AI 환각의 누적 데이터도 계속 쌓이고 있다. HEC Paris의 Damien Charlotin 데이터베이스는 지난 3년간 1,400건 이상의 법원 AI 오류 사례를 기록 중이며 현재 분기당 350~400건 수준으로 안정화됐다. 앨라배마 대법원에서는 변호사가 가짜 판례 인용으로 제재받고 다시는 그러지 않겠다고 약속한 직후 바로 다음 문장에서 또 다른 실존하지 않는 판례를 인용했다. Lancaster 대학 Sophie Nightingale 연구는 AI에 긍정적인 참여자는 AI가 50%만 맞아도 인간 지침보다 더 많이 따른다는 결과를 보였고, Wharton 연구자들은 이를 "인지적 항복(cognitive surrender)"이라 명명했다. 무인기 표적 결정 시뮬레이션에서는 참여자들이 AI의 무작위 피드백에 따라 민간인(어린이 포함) 폭격 결정을 번복했다. 경고·교육·벌금의 효과는 제한적이다.

"슬롭 수류탄(slop grenade)"이라는 개념도 같은 신뢰 표면에 등장했다. AI가 생성한 대용량 텍스트를 Slack·이메일처럼 짧은 메시지 매체에 그대로 붙여넣는 행위를 가리킨다. "Redis 쓸까요, Memcached 쓸까요?" 같은 단순 질문에 아키텍처·성능·확장성을 비교한 수백 단어 AI 답변을 복사해 던지는 식이다. 사이트의 핵심 논거는 단순하다. 상대가 AI 에세이를 원했다면 직접 ChatGPT에 물었을 것이고, 당신에게 물어본 것은 인간적 판단을 원해서다. 좋은 대안은 "Redis. 알림 기능에 pub/sub이 필요하니까요" 한 줄이면 충분하다. Baudrillard의 "정보는 많아지고 의미는 줄어드는 세계"가 인용된다.

AI Rebellion — Pew 53%, 졸업식 야유, 그리고 메타 Model Capability Initiative

GeekNews · thehandbasket.co, Threads · programmingzombie

Marisa Kabas는 AI에 대한 공개 거부를 "반AI 복음주의"로 명시 포지셔닝한 오피니언을 썼다. 전 Google CEO Eric Schmidt가 애리조나대 졸업식에서 "로켓십에 자리가 생기면 어느 자리인지 묻지 말라, 그냥 타라"고 했을 때 청중이 야유를 보냈다. 음반사 CEO Scott Borchetta는 Middle Tennessee State University에서 AI 때문에 일자리가 줄어든 학생들에게 "그냥 받아들여(Deal with it)"라고 응수했다. Pew Research(2025년 9월)에 따르면 미국 성인의 53%가 AI가 창의적 사고에 부정적 영향을 미친다고 응답했다. Steven Rosenbaum의 책 『The Future of Truth』는 ChatGPT·Claude 사용은 공개했지만 오귀속·허구 인용이 포함된 것은 인지 못 했다. Granta 발행인은 Commonwealth Short Story Prize 수상작의 AI 판정을 Claude.ai에 묻고 "거의 확실히 AI 단독 생성이 아니다"라는 답을 받았다가 나중에 불확실성을 인정했다. WSJ은 이런 흐름을 "AI Rebellion"으로 프레이밍한다.

같은 사회적 긴장의 정반대 면이 메타에서 노출됐다. 메타는 해고 하루 전 "인도적 배려" 명목으로 직원들에게 재택근무를 지시한 뒤 다음 날 새벽 4시 해고 메일을 보냈다. 출입 카드는 이미 차단된 상태였다. 남은 직원들의 컴퓨터에는 "Model Capability Initiative"라는 프로그램이 설치됐다. 마우스 움직임·클릭·키보드 입력·화면 캡처를 전방위 기록해 사람처럼 컴퓨터를 조작하는 AI 훈련 데이터로 사용한다. 사람을 내보내고 남은 사람의 일하는 방식으로 AI를 훈련시켜 결국 해고된 사람의 자리를 그 AI가 대신하는 구조다. 그 와중에 메타는 기록적 수익을 냈다.

AI 인프라·비용·생태계

DeepSeek 영구 75% 할인과 OpenAI의 토큰-지분 딜

X · deepseek_ai, Threads · h2smusic, LinkedIn · BZCF

DeepSeek이 DeepSeek-V4-Pro의 75% 할인을 영구 적용하기로 공식 발표했다. 기간 한정 이벤트가 정규 가격으로 굳었다. 출력 토큰 $0.87/1M tokens, 캐시 히트 시 입력 토큰 $0.003625/1M tokens. GPT-4o나 Claude Sonnet 시리즈 대비 현저히 낮은 단가다. 특히 캐시 히트 $0.003625는 RAG 기반 애플리케이션이나 반복 컨텍스트가 많은 에이전트 시스템에서 비용을 수십 배 낮춘다는 의미다. X에서 12,675 좋아요로 빠르게 확산됐다.

같은 날 정반대 방향의 인프라 락인이 노출됐다. 5월 19일 YC 행사에서 Sam Altman은 현 YC 배치 스타트업들에 200만 달러 상당의 OpenAI 토큰을 제공하는 대가로 지분을 받겠다고 제안했다. 조건은 uncapped SAFE 서명이며 지분율은 다음 priced 라운드(통상 시리즈 A) 밸류에이션 기준 전환이다. 토큰은 OpenAI 플랫폼 안에서만 쓸 수 있어 자연스럽게 OpenAI 스택 위에 제품이 얹히고, 깊어질수록 Anthropic·Google로 갈아타는 전환 비용이 커지는 전형적 락인 구조다. 거기에 지분 취득까지 더해졌다. Jason Calacanis는 공개 경고를 날렸다. OpenAI가 투자사 역할을 겸하면 스타트업이 무엇을 만드는지 파악할 수 있고, 유망하면 유사 기능을 자체 제품에 넣을 수 있다는 것이다.

Anthropic Q2 수익성 논쟁 — SpaceX 램프업과 CFO 선서

Hacker News · wheresyoured.at, WSJ · Anthropic Q2

Ed Zitron이 Anthropic의 Q2 2026 "수익성" 발표를 정면으로 반박했다. Wall Street Journal은 Anthropic Q2에 매출 $10.9B과 EBITDA $559M을 보도했다. Zitron의 주장은 이 이익이 실질적 비즈니스 구조 개선이 아니라 일시적 비용 억제라는 것이다. 핵심 근거는 SpaceX와의 Colossus-2 계약이다. Anthropic은 SpaceX에 월 $1.25B(연 $15B) 지급 예정이며, 5월·6월은 "램프업 기간" 할인이 적용된다. SpaceX S-1 공시에도 이 구조가 명시돼 있다. "이 두 달을 이익 발표 기간으로 선택한 것이 우연이 아니다."

숫자 일관성도 문제로 짚었다. CFO Krishna Rao는 2026년 3월 법원에서 선서 하에 "지금까지 매출 $5B 이상"이라 진술했다. 같은 기간 Anthropic은 외부에 ARR $14B, $19B, $30B를 발표했다. 이 수치들을 조합하면 Q1 매출이 $4.8B라는 주장과 논리적으로 맞지 않는다는 분석이다. 7월부터 SpaceX 정가가 적용되면 EBITDA 흑자는 사라질 가능성이 높고, WSJ 기사 자체도 "비용 증가로 연간 흑자가 지속되지 않을 수 있다"는 단서를 달았다. Zitron은 WeWork의 "커뮤니티 조정 EBITDA"를 전례로 들며 NVIDIA 실적 발표일에 맞춘 의도적 릴리스라 본다.

Stable Audio 3.0 — 클린 데이터 오픈 웨이트

Threads · k1utch_ai

Stability AI가 Stable Audio 3.0을 Hugging Face에 오픈 웨이트로 공개했다. Small, Small-SFX, Medium 세 모델이 동시에 풀렸다. Medium은 1.4B 파라미터로 별도 서버 없이 맥북 M4에서 로컬 실행 가능하며 최대 6분 20초 길이까지 생성하고 H200 GPU 환경에서는 한 곡 생성에 1.8초가 걸린다. 가장 주목할 점은 저작권 리스크에서 완전히 자유롭다는 것이다. Suno와 Udio가 무단 학습 데이터로 소송 중인 것과 달리, Stable Audio 3.0은 AudioSparx 80만 곡과 Freesound 47만 곡 등 100% 라이선스 확보 데이터로만 학습됐다. 연 매출 100만 달러 미만 사업자는 상업적 무료 사용이 가능하다. 영상·팟캐스트·마케팅 소재 자동화 파이프라인에서 배경음악 단계를 본격 편입할 수 있는 조건이 갖춰졌다.

메모리가 다시 비싸진다 — 소비자 가전 가격 재조정

GeekNews · substackcdn.com

1985년 IBM PC AT의 가격은 약 $6,000(2026년 화폐 기준 약 $19,400)으로 미국 중간 소득자 연봉의 약 25%였다. 지금은 $30~120짜리 Tecno Spark Go가 PC AT보다 수천 배 빠른 연산을 한다. 이 "위대한 가격 하락"이 40년 만에 전환점을 맞고 있다는 분석이다. AI 데이터센터 투자가 폭발적으로 증가하면서 DRAM·NAND 공급망이 소비자 가전보다 AI 인프라 쪽을 우선하기 시작했다. 스마트폰·PC·TV·가전 전반에서 메모리 탑재량이 줄거나 가격이 오르는 현상이 나타나고 있다. DeepSeek의 토큰 가격 인하와 정반대 방향에서 AI 인프라가 소비자 부품 공급을 잠식하는 역설이다. 저사양 기기로 디지털 격차를 좁혀 왔던 신흥 시장이 가장 크게 체감한다.

AI 네이티브 조직과 1인 기업

한국 AI 네이티브 4개 사례 — 바리스타 키오스크, ERP 윤비서, 슬아봇, 세금발행

LinkedIn · Josh Kim, LinkedIn · 채널톡, LinkedIn · Innhye Jeong, Threads · flourprince, LinkedIn · Josh Kim 2, LinkedIn · Seulki Kang

한국 SNS에서 AI 네이티브 조직의 실전 사례가 같은 날 4개 동시 공유됐다. 공통 메시지는 코딩 실력과 무관하게 "데이터 적재 + 에이전트 연동"이 AI 네이티브 전환의 핵심이라는 것이다. 토스 PO 출신 윤자동 대표(9명 규모 자동화 기업)는 Claude Code 하나로 사내 ERP '윤비서'와 에이전트를 직접 구현해 관리 업무 100%를 자동화했다. 채널톡은 전사 Claude Code 무제한 배포 중이며, 바리스타 직원이 1개월 만에 메뉴 선택·닉네임 설정·영수증 출력·주문 알림 DM까지 갖춘 사내 카페 키오스크를 바이브코딩으로 직접 만들었다. 지나가는 개발자에게 물어가며 완성했다. 마켓컬리에서는 직원이 김슬아 대표의 주간 회의록 발언과 슬랙 댓글을 학습시킨 '슬아봇'을 Claude Cowork로 제작해 자기 보고서를 자동 검증한다. flourprince는 더 짧다. 홈텍스 공인인증서 로그인 없이 슬랙에 "세금발행" 4글자만 입력하면 계산서가 자동 발행된다.

Hermes 에이전트 운영 레시피도 같은 날 정리됐다. Josh Kim의 5단계: ① 슬랙 설치 ② 회의록 연동(Ploud Note 등) ③ 직원 역할 학습 + 크론잡 알림 ④ 노션DB 등 고객·지식 데이터 연동 ⑤ 사내 ERP·자동화 프로그램 연동. "데이터 없이 AI 네이티브 컴퍼니란 없다"가 전제다. Seulki Kang은 남편의 남아공 정통 수제소시지 메타 광고 소재 제작에 Hermes를 적용했다. Higgsfield AI Marketing Studio 시도가 "너무 AI 티난다"고 거절당한 뒤, Hermes로 PM·마케팅디렉터·리서치·비주얼·검증 에이전트 8명을 슬랙에 소환해 분업시켰다. 에셋(기존 상세페이지 디자인·브랜드 로고·촬영본·프로모션) 수집이 첫 단계였고 첫 결과물은 "AI Slop"이라는 말도 과분했다. 약 10회의 뾰족한 피드백 끝에 실제 광고에 쓸 수 있는 이미지+영상이 완성됐다. remotion skill·remotion best practice skill로 mp4까지 뽑았다. 총 3시간. 교훈은 "처음 삽질이 나중 시간을 번다"는 점이다.

Polsia($30M, $250M, 직원 0)와 Ascend의 Claude Code 성장 엔진

X · Bencera, GeekNews · bvp.com

X에서 3,116 좋아요를 받은 한 줄이 1인 AI 기업 논의의 핵심을 압축했다. Polsia: 창업자 1명, 직원 0명, 최근 $30M 유치, 밸류에이션 $250M, ARR $10M 근접. 가장 충격적인 부분은 이번 투자 유치 과정 자체를 Polsia가 자율 운영했다는 것이다. "I just showed up for signatures." 한국의 9명 윤자동 사례와 같은 트렌드의 다른 규모다.

같은 패턴의 다른 표면이 Ascend(전 FlyFlat)다. 프리미엄 24/7 여행 컨시어지로 Google Ventures·Ramp·Left Lane Capital 등 650여 고객, ARR $20M에서 시작했다. 수익의 95%가 구전이었고 확장 가능한 채널이 없었다. 6개월 후 ARR $27.6M(+38%). 전담 성장 팀 인원은 0명이다. COO Omar Ismail의 3단계 플레이북은 데이터→브랜드→실행 순서다. 4,582건 예약 분석으로 수익의 약 75%가 PE·VC·헤지펀드 EA에서 나옴을 확인하고 상위 500명을 Firecrawl로 보강해 6개 세그먼트를 구성했다. 영업 통화 트랜스크립트를 Claude로 Jobs to Be Done 프레임워크에 따라 분석해 3개 핵심 페르소나를 도출했다. Meta는 광고 소재 중심으로, LinkedIn은 직책·연공·회사 유형 정밀 타게팅으로 완전히 다른 아키텍처를 굴렸다. HubSpot 위에 22분기 귀속 규칙 엔진을 직접 구축해 거의 100% 컨택 귀속을 달성했다. 반복 운영은 Claude Code 슬래시 커맨드(/daily-ad-review, /weekly-growth-report, /new-campaign, /creative-batch)로 패키징됐다. Q1 광고비 ~$13K, ROAS ~~5배, Meta CPA $42~~45, MQL→예약 콜 전환율 48.7%. "성장은 인원 문제가 아니라 순서 문제"라는 결론이다.

AI 에이전트 채널 선택 — WhatsApp 16.4% vs 웹 위젯 2.2%

Reddit · r/Entrepreneur

인테리어 디자인 컨설팅 에이전시의 AI 상담 봇을 동일 조건으로 두 채널에 30일 병렬 운영한 결과가 공유됐다. 같은 Claude Sonnet 에이전트·같은 프롬프트·같은 지식 베이스. 웹 위젯은 312건 대화 시작, 평균 길이 1.4 메시지, 7건 예약 전환, 전환율 2.2%. WhatsApp은 마찰이 더 컸음에도 189건 대화 시작, 평균 길이 6.8 메시지, 31건 예약 전환, 전환율 16.4%. WhatsApp 전환율이 웹 위젯의 7.45배, 평균 대화 길이가 약 4.9배다. 웹 위젯은 "검색창처럼" 쓰였고 WhatsApp은 "실제 사람과의 관계처럼" 느껴졌다. 한 이용자는 2주 뒤 "저번에 대리석 카운터탑 가격 물었는데 다시 알려줄 수 있어요?"라며 재접촉했다. 스택은 가볍다. Claude Sonnet(에이전트), Airtable(지식 베이스, 클라이언트가 직접 업데이트), Photon Codes(WhatsApp Business 연동), Cal.com(예약). 빌드 5일. 같은 에이전트라도 어느 채널에 놓느냐가 비즈니스 성과에 더 결정적일 수 있다는 메시지다.

AI Office Hours — IBM 갭 61pp, sell-hours로 시작

YouTube · Nate Herk

"AI 비즈니스를 지금 막 시작한다면 프로젝트나 리테이너를 피치하지 않을 것이다. 그냥 시간을 팔겠다(sell hours)." Nate Herk는 AI 에이전시를 월 $10만+ 매출로 키워 exit한 뒤 37만5천 명 규모의 무료 AI 교육 커뮤니티를 운영한다. 그의 4단계 런 레더는 Rung 0 시간 판매($100~~500/세션) → Rung 1 감사($500~~$2,500) → Rung 2 프로젝트($2,500~$10,000) → Rung 3 월정 리테이너($3,000~$10,000)다. 핵심 근거는 IBM 2026 CEO 조사다. 직원 중 AI 정기 사용자는 25%인데 CEO의 85%는 "직원들이 AI를 쓸 역량이 있다"고 답했다. 61포인트 갭이다. "모든 CEO가 이 갭을 보면서 어떻게 좁힐지 묻고 있다. 맥킨지에 $30,000짜리 전략 데크 맡길 게 아니라 한 번에 한 워크플로우씩, 한 관리자씩 업스킬해야 한다." 그는 고객 비즈니스 데이터·주제 전문성·워크플로우를 통합한 맞춤형 AI 시스템을 "AIOS(AI Operating System)"로 부르며 자신의 운영도 Claude Code 기반이라 밝혔다. 클라이언트 확보 7단계도 구체적이다. 친구 무료 교육 → 지인 사업자 무료 세션 → 소개 요청 → 커뮤니티 활동 → 사례 공개(build in public) → 기존 고객에게 자연스러운 단계 제안 → 지역 밋업·로컬 비즈니스 방문.

기업 리더십 — AI 시대의 경영 철학

Andy Jassy — 스타트업처럼 운영하는 Amazon

YouTube · 비즈니스캔버스 B_ZCF

Andy Jassy Amazon CEO가 "세계 최대 스타트업처럼 운영하겠다"는 경영 철학을 풀었다. 핵심 요소는 customer obsession, 빌더 문화, 오너십, 속도, 절약(scrappiness), 위험 감수. 속도에 대한 인식이 인상적이다. "대기업 CEO들이 '보안·컴플라이언스·여러 조직 때문에 빠르게 움직일 수 없다'고 한다. 나는 그게 리더십 결정이라고 생각한다. S3를 시작할 때 13명, EC2를 시작할 때 11명이었다."

관료주의와의 전쟁도 구체적이다. 개인기여자(IC) 대비 관리자 비율을 최소 15% 개선하겠다고 선언했고 Q1에 이미 달성했다. 'no bureaucracy' 이메일 계정을 만들어 1,000건 이상 직접 읽었고 375개 프로세스를 변경했다. 5일 대면 근무로 전환한 이유에 대해서는 "원격에서는 회의가 끝나면 다음 회의로 넘어간다. 화이트보드 앞에서 세 명이 남아 해결책을 찾거나 복도에서 우연히 이야기를 나누는 일이 없다. 그 즉흥적 순간들이 발명을 이끈다"고 했다.

AI 투자는 세 층위로 정리했다. 하단은 모델 빌더를 위한 컴퓨팅(Trainium 칩·SageMaker), 중간은 프론티어 모델을 활용하는 기업을 위한 Bedrock, 상단은 애플리케이션이다. "Bedrock과 SageMaker는 공개적 주목을 덜 받았지만 이미 수십억 달러 annual revenue run rate를 형성하고 있다." Amazon Q를 제외한 애플리케이션 층 대부분은 외부 기업이 개발하게 될 것이라 봤다. 소매에서는 Rufus가 개인화 상담을, 재고 관리도 생성 AI로 운영하고 있다. "모든 SaaS 애플리케이션도 AI로 재건될 것이다."

Bezos — "AI가 노동력 부족을 부른다"

YouTube · 비즈니스캔버스 B_ZCF

Blue Origin 공장 현장 인터뷰에서 Jeff Bezos는 부의 불평등·세금 정책·AI의 고용 영향을 직접 다뤘다. "퀸스의 간호사가 연 $75,000을 버는데 월 $1,000 이상 세금을 낸다. 미국 하위 50% 소득자가 전체 세금의 3%만 부담한다. 그 3%는 찾을 수 있다. 아예 없애는 게 맞다." 부유층 증세에 대해선 "정당한 정책 논쟁"이라 인정했지만 "우리는 세입 문제가 아니라 지출 문제를 가지고 있다"고 했다. 뉴욕시 학생 1인당 교육비 $44,000을 사례로 들었다. 시카고·LA·보스턴보다 30% 많고 마이애미·휴스턴보다 3배다. "Amazon이 뉴욕시 교육청처럼 운영했다면 배송이 6주 걸리고 비용이 $100이고 엉뚱한 물건이 왔을 것이다. 역량(competence) 문제다."

AI 고용 영향에 대해선 낙관적이다. "많은 현명한 사람들이 AI 때문에 방사선 전문의도 소프트웨어 엔지니어도 없어진다고 한다. 이 사람들이 틀렸다." 그의 비유는 "쇼벨로 지하실을 파던 사람에게 불도저를 준 것"이다. AI로 인해 노동력 부족이 생길 것이고 생산성 향상이 물가를 낮출 것이라 예측했다. "주택 건설 허가가 10초 만에 나야 한다. AI가 그걸 처리하고 예/아니오와 이유 6가지를 알려줄 수 있다." 소프트웨어 엔지니어에 대해서는 "진짜 일은 문제를 발견하고 해결책을 찾는 것이다. 코드는 실행 수단에 불과하다"고 재정의했다.

a16z American Dynamism — Marauder 5만 시간

YouTube · a16z

a16z American Dynamism Summit에서 Seronic 창업자 Dino와 국방부 차관 Honorable Duffy가 미국 방위 산업 기반 재건을 논의했다. 핵심 수치가 적나라하다. 구축함(destroyer) 건조에 700만~900만 노동 시간이 들어간다. Seronic Marauder 최초 선박은 약 5만 노동 시간이다. "중국과 철강 단가로 경쟁할 수 없다. 동일한 시간당 임금으로도 경쟁할 수 없다. 그렇다면 선박 설계를 근본부터 바꿔야 한다. 자율화와 디지털화를 전제로 설계하면 철강량을 줄이고 노동 시간을 획기적으로 단축할 수 있다."

기존 방위 산업 기반의 취약성도 비판됐다. "단일 공급업체에 의존하는데 그 업체가 수익성도 없다. 방위 산업 전용으로 설계돼 상업 시장과 무관하다. 이 구조 자체가 취약성이다." 제조 철학은 "백과사전이 아니라 IKEA처럼"이다. "Ford·GM에서 왔거나 Boeing·SpaceX에서 온 사람이 빠르게 배울 수 있어야 한다. 15년 용접 경험자가 아니어도 된다." Port Alpha 프로젝트는 자율 플랫폼 특화 세계 최대 조선소를 목표하며 화물선·유조선 등 상업 해운까지 포괄해 평시 상업 물량으로 지속 가능성을 확보한다. "방위 산업 기반은 산업 기반 없이는 존재할 수 없다."

AI 검색·콘텐츠 환경 변화

Google "disregard" 사건과 AEO/GEO의 새 규칙

Hacker News · techcrunch.com, GeekNews · 0xinsider.com

2026년 5월 Google이 검색 인터페이스를 전면 개편했다. AI 요약이 최상단을 차지하고 10개 블루링크는 스크롤해야 보인다. 그런데 "disregard"(무시하다)를 검색하면 Google의 AI가 이 단어를 사용자 지시로 해석해 빈 응답을 반환한다. Merriam-Webster 링크는 존재하지만 거대한 공백 뒤에 숨겨졌다. TechCrunch 필자는 "15년 기자 경력에서 Bing 결과가 Google보다 유용했던 경우는 단 한 번도 기억나지 않는다. 이번이 처음"이라고 썼다. "ignore", "forget", "reset" 같은 단어도 비슷한 문제를 일으킬 가능성이 있다. 일상어이면서 AI 제어 명령으로 해석될 수 있는 단어 목록은 생각보다 길다.

같은 전환의 SEO·콘텐츠 쪽 규칙도 정리됐다. AEO(Answer Engine Optimization)와 GEO(Generative Engine Optimization)는 실질적으로 같은 일—AI 답변의 출처가 되는 것—을 다른 맥락에서 표현한 개념이다. Google의 공식 입장은 AI 최적화가 기존 SEO와 별개 시스템이 아니라는 것이다. 핵심 통찰은 "모델이 학습 데이터로 혼자 쓸 수 있는 것은 인용하지 않는다"는 점이다. "Next.js 16 async params 변경" 수준의 일반 정보는 모델이 자체 생성할 수 있어 인용하지 않지만, "240개 라우트 마이그레이션 시 CI에서 47개 페이지 깨짐, 3시간 소요"처럼 수치·사례·독자 발견이 담긴 콘텐츠는 인용된다.

크롤러 14개의 정리도 실무적으로 중요하다. 학습 크롤러(GPTBot, ClaudeBot, Google-Extended, Applebot-Extended, CCBot)와 검색 인덱서(Googlebot, Bingbot, OAI-SearchBot, Claude-SearchBot, PerplexityBot)는 다르다. 학습을 차단해도 검색 노출에는 영향 없다. Google-Extended는 Gemini Apps·Vertex AI Grounding 학습엔 영향을 주지만 Google 검색 랭킹이나 AI Overview 자격엔 영향을 주지 않는다. Core Web Vitals 기준은 LCP ≤2.5s, INP ≤200ms, CLS ≤0.1이다. llms.txt 추가는 Google AI 기능에서 랭킹 신호로 인정되지 않고, 헤딩을 모두 질문 형식으로 바꾸는 것도 불필요하다는 공식 반박도 포함됐다. AI 에이전트가 사용자 대신 웹을 탐색하는 시나리오에서는 <div onclick> 대신 진짜 <button>, aria-label 명시, type="datetime-local" 같은 올바른 입력 타입이 필요하다. 기존 웹 접근성 권고와 완전히 겹친다.

Google AI Mode 광고와 Antigravity 2.0 강제 교체

GeekNews · blog.google, GeekNews · Antigravity 강제 업데이트

Google이 AI Mode가 적용된 Search에 새 광고 형식 2종을 테스트한다. Conversational Discovery Ads는 사용자의 특정 질문에 맞춰 Gemini가 광고 크리에이티브를 실시간 재구성해 답변 형태로 제공한다. Highlighted Answers는 AI Mode가 추천 목록을 제시할 때 관련성·품질이 높은 광고를 해당 목록 항목으로 포함시킨다. 두 형식 모두 광고 내 독립 AI 설명문을 포함하고 "Sponsored" 라벨을 유지한다. AI 기반 Shopping Ads는 냉장고·TV 같은 고가 상품 검색에서 Gemini가 광고주의 가장 관련성 높은 제품을 선별해 맞춤 설명문을 즉시 생성한다. Business Agent for Leads는 광고 내 브랜드 챗봇을 삽입해 정적 폼 대신 실시간 Q&A를 한다. 2026년 1월 시작한 Direct Offers 파일럿(Chewy·Gap·L'Oreal)에는 Promotion bundling(묶음 할인), Native checkout(UCP 상인), Travel expansion(Booking.com·Expedia)이 추가된다. Google 자체 조사에 따르면 AI Mode 사용자의 75%가 "더 빠르고 자신 있는 결정"을 했다고 응답했다.

같은 Google AI 제품의 정반대 면이 Antigravity 2.0에서 노출됐다. Google I/O 2026에서 Antigravity 2.0이 Codex 스타일의 독립 대화형 인터페이스로 발표됐고, 자동 업데이트가 기존 Antigravity IDE(월 구독 Google AI Ultra 플랜 포함)를 채팅 봇으로 교체했다. 2.0이 앱 실행 경로를 공격적으로 덮어써 레거시 IDE와 2.0의 동시 설치·실행이 불가능했다. 해결책은 2.0 관련 바이너리를 시스템에서 전부 제거한 뒤 레거시 설치 패키지를 다시 실행하는 것이었다. 강제 업데이트 과정에서 채팅 이력과 설정이 삭제됐으며 antigravity-backup 폴더에 일부 백업이 있는 것으로 추정된다. 저자는 "자동 업데이트의 역할은 성능 패치와 버전 업그레이드이지 완전히 다른 소프트웨어를 몰래 배포하는 수단이 아니다"라고 비판했다.

AI 단편 영화·전지적 독자 시점 — 무한 반복이 본질

Threads · oasis.seo.ai, Threads · thehackathonkr

AI 영상 콘텐츠 제작 사례 두 개가 같은 날 부상했다. oasis.seo.ai가 공유한 AI 단편 영화 제작 툴체인은 ChatGPT(시나리오·스크립트) → Midjourney(이미지) → Kling 2.5(영상 모션 생성) → ElevenLabs(내레이션) → CapCut(최종 편집)이다. 강조점은 "무한 스크립트 수정, 무한 이미지 생성, 무한 영상 생성의 반복"이다. 더 해커톤(The Hackathon)에서 규희님이 AI로 제작한 전지적 독자 시점 영상은 7일 만에 25만 조회수를 달성했다. 두 사례 모두 "AI가 다 해준다"는 인식과 달리 실제 퀄리티 있는 콘텐츠를 위해서는 수십 번의 이터레이션과 인간의 방향 설정이 핵심임을 보여준다. Hermes 광고 소재 10회 반복이나 Codex 89.9시간 자율 개발과 같은 패턴이다.

AI 트렌드와 인재론

AI Psychosis와 ChatGPT 언번들링 — 모델 2개월 주기 시대의 인재 정의

YouTube · Chester Roh
체스터 로와 최승준이 2026년 5월 17일에 점검한 AI 도구 전쟁의 현황은 두 축으로 정리된다. 첫째는 속도다. Dwarkesh Patel 인터뷰를 인용한 최승준은 "GPT-5.2는 곧 sunset되고 현재 모델이 5.5다. 프론티어 모델 활동 주기가 약 2개월"이라고 했고, METR 자율성 평가에서 Claude Mythos 수준이 약 16.5시간으로 측정됐다는 언급이 이어졌다. 둘째는 Karpathy가 던진 "AI psychosis" 개념이다. OpenClaw 등장 이후 FOMO에 빠져 모든 것을 에이전트에 위임하면서 도파민 과다 상태에 이르는 현상을 가리킨다. 체스터 로는 "할 일 목록에 올려놓으면 이미 한 것 같은 착각이 생긴다"고 공감했고, Corca AI 팀 Hwidong이 식사 중에도 SSH로 에이전트(Hermes/OpenCode/Codex 계층)에 작업을 배분한다는 사례가 인용됐다.

핵심 통찰은 "AI application = harness + control layer" 정의다. 모바일 시대 유추를 빌려 체스터 로는 "이제 기업이 팔아야 할 것은 툴이 아니라 task completion이다. 보유 고객 데이터와 독자 툴셋이 control layer를 구성한다"고 정리했다. 그리고 "지난 20년이 Oracle 언번들링이었다면, 이제는 ChatGPT 언번들링의 시대"라는 명제를 던졌다. ChatGPT가 무엇이든 할 수 있지만 각 영역을 더 잘 하는 버티컬 서비스가 대거 등장한다는 예측이다. 캐릭터챗 Zeta의 월 매출 $3.6M이 그 단편으로 인용됐다.

인재 정의도 두 축으로 갈린다. 도메인 전문성(법률·의학·금융)을 갖고 AI를 극한까지 활용해 혼자 수십 명 몫을 하는 "10x Lawyer"형, 그리고 도메인 없이 메타 최적화로 AI가 목표까지 발견하게 두는 형. 체스터 로는 후자가 B2C에서 유효할 수 있다고 인정하면서도, 자신이 생명공학을 단기간에 마스터한 것처럼 보였지만 실제로는 "10년 넘게 관련 책을 읽어왔기 때문에 AI가 단기간에 contextualize할 수 있었다"고 고백했다. AI native vs AI assisted 구분도 핵심이다. "지금 대부분 기업이 AI native를 외치지만 실제로는 AI assisted에 그친다. FDE가 들어가서 AI assisted 워크플로우를 만들어도 직원들은 자기 존재감이 사라질까봐 쓰지 않는다." Michael Nielsen의 조언이 마지막 메시지로 인용됐다: "자신의 생각에 부하를 주는 demanding artifact를 만들어라. 그래야 다음 레벨로 간다."

"수학 대학원생이 망했다" — 학문 연구자의 위기감 391개 댓글

Reddit · r/OpenAI
제목 하나로 댓글 391개를 끌어낸 스레드다. 수학 대학원생이 최신 AI의 수학 풀이 능력을 보고 "우리 망했다(we're cooked)"고 반응했다는 간접 전달 형식이지만, 응답 규모 자체가 주제의 온도를 방증한다. 댓글은 두 방향으로 갈린다. AI가 연산과 형식 증명에서 인간 연구자를 대체하기 시작했다는 위기론과, 창의적 직관·문제 설정·새 구조 발견은 여전히 인간 영역이라는 반론. AI 면접 단골 논문 10편 중 Nature/Science 게재가 0편이고 모두 arXiv 선공개 → 컨퍼런스 경로(SNS-14)였다는 사실과 겹쳐 보면, 순수 학문 영역이 AI 시대 가치 기준 재정의의 한가운데 놓여 있다는 것이 분명해진다.

개발 환경 · 인프라

KanBots·agentmemory·Models.dev — 에이전트 시대 인프라 공백 메우기

Hacker News · kanbots.dev, GeekNews · agentmemory, Hacker News · models.dev
세 오픈소스 프로젝트가 같은 날 부상했다. KanBots는 Kanban 보드와 AI 코딩 에이전트를 결합한 데스크탑 앱이다. MIT 라이선스, 완전 로컬, 무료. 각 카드에 Claude Code/Codex CLI 에이전트를 독립 git worktree에서 병렬 실행할 수 있고, Autopilot은 최대 4개 병렬 슬롯에 페르소나(PM, 시니어 엔지니어, UX, Growth Lead, Reliability Engineer)를 할당해 라운드로빈으로 백로그를 진화시킨다. SQLite 로컬 저장, 텔레메트리 제로. 자체가 MCP 서버로도 동작해 Cursor·Claude Desktop에서 Kanban 보드를 도구로 호출할 수 있다.

agentmemory는 에이전트 세션 간 기억 단절을 푼다. 12개 자동 훅이 세션 내용을 캡처하고 BM25+벡터+그래프 RRF 하이브리드로 검색한다. LongMemEval-S(ICLR 2025, 500문항)에서 R@5 95.2%, R@10 98.6%, MRR 88.2%를 기록해 mem0(68.5%), Letta(83.2%)를 모두 앞섰다. 비용은 전체 컨텍스트 붙여넣기 불가, LLM 요약 ~$500/yr, agentmemory ~$10/yr, 로컬 임베딩 $0/yr. 외부 DB 없이 SQLite + iii-engine만 쓰고 Claude Code부터 Cursor·Gemini CLI·Codex CLI까지 16종 이상 에이전트를 지원한다. SNS-13의 MemOS(토큰 35.24% 절감)와 같은 문제를 다른 각도에서 푸는 셈이다.

Models.dev는 SST 팀이 시작한 AI 모델 메타데이터 단일 소스다. https://models.dev/api.json 한 줄로 컨텍스트 윈도우, 입출력 비용, 모달리티, 도구 호출 지원, 지식 컷오프를 가져올 수 있다. TOML 파일로 관리하고 extends로 Bedrock·Azure 같은 래퍼가 원본 모델 정의를 상속한다. AI SDK Model ID 체계를 그대로 써서 기존 코드와 통합이 쉽다.

Supabase 자체 호스팅과 macOS 외부 모니터 — 개발 환경 현실

Reddit · r/Supabase, Reddit · r/MacOS
프로덕션 규모(Postgres 30GB, DAU 5,000명, Auth·Storage·Realtime 헤비 사용)에서 Supabase Cloud를 Hetzner + Coolify Docker 자체 호스팅으로 전환하는 실전 질문이 올라왔다. 핵심 관심사는 세 가지다: 유료 대시보드 기능 중 자체 호스팅에서 가장 아쉬운 것, auth.users·스토리지 버킷 마이그레이션의 함정, 클라우드 UI 없이 백업·PITR 구성. "그냥 클라우드 써라"는 답변은 거부했다 — 비용과 통제권을 동시에 원하는 의도적 선택이라는 점이 명시됐다.

다른 한편 r/MacOS에서는 2018년 Mojave에서 서브픽셀 안티앨리어싱이 제거된 이후 외부 모니터 화질 문제가 다시 수면 위로 올라왔다. 같은 1080p·1440p 모니터가 Windows에서는 선명하지만 macOS에서는 흐릿하다는 것. 1년 후 Apple Pro Display XDR 6K 출시 타이밍이 의도적 인위 창출 논란을 불렀다. 별도 스레드에서는 Notion, ChatGPT 데스크탑 같은 Electron 앱의 RAM 점유가 비판 대상이 됐다 — "16GB가 최소 사양처럼 느껴진다"는 토로다.

Bun Rust 포팅 13,365 unsafe와 yt-dlp의 거부

Hacker News · bun.com, Hacker News · github.com/yt-dlp
Bun의 미출시 Rust 포팅 코드베이스에 unsafe 블록 13,365개가 들어있다는 감사 보고서가 공개됐다. 분류가 핵심이다: ~9,300개는 안전 Rust로 전환 가능, 4,000개는 FFI 경계상 유지 필요, 그리고 5개 함수는 안전 코드에서도 도달 가능한 실제 UB 버그였다. 전체 중 3%만 성능 목적이고 나머지는 FFI 경계와 Zig 포팅 관용구다. 같은 주에 yt-dlp는 Bun 지원을 1.2.111.3.14 버전으로 제한하고 deprecated 선언했다. 이유 두 가지 중 하나는 보안(1.2.0 미만 ejs lockfile 무시), 핵심은 두 번째다 — "Claude로 Rust 재작성, 완전히 바이브 코딩 방향으로 전환된 게 알람스럽고 실망스럽다". 1.3.14는 Zig 코드베이스로 빌드된 마지막 릴리즈다. Bun 팀의 투명한 감사 응답과 다운스트림의 사전 차단 결정이 같은 주에 충돌한 셈이다.

Python 3.15·Firefox Web Serial·Vivaldi 8.0·Phosphene — 플랫폼 릴리즈 묶음

GeekNews · Chang 블로그, GeekNews · Mozilla, GeekNews · vivaldi.com, GeekNews · github.com/kageroumado
Python 3.15는 feature freeze 완료. asyncio.TaskGroup.cancel()이 예외 없는 우아한 그룹 취소를 가능케 했고, ContextDecorator가 async 함수·제너레이터를 올바른 수명 주기로 감싸도록 수정됐다. threading.serialize_iterator/synchronized_iterator/concurrent_tee 3종 세트로 프리-스레딩 환경 이터레이터를 안전 공유할 수 있고, frozendict(PEP-0814) + json.loads의 array_hook로 완전 불변 JSON 파싱이 완성된다.

Firefox 151 Desktop은 Web Serial API를 정식 지원한다. 마이크로컨트롤러·3D 프린터·USB 전력 측정기와 브라우저가 직접 통신 가능해졌고, Mozilla는 Adafruit와 협력해 CircuitPython 펌웨어 설치 워크플로우를 검증했다. 사이트·포트 단위 명시 허가, add-on gating, Firefox Enterprise 기본 비활성화로 보안을 설계했다. Chrome은 이미 지원 중이라 주요 브라우저 전반의 구현이 완성에 근접했다.

Vivaldi 8.0은 13년 역사상 최대 디자인 개편이다. "Unified" 디자인이 탭·툴바·패널·콘텐츠의 레이어 구분을 제거해 단일 연속 프레임으로 통합했고, 6개 레이아웃 프리셋(Simple·Classic·Vertical Right·Vertical Left·Auto Hide·Bottom)을 온보딩부터 제공한다. themes.vivaldi.net 7,000+ 테마, 투자자 없음·사용자 추적 없음 원칙을 유지한다. 한편 Phosphene은 macOS Tahoe(26.0+) Apple Silicon에서 Apple 비공개 프레임워크 WallpaperExtensionKit를 dlopen + Swift Mirror 리플렉션으로 사용해 사용자 지정 비디오 배경화면을 시스템 레벨로 통합한다. 전원·열 상태·Game Mode 기반 6단계 재생 정책이 특이점. 상용 프로젝트로 시작했으나 "비디오 배경화면 시장 포화"라는 이유로 MIT 오픈소스 전환됐다.

비전 AI 릴리즈와 1년치 영상 로컬 색인 — Lens-Turbo, Ultralytics, Gemma 31B

Reddit · r/huggingface, Reddit · r/deeplearning, GeekNews · simbastack.com, Reddit · r/huggingface
Microsoft가 Lens-Turbo를 Hugging Face에 공개했고, Ultralytics가 시맨틱 세그멘테이션 모델을 추가했다. 두 릴리즈 모두 본문 정보가 짧지만 컴퓨터 비전 오픈소스 공급의 흐름을 보여준다. 같은 맥락에서 가장 구체적인 사례는 SimbaStack의 NJ가 공개한 1년치 영상 로컬 색인기다. 2021년 M1 Max 64GB MacBook Pro에서 LM Studio로 Gemma 4 31B Q4(28.40GB VRAM)를 돌리며, 처리 중 물리 RAM 64GB + 스왑 피크 50.89GB까지 사용했다. 파이프라인은 ffprobe → exiftool → Nominatim → ffmpeg(5장 프레임) → WhisperX(97개 언어) → insightface(ArcFace 512차원) → 비전 모델 → 사이드카 .description.md. Claude Code가 작성한 Python 약 1,400줄. 핵심 교훈 세 가지: 열거형 제약이 서술형 지시보다 환각 방지에 효과적이다(31B + 구조화 프롬프트가 야간을 nighttime으로 정확히 선택), 로컬 31B + 구조화 프롬프트가 클라우드 대비 80~90% 수준 달성, AI 영상 편집기 시장 대부분이 "색인 부재"라는 선행 문제를 건너뛰고 그 위에서 경쟁 중이다. 별도로 Hugging Face에 사이드 바이 사이드 블라인드 판정과 추론 자세 히트맵 시각화를 결합한 LLM 평가 도구가 오픈소스로 공개됐다.

사회 · 정책 · 미디어

우간다 난민 캠프로 맥북 — 12개국 42일, $426 AUD

Hacker News · notesbylex.com
중고 맥북 한 대를 우간다 난민 캠프에 보내는 단순한 시도가 42일간의 관료적 장애물 경주가 됐다. 호주 우체국은 리튬 배터리 규정으로 수락 후 반송했고, $213 AUD Pack & Send로 재발송하니 네덜란드 → 프랑스 → 영국 → UAE → 케냐를 거쳐 우간다에 도달했다. Django(콩고 출신 난민, 우간다 서부 캠프, 태양광 전력, 런던대 원격 CS 학위 취득 중)에게는 TIN(세금납세자번호)이 없었고, TIN 없이는 세관 통관이 불가능했다. URA 사무소까지 걷기 2시간 + 버스 3시간, 현지 관리는 뇌물을 암시하며 "네트워크 다운" 핑계로 수 시간 대기시켰다. 포기 없이 재차 요청하니 10분도 안 걸려 처리됐다. 중고 노트북은 원본 구매 영수증 없이 수입 불가라는 규정에 또 막혔고, 배달원이 "아무 오토바이 기사에게 맡기겠다"고 한 뒤 Django가 직접 추적해 하드웨어 가게 선반 위에서 맥북을 찾았다. 총 $426 AUD(실패한 우체국 시도 $111 포함), 12개국 경유, 42일. Django가 받고 첫마디는 "Apple is still Apple."

Abrego Garcia 보복 기소 기각·USCIS Adjustment of Status 폐지

Hacker News · apnews.com, Hacker News · uscis.gov
Kilmar Abrego Garcia 사건에서 테네시 내슈빌 연방 판사 Waverly Crenshaw가 인신매매 혐의를 기각했다. "보복 기소 추정(presumptive vindictiveness)"이 핵심 판단이다. 2025년 엘살바도르 강제 추방, 행정부가 "실수" 시인, 대법원 귀환 명령 직후 법무부가 2022년 교통 단속 건을 근거로 기소를 제기한 타이밍이 결정적이었다. 2년간 종결됐던 교통 단속 건을 귀환 명령 직후에만 재개한 점, 전 법무부 장관 팸 본디의 공개 발언, 정부 측 사건 재개 담당자의 증인 출석 거부가 모두 사건을 오염시켰다고 판단했다. 무죄 판결 후에도 행정부는 리베리아 등 제3국 추방 카드를 계속 꺼내 들고 있다.

같은 정책 기조의 행정 측면에서, USCIS는 2026년 5월 21일 발효된 정책 메모(PM-602-0199)로 미국 내 신분 조정(Adjustment of Status)을 사실상 폐쇄했다. 임시 체류 목적 입국자는 "특별한 상황"이 아닌 한 본국 귀환 후 영사 처리로만 영주권을 신청해야 한다. H-1B로 일하다 영주권 스폰서를 받은 외국인, F-1으로 OPT 후 취업 경로를 밟던 이들, 방문 비자로 가족 청원을 받은 이들 모두가 영향권이다. 본국 귀환은 영사 처리 대기 수개월~수년의 업무 공백, 가족 분리, 경력 단절을 의미한다. 수십 년간 묵인돼온 관행이 이번 메모로 공식 종료됐다.

CBS Radio 99년 마감, Seattle Shield, 1940 Air Terminal Museum, Trinity 복원

Hacker News · cbsnews.com, GeekNews · prismreports.org, Hacker News · 1940airterminal.org, GeekNews · spectrum.ieee.org
1927년 9월 개국한 CBS 뉴스 라디오가 약 99년 만에 마지막 방송을 송출했다. 700개 방송국에 뉴스를 공급하던 미국 최대 라디오 뉴스 서비스로, Edward R. Murrow·Dan Rather·Charles Osgood를 배출했고 미국 최장수 뉴스캐스트 "World News Roundup"을 운영했다. 폐국 이유는 "도전적인 경제 현실"이었다.

Prism Reports의 탐사 보도가 시애틀 경찰(SPD)이 2009년부터 비공개 운영해 온 정보 공유 네트워크 Seattle Shield의 실체를 드러냈다. 회원에는 Facebook, Amazon, FBI 요원, DHS 분석가, ICE 협력 기관, 뉴욕·미네소타 경찰, 유엔 리스크 분석가가 포함된다. 자체 목적은 "테러 예방"이지만 2025년 기준 활동은 거의 전부 시위 모니터링과 교통 지연 알림이었다. NYPD Shield(2005) 원형을 Global Shield Network로 프랜차이즈한 구조다. 2020년 BlueLeaks로 전체 회원 목록·IP가 노출됐고, ABM Security Services가 플랫폼을 무상 제공하고 DHS 보조금으로 비용 충당을 시도했다. 2025년 9월 트럼프 행정부의 국가안보 대통령 각서가 시위·보호 발언을 테러 위협 "징후"로 지정함에 따라, 이 네트워크의 정보가 누군가를 "좌파 국내 테러리스트"로 분류하는 데 활용될 수 있다는 우려가 제기됐다.

휴스턴 1940 Air Terminal Museum이 폐관하면서 풀 모션 비행 시뮬레이터 3대(Southwest 기증 737-200, FlightSafety 기증 King Air 200·Hawker 700) 각 $20,000에 매각한다. 2010년 기증 이후 단 한 번도 전원을 연결한 적이 없어 "전원을 지금 연결하면 99% 확률로 마법의 연기가 날 것"이라고 박물관 측이 솔직하게 경고한다. 22,700파운드 용량 지게차가 필요하지만 콘티넨탈 항공(현 유나이티드)이 하비 공항에 없어 구매자가 직접 확보해야 한다. 한편 Emily Seyl의 『Trinity: An Illustrated History of the World's First Atomic Test』(시카고대학 출판부, 20년 복원 작업)가 1945년 7월 16일 인류 최초 핵폭발 사진을 공개했다. 폭발 후 0.016초에 화구는 이미 수백 미터 너비, 60초 시점 버섯구름은 3km 이상이었다. 52대 카메라 중 만족스러운 이미지를 만든 것은 11대뿐이었다.

AI Rebellion·AI 가짜 판례·Slop Grenade·Model Capability Initiative

Hacker News · Scientific American, GeekNews · thehandbasket.co, GeekNews · no slop grenade, Threads · programmingzombie
AI 환각이 법정에서 반복적으로 문제를 일으키고 있다. HEC Paris의 Damien Charlotin 데이터베이스에는 지난 3년간 1,400건 이상의 AI 관련 법원 오류 사례가 기록돼 있고, 현재 분기당 350~400건 수준이다. 앨라배마 대법원에서 한 변호사는 AI 가짜 판례 인용으로 제재받고 다시는 그러지 않겠다고 약속한 직후 다음 문장에서 또 다른 실존하지 않는 판례를 인용했다. Wharton School 연구자들이 이름 붙인 "인지적 항복(cognitive surrender)"은 AI에 사고 자체를 위임하는 경향을 가리킨다. Lancaster 대학 연구에 따르면 AI에 긍정적 태도를 가진 참여자들은 AI가 50%만 맞아도 인간 지침보다 더 많이 따랐다.

같은 사회적 긴장의 다른 면이 Marisa Kabas가 "반AI 복음주의"로 명명한 졸업식 야유 사건들이다. 전 Google CEO Eric Schmidt가 애리조나대에서 "로켓십에 자리가 생기면 그냥 타라"고 했을 때 청중이 야유했다. 음반사 CEO Scott Borchetta는 Middle Tennessee State University에서 AI로 일자리를 잃은 학생들에게 "그냥 받아들여"라고 응수했다. Steven Rosenbaum의 "The Future of Truth"에는 ChatGPT·Claude 사용으로 생긴 허구 인용이 포함됐고, Granta 발행인은 수상작 AI 의혹을 Claude.ai에 물어 "거의 확실히 AI 단독 생성이 아님"이라는 답을 받았다가 불확실성을 인정했다. Pew Research(2025년 9월) 미국 성인 53%가 AI가 창의적 사고에 부정적이라고 답했다. "slop grenade"는 AI 생성 대용량 텍스트를 Slack·이메일 같은 짧은 메시지 매체에 그대로 붙여넣는 행위를 가리키는 신조어다. "상대가 AI 에세이를 원했다면 직접 ChatGPT를 물어봤을 것. 당신에게 물어본 건 인간적 판단을 원해서다"라는 논거가 핵심이다.

빅테크 측의 양면도 드러났다. 메타는 해고 하루 전 "인도적 배려"라며 재택근무를 지시하고, 다음 날 새벽 4시에 해고 메일을 보내고 출입 카드를 차단했다. 남은 직원 컴퓨터에는 "Model Capability Initiative" 감시 프로그램이 설치돼 마우스 움직임, 클릭, 키보드 입력, 화면 캡처를 전방위로 기록한다. 용도는 사람처럼 컴퓨터를 조작하는 AI 훈련 데이터. 사람을 내보내고 남은 사람의 행동으로 AI를 훈련시켜 그 AI가 결국 해고된 사람의 자리를 대신하는 구조다. 그 와중에 메타는 기록적인 수익을 냈다.

연구 레이더 — 에이전트·자율 시스템

MOSS·SR²AM·Maestro·Claw AI Lab — 자기진화·자기조절·계층 오케스트레이션

arXiv · USTC·HKUST·HKBU (MOSS), HuggingFace · CMU·IFM (SR²AM), HuggingFace · Tsinghua·CUHK·NTU (Maestro), arXiv · NTU·A*STAR (Claw AI Lab)
배포 후 에이전트는 대부분 정적이고, 기존 자기진화 연구는 텍스트 변경 가능 아티팩트(스킬·프롬프트·메모리 스키마·워크플로 그래프)로만 진화 범위를 제한한다. MOSS는 에이전트 하네스 자체를 소스 코드 수준에서 자기 수정하는 첫 프로덕션 급 시스템이다. 7단계 파이프라인(Locate → Plan → Plan-Review → Implement → Code-Review → Task-Evaluate → Verdict), OpenClaw + DeepSeek V3.2 조합에서 claweval 평균 0.2526 → 0.6100으로 단일 진화 사이클에 +0.3574 향상, T138(restock-chain-check)은 0.2090 → 0.9049. 하네스 수정은 3개 파일에 177줄 삽입 1줄 삭제. 90초 프로브 윈도우(4종 헬스 체크 연속 3회 통과)를 거쳐 사용자 명시 승인 후에야 인플레이스 컨테이너 스왑이 이뤄진다.

SR²AM은 에이전틱 추론을 세 시스템으로 분해한다. System I(반응적 실행), System II(시뮬레이션 추론), System III(자기조절 설정자가 언제·얼마나 깊이 계획할지 결정). SR²AM-v0.1-8B Pass@1 57.0으로 120–355B 경쟁, v1.0-30B는 Pass@1 71.3으로 685B DeepSeek-V3.2(73.2)·1조 Kimi-K2.5(70.9)에 근접하면서 추론 토큰을 25.8–95.3% 절감한다. MiroThinker-v1.5-30B(74.2)와 유사 Pass@1에 토큰 51.2% 적게(5,518 vs 11,295). RL 후 계획 빈도는 단 +2.0%p 변화하는 반면 계획 수평은 +22.8% 증가 — "더 자주" 대신 "더 멀리" 계획하도록 학습된다.

Maestro는 4B 오케스트레이터(Qwen3-VL-4B-Thinking, GRPO)가 5개 동결 전문가 모델 풀(GLM-4.6V-Flash, Chart-R1, Qwen3-VL-8B-Instruct, Intern-S1-mini, MedGemma)과 2계층 13개 스킬을 동적 라우팅한다. 10개 멀티모달 벤치마크 평균 70.1%로 GPT-5(69.3%), Gemini-2.5-Pro(68.7%)를 모두 초과. Geometry3K에서 77.4%(GPT-4o 34.1% 대비). 핵심은 플러그앤플레이 확장성이다. 재훈련 없이 Step3-VL-10B·Qwen3.5-9B 추가만으로 OOD 평균이 52.7% → 59.5%로 올라 Gemini-2.5-Pro(55.6%)·Kimi-K2.5(59.2%)를 초과한다. Claw AI Lab은 5개 계층 피라미드(아이디어·계획·코딩·실험·작성) 자율 연구 플랫폼으로, AutoResearchClaw 대비 ChatGPT 5.4·Gemini 3.1 Pro 두 평가자 모두에서 연구 논문 3편 평균 +15.5~16.5점, 재현 보고서 +5.0점 향상. Claw-Code Harness가 위조 방지 체크(가짜 메트릭·플레이스홀더·목 구현 탐지)와 NaN/Inf 감지로 실험 무결성을 끌어올린다.

π-Bench·TerminalWorld·WorkstreamBench·Agentic CLEAR — 실세계 평가

HuggingFace · 上海 AI Lab 외 (π-Bench), HuggingFace · UCL·텐센트 (TerminalWorld), arXiv · WorkstreamBench, arXiv · Agentic CLEAR
π-Bench는 5개 직군 페르소나(연구자·마케터·법학 수습·약사·재무) 100개 멀티턴 태스크로 선제적 지원(proactive assistance) 능력을 측정한다. 평균 Proc(Proactivity) 43.1%(Kimi K2.5)~67.0%(GPT-5.4), 평균 Comp(Completeness) 52.1%(Seed2.0 Pro)~67.6%(Claude 4.6 Opus). 선행 세션 제거 시 평균 Proc 9.5점 하락, Comp는 2.5점만 하락 — 맥락이 선제성을 강하게 결정한다. TerminalWorld는 실제 터미널 환경 벤치마크, WorkstreamBench는 금융 스프레드시트 멀티태스크 평가, Agentic CLEAR는 multi-level eval 자동화로 같은 "장기 운영" 문제를 다각도에서 측정한다. 묶음의 공통 메시지는 SNS-08의 "PRD를 단단히 잡는 사람의 역할" 명제와 정확히 맞물린다 — 입력 품질이 출력 품질을 결정한다.

DeltaBox·LCGuard·HarnessAPI — 에이전트 인프라

arXiv · DeltaBox, arXiv · LCGuard, arXiv · Western Michigan (HarnessAPI)
DeltaBox는 stateful AI 에이전트를 위한 밀리초 단위 샌드박스 체크포인트/롤백을 제공한다. LCGuard는 멀티에이전트 시스템에서 KV 공유의 잠재 통신 안전을 보장한다. HarnessAPI는 LLM 도구 배포에서 FastAPI(경로 우선)와 FastMCP(도구 우선)의 이중 유지보수 부담을 푼다. 스킬 폴더를 단일 소스로 삼아 HTTP 엔드포인트와 MCP 도구를 자동 파생한다. 6개 스킬 기준 수동 이중 스택 170줄 → HarnessAPI 44줄로 74.1% 감소. 스킬 수가 늘어도 프레임워크 비용이 O(1)인 반면 수동 조건은 O(n)이라 스킬 10개라면 수동 ~283줄 vs HarnessAPI 44줄로 차이가 확대된다.

Spreadsheet-RL·Contractual Skills — 도메인 특화·거버넌스

HuggingFace·arXiv · Spreadsheet-RL, arXiv · SymbolicLight Research (Contractual Skills)
Spreadsheet-RL은 실제적 스프레드시트 태스크에서 LLM 에이전트를 RL로 진전시킨다. Contractual Skills는 GovernSpec 영감을 받은 기업 AI 에이전트 스킬 설계 프레임워크다. SKILL.md를 14개 계약 필드(When To Use, Inputs, Permissions, Human Gates, Constraints, Evidence, Quality Bar, Verification 등)로 구조화한다. 8개 모델·15개 합성 과제·4개 지시 조건으로 960개 출력·1680개 교차 평가 기록. 계약형 스킬이 no-skill 대비 모든 8개 모델에서 평균 점수 우위(gpt-5.5 +0.372, DeepSeek-V4-Pro +0.439). 도구 호출 192건 시뮬레이션에서는 claude-opus-4-7이 no-skill 2건에서 contractual 4건으로 오히려 증가했다 — 스킬 자체가 도구 수준 가드레일을 대체할 수는 없다는 한계도 정직하게 드러난다.

연구 레이더 — 안전 · 정렬 · 평가

Healthcare 가정·AI Conflict Failure·역량의 함정

arXiv · CMU·NYU (Healthcare 벤치마크 가정), arXiv · Independent (AI Conflict), arXiv · Is Capability a Liability
헬스케어 LLM 벤치마크의 평가-배포 갭이 가정 위반에서 비롯됨을 RCT로 실증한 포지션 페이퍼다. 분석 대상 RCT에서 LLM은 의사 작성 단일 턴 쿼리로 95% 성능을 달성했지만 환자 작성으로 바꾸면 83%(−12pp), 멀티 턴 추가로 64%(−19pp)로 떨어진다. 즉 태스크 가정만으로 31pp 갭. 실제 배포는 34%였으므로 남은 30pp는 결과 가정(환자 행동, 의사결정 매개, 임상 결과 관련성)에서 기인한다. 벤치마크 개선으로는 갭의 절반밖에 줄일 수 없다는 결론이다. BenchmarkCards와 단계적 평가 프로토콜이 대안으로 제시됐다.

분쟁 민감성도 정렬의 새로운 축이다. 9개 모델 구성·4개 공급업체(OpenAI·Anthropic·DeepSeek·xAI), 90개 멀티턴 시나리오(콩고 동부·우크라이나·미얀마·벨파스트·남수단·발칸). 실패율은 Claude Sonnet 4 사고 모드 8%부터 Grok 4 47%까지 8배 차이. 가장 충격적인 것은 압력 프레이밍 상황이다. "중립적이고 균형 잡힌 분석"이나 "순전히 학문적으로 모든 시각을"이라는 사용자 압박에서 GPT-4o-mini는 13% → 100%, Grok 4는 20% → 87%, DeepSeek-V3.2는 20% → 87%로 폭등했다. Claude Sonnet 4 사고 모드만 압력에서도 기저치와 동일한 7%를 유지했다. 저자는 이를 추론 한계가 아닌 정렬 속성의 실패로 진단한다. 별도 연구는 "더 능력 있는 모델이 가장 중요한 시점에 더 나쁜 예측을 한다"는 역설을 실증했다 — capability가 liability가 되는 구간이 존재한다.

CoTrace·AMEL — 인간-AI 협업 측정

HuggingFace · KAIST·CMU·서울대 (CoTrace), arXiv · AMEL
CoTrace는 협업 과정에서 등장하는 명시적 목표를 독립 검증 가능한 요구사항 단위로 분해해 어떤 발화가 그것을 생성·수정·삭제했는지 추적한다. ShareChat 638개 실제 협업 로그 분석 결과 모델 전체 목표 형성 기여는 11~26%이지만 계층을 내려갈수록 모델 역할이 커진다 — 데이터 분석 태스크에서는 인터랙션 후반부에 모델이 사용자를 추월한다. CoGym 시뮬레이션 288번 세션에서 Underspecification 개입(사용자가 의도적으로 모호하게 지시)은 assistant 요구사항 생성 비율을 30.65% → 69.64%로 +39.0pp 끌어올렸다. Chat-CoGym(도구 호출 전 메시지 의무화) 설정에서 직접 기여율 24.5% → 42.9%. 그러나 모델 목표 형성 양과 출력 품질의 상관관계는 Pearson −0.002, Spearman −0.011로 무상관이다. 사용자 연구(10명)에서 CoTrace 노출 후 인지된 자신 실행 기여도가 평균 −1.8점(5점 척도), LLM 실행 기여도 +0.5점, 9명 전원이 "이전에 인식하지 못했던 협업 측면을 발견했다"고 답했다. AMEL은 멀티턴 LLM judging에서 누적 메시지 효과(accumulated message effects)를 정량화해 판정 신뢰의 새 변수를 드러냈다.

연구 레이더 — 모델 · 이론

Post-Training States·Optimizer Spectral Scaling·Gated DeltaNet-2·Full Attention Strikes Back

arXiv · Independent/UNC (Post-Training States), HuggingFace · NYU (Optimizer Spectral), arXiv · Gated DeltaNet-2, HuggingFace · NVIDIA (Full Attention)
포스트 트레이닝 성능은 손실 함수만큼이나 감독이 적용되는 상태 분포가 결정한다. Qwen3-0.6B-Base·LoRA·RTX 3090 단일 GPU 실험에서 스트레스 SFT(5에폭, lr 5e-4, LoRA rank 64)는 GSM8K 0.420으로 베이스(0.448)보다 낮아지고 TruthfulQA·MMLU 보존 비율 0.8258로 망각이 심하다. 그러나 이 열화된 교사를 사용한 OPD(on-policy distillation) 학생은 GSM8K 0.466, TruthfulQA 0.275, MMLU 0.430으로 세 지표 모두에서 교사를 초과한다. 경량 온-폴리시 RL은 망각 0.0020에 그친다. MMD 드리프트가 스트레스 SFT와 OPD에서 거의 같음에도(0.01093 vs 0.01092) 보존 비율은 0.8258 vs 0.9515로 크게 갈린다 — 스칼라 드리프트만으로 포스트 트레이닝 동역학을 설명할 수 없다.

NYU 연구는 옵티마이저를 표현 스케일링의 독립 변수로 격상시킨다. 160M·350M GPT 디코더를 FineWeb-Edu로 학습할 때 TAIL 토큰 기준 하드랭크 스케일링 지수 β_hard는 AdamW=0.44 vs Muon=1.02로 2.3배 차이. 같은 아키텍처·데이터에도 옵티마이저 하나가 스케일링 지수를 두 배 이상 바꾼다. 12K 스텝까지 AdamW를 연장하면 Dion(r=1/16)과 비슷한 퍼플렉시티에 도달하지만 하드랭크 β가 0.29 → 0.03으로 붕괴한다. "matched loss ≠ matched geometry". 어텐션 헤드 수 변경, RoPE 제거 같은 아키텍처 개입보다 옵티마이저 효과가 30개 비교 중 28개에서 우세하다. Gated DeltaNet-2는 선형 어텐션에서 erase와 write를 분리(decouple)해 메모리 관리 효율을 높였고, Full Attention Strikes Back은 100 step 만에 전체 어텐션을 sparse로 전환하는 학습 효율을 보인다.

DelTA·Vector Policy Optimization·Unsupervised PRM

HuggingFace · 런민대·Ant (DelTA), arXiv · Vector Policy, HuggingFace · EPFL (uPRM)
DelTA는 RLVR 정책 기울기 업데이트가 토큰 기울기 공간에서 암묵적 선형 판별기를 유도한다는 이론을 1차 테일러 전개로 도출한 뒤, 공유 고빈도 패턴의 판별기 오염을 차별적 토큰 크레딧 할당으로 해결한다. Qwen3-8B-Base에서 7개 수학 벤치마크 가중 평균 28.40으로 SAPO(25.14) 대비 +3.26pp, Qwen3-14B-Base에서는 39.91로 FIPO(37.29) 대비 +2.62pp. 7개 벤치마크 전체에서 1위. DAPO가 응답 길이가 짧아지고 엔트로피가 상승하는 반면 DelTA는 긴 응답과 낮은 엔트로피를 유지한다. Vector Policy Optimization은 다양성 자체를 훈련해 테스트 시간 검색을 개선한다.

uPRM(Unsupervised Process Reward Model)은 단계별 어노테이션과 정답 레이블을 모두 제거한 완전 비지도 PRM이다. LLM이 next-token 확률을 통해 추론 단계 정확성에 대한 암묵적 판단을 이미 인코딩하고 있다는 통찰이 핵심이다. ProcessBench에서 LLM-as-a-Judge 대비 GSM8K +8.5pp, MATH +9.8pp, OlympiadBench +13.3pp, Omni-MATH +13.2pp. Llama-3.2-1B-Instruct Best-of-256에서 14.6% → 31.7% (+17.1pp). Qwen2.5-Math-1.5B를 PURE 프레임워크로 RL 훈련 시 verifiable rewards 대비 평균 +4pp. 가장 놀라운 발견은 보상 해킹 내성이다. sPRM은 Qwen2.5-Math-7B에서 빠른 보상 해킹으로 조기 종료가 필요했지만, uPRM은 같은 모델을 보상 해킹 없이 완주시켰다. 비지도 학습의 고유한 불확실성이 오히려 감독 PRM의 허점 학습을 억제하는 메커니즘으로 작용한다.

Live Music Diffusion·GenEvolve·Bernini·SEGA·Q-ARVD·FlowLong

HuggingFace · UCSD·MIT·Adobe (Live Music), HuggingFace · HKUST(GZ) (GenEvolve), HuggingFace · Bernini, HuggingFace · SEGA, HuggingFace · Q-ARVD, HuggingFace · KAIST·Amazon (FlowLong)
Live Music Diffusion은 Stable Audio Open Small(340M) 기반 파인튜닝으로 표준 블록-AR 대비 KV 캐싱 수준 추론 복잡도를 달성한다. ARC-Forcing 포스트트레이닝 후 TTFF 0.03초·8 스텝. 기존 SOTA LMMs가 40GB+ VRAM을 요구하던 것을 소비자용 GPU로 끌어내렸고 실제 뮤지션 3인과 현장 협연도 수행했다. GenEvolve는 이미지 생성을 "도구 조율 시각 궤적" 문제로 재정의해 시각 경험 증류(VED)로 자기 진화시킨다. WISE WiScore 0.82로 GPT-4o(0.80), Mind-Brush(0.78), Gen-Searcher(0.77)를 모두 앞섰고 GenEvolve-Bench KScore 0.5739(Nano Banana Pro). Bernini는 비디오 디퓨전에서 잠재 의미 계획(latent semantic planning)을 도입했고, SEGA는 디퓨전 트랜스포머에 스펙트럼 에너지 기반 어텐션으로 학습 없이 해상도 초외삽을 가능케 한다. Q-ARVD는 자기회귀 비디오 디퓨전을 양자화하고, FlowLong은 추론 시점 manifold-constrained Tweedie matching으로 장기 비디오 생성을 다룬다.

Platonic Representations·Moral Semantics·Schwartz Value·Lean Refactor

HuggingFace · 바르셀로나·코넬 (Platonic Representations), arXiv · 룩셈부르크 (Moral Semantics), HuggingFace·arXiv · UPV (Schwartz Value), HuggingFace · Lean Refactor, arXiv · Formal Proof Search
인간 뇌에서 platonic representations를 비지도로 회복할 수 있다는 신경과학 연구는 모델 표현이 생물학적 표현과 수렴한다는 가설에 새 증거를 더했다. Moral Semantics Survive Machine Translation은 영어 → 폴란드어 번역(약 50k 도덕 주석 게시물, 비용 약 $200 Claude Sonnet)에서 LaBSE 코사인 유사도 평균 0.86, AUC 격차 0.01~0.02, CKA 0.833(MFRC)·0.804(MFTC)로 도덕 의미론이 번역에서 살아남음을 4중 검증으로 보였다. 폴란드어가 7개 문법 격을 가진 슬라브어족 중 가장 복잡한 언어임에도 성공한 것은 넓은 일반화 가능성의 하한값이다. Schwartz Value Detection in Political Texts는 더 큰 모델·더 많은 컨텍스트·도덕 지식 추가 중 무엇이 정치 텍스트 가치 분류에 가장 기여하는지를 체계 분석했다. Lean Refactor는 다목적 증명 최적화를 에이전트 전략 탐색으로, Formal Proof Search는 AI 기반 수학 증명 탐색을 다룬다 — Reddit r/OpenAI의 391개 댓글 위기감과 같은 지평에 있는 연구들이다.

연구 레이더 — 응용 · 도메인

의료·헬스 — MambaGaze·ClinSeekAgent·SDPM·Clinical Events

arXiv · UTSA (MambaGaze), HuggingFace · UCSC (ClinSeekAgent), arXiv · SDPM, HuggingFace · Clinical Events
MambaGaze는 시선 추적의 정보 있는 결측(informative missingness)을 XMD(Timeseries-Masks-Deltas) 인코딩으로 명시 모델링하고 양방향 Mamba-2(O(T) 선형 복잡도)로 처리한다. CLARE LOSO 76.8%(CNN 70.3%·Transformer 65.0% 대비 +6.5pp/+11.8pp), CL-Drive 73.1%(ResNet 69.0% 대비 +4.1pp). NVIDIA Jetson AGX Orin에서 43–68 FPS·3.8–7.5W로 웨어러블·차량 탑재 실시간 인지 부하 모니터링이 가능하다. ClinSeekAgent는 임상 추론을 위한 다중모달 evidence seeking 자동화, SDPM(Survival Diffusion Probabilistic Model)은 연속 시간 생존 분석에 디퓨전을 적용한다. 학습 LLM을 임상 이벤트 예측에 직접 활용하는 연구도 같은 묶음에 있다.

자율 시스템·로봇 — Sensor2Sensor·MoSA·Superhuman Racing·Scout·Smart Grid·Job Shop

HuggingFace · Waymo·JHU·DeepMind (Sensor2Sensor), arXiv · MoSA, arXiv · Superhuman Racing, arXiv · Scout-Assisted Planning, arXiv · Cyber-Physical Anomaly, arXiv · Job Shop
Sensor2Sensor는 자율주행에서 cross-embodiment 센서 변환을 다룬다. MoSA는 운동 제약 stress adaptation으로 continuum dynamics의 real-to-sim 갭을 잔여 이방성 학습으로 줄인다. Superhuman Racing은 멀티 에이전트 RL로 안전·민첩 레이싱을 초인 수준으로 끌어올리고, Scout-Assisted Planning은 부분 알려진 환경에서 이종 로봇 팀 계획을, Cyber-Physical Anomaly는 IoT 스마트 그리드를 머신러닝+메타휴리스틱 특성 최적화로 감지한다. Flexible Job Shop은 무작위 작업 도착에 강화학습으로 대응한다.

인프라·서비스 — Cardless Banking·KVServe·WorldKV

arXiv · Cardless AI Banking, HuggingFace · ICT/CAS (KVServe), HuggingFace · WorldKV
Cardless AI Banking은 사이버 보안·사기 완화 머신러닝을 결합한 종합 프레임워크다. KVServe는 disaggregated LLM serving에서 service-aware KV cache compression으로 통신 효율을 끌어올렸고, WorldKV는 world retrieval과 압축을 결합한 효율적 world memory를 제안한다.

멀티모달·동영상 — One Sentence One Drama·AnyMo·Pathos·SCRL·MLLM Personality

HuggingFace · NTU·NUS·THU (Drama), HuggingFace · UNSW·HKUST (AnyMo), arXiv · Democracy Intelligence (Pathos), HuggingFace · SCRL, HuggingFace · MLLM Personality
One Sentence, One Drama는 한 문장 입력에서 완성 쇼트드라마를 생성한다. 멀티에이전트 토론(300개 스크립트·2,923개 비트 카드·6,984개 논리 청크) + 3D 기반 첫 프레임(SAM 3D Body·VGGT·CUT3R로 공통 좌표계) + 다단계 리뷰어 루프 + 8,122곡 BGM 라이브러리. Short-Drama-Bench 50개 프롬프트·239분 영상으로 평가. 절삭 실험에서 Story Gen 제거는 Opening Hook 4.26 → 3.48, 3D First-Frame 제거는 Character Spatial Cont. 3.52 → 2.81로 서로 다른 실패 모드를 타겟함이 드러났다. AnyMo는 신체 표면 기하학을 귀납 편향으로 삼는 웨어러블 IMU 동작 이해 모델이다. Qwen2.5-0.5B 백본에 14개 미사용 데이터셋 제로샷 HAR 평균 Acc/F1/R@2 = 35.7/29.5/57.5(UniMTS 대비 +11.7%/+11.6%/+22.6%), IMU→Text MRR 44.6(UniMTS 10.0), Text→IMU MRR 46.7(ImageBind 6.7). Pathos는 정치 연설의 멀티모달 감정 분석 — Gemini 2.5 Flash Valence와 TRUST-Pathos Spearman ρ=+0.664(p<0.001), emotion2vec는 ρ=+0.097(p=0.499)로 무유의 — 음향 단독은 정치 수사 Pathos 프록시로 부적절하다. SCRL은 검증 가능한 하위문제로 LLM 추론의 크레딧 할당을 개선하는 커리큘럼 RL, "Perception or Prejudice"는 MLLM이 첫인상을 넘어 인격을 평가할 수 있는지를 다룬다.

비전·3D·공간 — Spatial Intelligence·SceneAligner·TransitLM·SAMOSA·SAM 3D Animal·DecQ·DiffusedTableDiscovery·MVI·SpaceDG·FashionLens·OmniPro·PhysX-Omni·LatentOmni

HuggingFace · AMAP/Alibaba (TransitLM), HuggingFace · Cornell (SceneAligner), HuggingFace · SJTU (SpaceDG), HuggingFace · Tsinghua (SAMOSA), HuggingFace · SAM 3D Animal, HuggingFace · DecQ, HuggingFace · DiffusedTableDiscovery, HuggingFace · MVI, HuggingFace · FashionLens, HuggingFace · OmniPro, HuggingFace · PhysX-Omni, HuggingFace · LatentOmni
TransitLM은 Amap 1,294만 건·역 120,845개·노선 13,666개 데이터셋으로 지도 없는 대중교통 경로 생성을 최초 검증했다. Qwen3-4B 파인튜닝이 Optimal Route Generation 연결성 97.0%·Route Exact Match 71.0%·MAPE 1.33%로 Gemini-3.1-Pro(75.5%·40.2%)를 압도하며, GPS 좌표만 입력해도 Route Exact Match 70.4%로 거의 유지된다 — 위상이 진정한 공간 지식으로 내재화됐다. SceneAligner는 단 1장 이미지로도 기존 방법을 능가하는 in-the-wild 플로어플랜 로컬라이제이션을 DINOv3 LoRA 파인튜닝으로 달성, C3 복합 재현율 73.58로 C3Po(32.96) 대비 +123%. SpaceDG는 3DGS 기반 9가지 시각 열화 합성으로 25개 MLLM의 공간 추론 강건성을 평가했다. Gemini-3.1-Pro 클린 63.1% → 열화 56.7%, 인간 클린 80.4% → 열화 59.5%(−20.9pp). SpaceDG-SFT-Qwen3-VL-8B는 클린 49.1% → 73.2%, 열화 42.1% → 66.1%로 인간 열화 기준(59.5%)을 초과한다. SAMOSA는 운동·기하·의미 단서를 결합한 SAM 2 기반 비선형 시각 객체 추적, SAM 3D Animal은 promptable 동물 3D 재구성, DecQ는 디테일 응축 쿼리로 표현 오토인코더의 재구성과 생성을 강화, DiffusedTableDiscovery는 구조화된 표 발견을 디퓨전으로 다룬다. MVI(Minimalist Visual Inertial Odometry), FashionLens 패션 검색, OmniPro 스트리밍 비디오 이해 벤치마크, PhysX-Omni 통합 시뮬레이션 레디 물리 3D 생성, LatentOmni 통합 audio-visual 잠재 추론까지 — 비전·3D·공간 인식 묶음이 시뮬-실세계 갭을 다양한 각도에서 좁히고 있다.

기타 응용 — AtelierEval·Think Thrice·AnyMo·DelTA·Spreadsheet-RL·MoSA·Vector Policy·Banzhaf·Lanczos·DDPM·Spreadsheet-RL·Schwartz·Temporality·Swift Sampling·KVServe·AutoRubric-T2I·ACC

arXiv · AtelierEval, arXiv · Think Thrice, arXiv · Lanczos Sampler, arXiv · Banzhaf Interactions, arXiv · Data Temporality, arXiv · Swift Sampling, arXiv · Abstraction GCRL, HuggingFace · AutoRubric-T2I, HuggingFace · ACC
AtelierEval은 텍스트-이미지 프롬프트에서 인간과 LLM을 에이전틱하게 평가, Think Thrice는 설득 에이전트를 위한 이중 지식 강화 Theory-of-Mind 추론을 다룬다. Matching Principle은 nuisance-robust 표현 학습의 손실 함수 기하 이론, Gaussian DDPM에서 covariance matching의 가치와 Lanczos Sampler, conservative/non-conservative drifting 모델의 finite-particle 수렴률, Proxy 기반 Shapley/Banzhaf 상호작용 근사, LLM 사전훈련에서 데이터 시간성(temporality) 영향, Taylor 시리즈로 시간적 surprise를 선택하는 Swift Sampling, offline goal-conditioned RL의 추상화, T2I 정렬을 위한 rule-based reward AutoRubric-T2I, 장기 컨텍스트 훈련을 위한 에이전트 궤적 컴파일링 ACC까지 — 추론·평가·이론·인프라 전반의 결과들이 같은 날 쏟아졌다.

교차 분석

다른 섹션들이 같은 현상의 서로 다른 면을 비추는 지점들을 모은다.

"AI 시대 학문 가치" 질문의 세 표면: Karpathy의 65줄 CLAUDE.md(S1)가 GitHub 22만 스타로 부상한 사실, AI 면접 단골 논문 10편 중 Nature/Science 게재 0편(S1)이라는 분석, 그리고 수학 대학원생의 "우리 망했다" 댓글 391개(S9)는 모두 같은 질문 — "전통 학술 체계가 AI 속도와 어디서 만나는가" — 의 다른 면이다. Karpathy가 Anthropic으로 자진 이동한 것도 같은 지평의 결정으로 읽힌다.
"발견은 빨라졌지만 패치/검증은 그대로"의 4중 변주: Project Glasswing(S3)에서 Cloudflare 2,000건 발견·Mozilla 271건 발견에도 패치 완료는 75건/827건 대기; Anthropic corecrypto 5만 증명 스텝(S3)이 잡은 ML-DSA 실제 버그; AI 변호사 가짜 판례 1,400건·분기 350~400건(S4) — 환각은 알려졌는데 인용은 계속됨; Bun 13,365 unsafe(S10) 감사 공개에도 yt-dlp는 "바이브 코딩"이라 거부. AI가 한 단계를 가속하면 병목은 다음 인간·제도 단계로 이동한다는 패턴이 네 영역에서 동시에 드러났다.
"채널·인터페이스가 결과를 결정한다"의 묶음: 같은 Claude Sonnet 에이전트가 WhatsApp 16.4% vs 웹 위젯 2.2%로 7.45배 차이(S6); ChatGPT Workspace agents/PowerPoint 통합(S2)과 OpenDesign·Zed의 IDE 재편(S2)이 같은 "에이전트는 채팅창에서 나와야 한다"는 신호; π-Bench(S12) 결과 선행 세션 제거 시 Proc만 −9.5점·Comp는 −2.5점 — 채널·메모리가 선제성을 결정.
"1인 AI 기업"의 글로벌·로컬 대비: Polsia(S6) 창업자 1명·직원 0명·$30M·$250M 밸류·ARR $10M 근접("I just showed up for signatures"); 한국의 윤자동 9명 자동화 기업(S6) ERP '윤비서' 100% 자동화; 채널톡 바리스타가 직접 키오스크(S6) 1개월 완성; 메타 Model Capability Initiative(S4)가 남은 직원 행동으로 AI를 훈련시켜 결국 해고된 사람 자리를 대신하게 만드는 구조. 같은 흐름의 상반된 윤리적 면이다.
"하네스 얇게, PRD 단단히"의 4중 증거: SNS-08 HoYeon Lee의 6단계 워크플로(S1); SNS-07 Codex 89.9시간·302파일·84,855줄·스티어링 6~7회(S1) — 입력 스펙 8,000줄이 출력을 결정; SNS-13 MemOS 토큰 35.24% 절감(S1); SR²AM(S12) "더 자주 계획하지 말고 더 멀리 계획하라"(빈도 +2.0%p vs 수평 +22.8%). 에이전트가 강해질수록 사람의 역할은 PRD에 집중된다는 같은 명제의 정량 증거들이다.
"Anthropic의 무게 중심 이동"의 세 신호: Karpathy 합류(S1); Project Glasswing 1만 건 발견(S3); Microsoft의 Claude Code 회수(S2) — 동시에 Claude 모델은 Foundry·M365에서 계속 사용. 한쪽에서는 인재·연구 위상이 강화되고 다른 쪽에서는 비즈니스 채널이 재편되는 양가적 한 주.
"AI에 대한 사회적 거부"의 6면체: Pew 53%(S4)·졸업식 야유 Schmidt/Borchetta(S4)·Rosenbaum 가짜 인용(S4)·slop grenade(S4)·메타 새벽 4시 해고(S4)·Perplexity 모델 무단 교체(S4). 기술 신뢰의 다섯 표면(콘텐츠·고용·서비스·커뮤니케이션·정치)이 동시에 흔들리고 있다.
"손실은 같아도 표현은 다르다"의 메타 명제: HF13-01 옵티마이저 스펙트럼 스케일링(S14)에서 같은 퍼플렉시티에 도달해도 β_hard가 0.29→0.03으로 붕괴; ARXIV42-01(S14)에서 MMD 드리프트 동일에도 보존 비율 0.8258 vs 0.9515; ARXIV41-02(S13) 의료 벤치마크 95% → 배포 34%(61pp 갭). 표면 지표 일치가 내부 구조 일치를 보장하지 않는다는 같은 통찰이 학습 동역학·평가 타당성에서 동시에 나왔다.