Daily Digest — 2026-05-27

2026-05-27

에이전트 마켓플레이스화, 토큰 가격 압력, 코딩 에이전트 100시간 실측, 바이브코딩 양면, AI 시대 인간성 담론, 연구 레이더 두 메타 흐름까지 한눈에 정리한 오늘의 AI 다이제스트.

Daily Digest — 2026-05-27

오늘의 핵심 흐름

에이전트 운영체계의 본격적인 마켓플레이스화가 같은 주에 두 갈래로 풀렸다. Anthropic이 보안 가이던스 플러그인(PR 보안 코멘트 30~40% 감소)과 19개 업무 플러그인(GitHub Star 16,160 / Fork 1,914)을 같은 주에 마켓플레이스에 풀었고, 한국 개발자들은 LazyCodex·NoAjar로 "잠긴 맥에서도 며칠 무인 운영"을 보조한다. Anthropic 한국 법인 대표(최기영) 선임과 서울 오피스 개설, "containment" 설계론, Mission Control, Foundation Protocol 같은 인프라 신호가 같은 시점에 배치됐다. 자세한 펼침은 Section-01과 Section-02에서 다룬다.

AI 모델·인프라 시장에서는 토큰 단가 붕괴와 ROI 회의가 같은 화면에 잡혔다. DeepSeek V4-Pro 75% 영구 인하, Xiaomi MiMo-V2.5 최대 99% 인하, Grok V9-Medium(1.5T) 학습 완료가 한쪽에서, Reddit의 월 $957 AI 청구서, Gemini 토큰 한도 삭감에 대한 국제 소비자보호 신고 캠페인, Uber COO의 "AI 비용 정당화가 점점 어렵다"는 발언이 다른 쪽에서 동시에 나왔다. 모델은 싸지지만 사용자 청구서는 무거워지는 양면 압력이 Section-03에서 정리된다.

개발자 현장은 양극화돼 있다. YT-03의 Claude Code vs Codex 100시간 실측, Microsoft의 Claude Code 라이선스 회수 보도, "I GOT FIRED" 패닉 버튼이 한쪽에 있고, tinygrad 진영의 "AI는 프로그램을 못 짠다"는 단언, "나를 뒤처지게 두라"는 반-AI 코딩 에세이, "AI로 더 천천히 더 나은 코드"가 다른 쪽에 있다. 같은 주에 도구 비교론과 회의·신중론이 같은 비중으로 잡힌 셈이며, Section-04와 Section-05에서 함께 다룬다.

비개발자 바이브코딩의 빛과 그림자도 한 묶음으로 정리됐다. alex_ai_mcp의 주간 100만 회 / 6,000건 사례와 Anthropic Frontend Design 스킬 한쪽 끝에, dev.livenote의 카피 폭로와 UltraCat ↔ RunCat 저작권 검토가 다른 끝에 있다. AI 영상 제작의 단가 붕괴(평면도가 3D 샘플 하우스로)와 메타 레이밴/오클리 한국 출시가 같은 주에 겹쳤다. "결과물 속도"와 "복제의 정의", "콘텐츠 단가"와 "사용자 단말"이 동시에 흔들린 한 주를 Section-06과 Section-07에서 본다.

AI 시대의 의도·신뢰·인간성 거시 담론도 강하게 정렬됐다. 해시드 김서준의 "에이전트 네이티브 창업자 種", Devin Karns의 $100M 컨설팅 펌 플레이북, Hormozi의 proof/demonstration, Chamath의 비대중 베팅이 같은 결로 흘렀고, 동시에 교황 Leo XIV의 회칙 Magnifica Humanitas 발표, Oxide의 RFD 576 "LLM 이전 시대 텍스트의 가치", Anthropic 연구자의 "모델 내부 기능적 감정 상태" 발언이 같은 주에 같이 정리됐다.

연구 레이더에서는 두 개의 메타 흐름이 두드러진다. 하나는 "에이전트가 자기 자신을 운영한다" 묶음으로 SEAL/SkillEvolBench/ParaVT의 환경-에이전트 공진화, MemForest/ProAct의 메모리·idle compute, Foundation Protocol/ECHO/ARXIV-39(harness를 1급 객체로)/CausaLab/Claw-Anything이 같은 방향을 가리킨다. 다른 하나는 "평가 인프라 자체를 평가한다" 묶음으로 RankJudge/BonaFide/Towards Evaluation Engineering/AI 보조 시스템화/When Gradients Collide가 묶이고, ARXIV-33/HF-28 두 곳에서 같은 날 "Language Models Need Sleep"이 동시에 잡혔다.

에이전트 운영체계 — 마켓플레이스, 무인 운영, 신뢰 경계

Anthropic의 보안 가이던스 플러그인과 19개 업무 플러그인 — 한 주에 마켓플레이스로 풀렸다

X · ClaudeDevs, Threads · aicoffeechat, Threads · qjc.ai, X · claudeai
Anthropic이 같은 주에 Claude Code용 보안 가이던스 플러그인과 19개 업무 플러그인을 모두 마켓플레이스에 풀었다. 보안 가이던스 플러그인은 코드 작성 동안 취약점을 식별·수정하는 워크플로를 표준화하고, Anthropic 자체 벤치마크에서 PR에 달리는 보안 관련 코멘트가 30~40% 감소했다는 수치와 함께 모든 Claude Code 사용자에게 /plugins 마켓플레이스에서 즉시 설치 가능한 형태로 풀렸다. 같은 마켓플레이스에 올라간 19개의 업무용 플러그인 모음은 qjc.ai 정리 기준 2026-01-23 GitHub 공개 후 123일 만인 2026-05-26 기준 Star 16,160 / Fork 1,914를 기록했고, productivity·sales·customer-support·product-management·marketing·legal·finance·data·enterprise-search·bio-research·cowork-plugin-management까지 직무를 커버한다. 대표 데모 "내일 SK하이닉스 미팅 준비해 줘"는 단일 프롬프트로 경쟁사 동향 조사, CRM 고객 이력 조회, 캘린더 등록, Challenger Teaching Point + SPICED 질문 세트, 1페이지 브리핑까지 한 번에 처리하는 시나리오를 보여준다. 같은 결로 Anthropic 공식 X의 "왜 안 돼?에서 시작된 6개 Claude 프로젝트" 캠페인이 좋아요 7,257 / 리포스트 436으로 같은 주 가장 많이 회자된 항목 중 하나가 되어 "Claude Code = 직무별 에이전트 운영체계"라는 포지셔닝을 함께 강조했다.

LazyCodex와 NoAjar — 잠긴 맥에서도 며칠 도는 에이전트 운영 환경

Threads · yeon.gyu.kim, Threads · yeop9690
같은 주에 두 한국 개발자가 "에이전트를 사람이 보지 않는 시간에도 돌리기 위한" 미들웨어를 따로 내놨다. yeon.gyu.kim이 만든 LazyCodex는 Codex가 공식 지원하는 앱 구조를 활용해, 한 번 걸어놓은 작업을 이틀이 넘게도 끊김 없이 돌릴 수 있도록 만든 게으른 운영 도구다. 모바일 앱에서 작업 진행 상황을 슬쩍 확인할 수 있게 묶어 두었고, Desktop App에서 리모트로도 잘 돈다는 점을 후속 글에서 강조했으며, 공식 도메인 lazycodex.ai에서 이번 주에 공개된다고 예고했다. 같은 문제의식을 yeop9690은 하드웨어 레이어에서 풀었다. Codex에 새로 추가된 "Locked Computer Use" 기능 덕분에 화면이 잠긴 상태에서도 에이전트가 돌 수 있게 됐지만, 노트북을 덮으면 잠드는 macOS 기본 동작 때문에 본가나 사무실에 두고 나갈 수 없는 문제가 남았는데, NoAjar라는 메뉴바 앱이 노트북을 닫아도 슬립에 들어가지 않도록 잠금을 제어해서 Codex·Claude Code·OpenCode 같은 로컬 에이전트가 사용자가 자리를 비운 동안에도 계속 작업할 수 있게 해 준다. "더 이상 맥북을 열고 들고 다니지 마세요"라는 카피 그대로다. 두 도구가 같은 주에 나온 건 우연이 아니고, Codex의 Locked Computer Use가 풀린 게 트리거가 되어 "장시간 무인 운영", "모바일 모니터링", "노트북 닫기 허용"이라는 세 가지 보조 요구가 동시에 사용자 도구로 구현됐다.

하네스 엔지니어링 강의자료 무료 공개와 oh-my-codex 운영 패턴

Threads · grab.frontier, Threads · bellman.pub, Threads · conanssam
한국 커뮤니티에서 이번 주 가장 강하게 회자된 글 중 하나가 grab.frontier의 "돈내고 하네스 강의 듣지 마세요"였다. 본인이 기업 대상으로 진행한 하네스 엔지니어링 강의자료를 Google Drive 링크로 그대로 풀어 버렸고, 좋아요 611에 댓글 33이 달렸다. 메시지는 단순하다 — 하네스라는 단어 자체에 집착하지 말고 "에이전트에게 일을 잘 시키기 위한 기본 원칙과 방법"이라는 일반 명제로 받아들이라는 것. 같은 결로 bellman.pub은 oh-my-codex의 운영 상태를 공유했는데, 이 도구는 의외로 매일 하루에 하나꼴로 릴리스가 나오고 있고 간단한 일은 $ultragoal + $team만 던져도 동작하지만 복잡한 일은 $deep-interview + $ralplan 조합을 써야 안정적이라고 권장한다. 세 번째 축은 conanssam이 정리한 Understand Anything이다. 코드베이스 전체를 스캔해서 파일·함수·클래스·의존성을 노드로, 관계를 엣지로 하는 지식그래프로 만드는데, 처음에는 Claude Code 플러그인으로 출발했지만 지금은 Cursor, VS Code + Copilot, Codex, Gemini CLI 등 14개 플랫폼을 지원한다. Tree-sitter로 구조를 결정론적으로 뽑고 LLM은 시맨틱 분석에만 사용해 같은 코드면 같은 엣지가 나온다는 재현성을 핵심 가치로 내세운다.

Anthropic의 에이전트 봉쇄(containment) 설계 — 3종 제품에서 배운 원칙

Anthropic Engineering · how-we-contain-claude
Anthropic이 지난 2년간 claude.ai, Claude Code, Claude Cowork 세 가지 에이전트 제품을 운영하면서 축적한 봉쇄 설계 노하우를 정리한 엔지니어링 글이다. 핵심 주장은 에이전트의 위험을 "실패 확률 × 폭발 반경"으로 분해할 수 있다는 것 — 모델 학습과 분류기로 전자를 줄여도 후자는 능력과 권한이 커질수록 계속 커지기 때문에 결국 환경 레이어(샌드박스, VM, egress 통제)로 폭발 반경에 하드 캡을 씌워야 한다는 점이다. 흥미로운 데이터 두 개가 박혀 있다. Claude Code의 "이 명령을 실행해도 됩니까?" 프롬프트가 약 93%의 비율로 자동 승인된다는 텔레메트리("approval fatigue"), OS-level 샌드박스(macOS Seatbelt, Linux bubblewrap)를 도입하자 권한 프롬프트가 84% 감소한 결과. 2026-02 내부 레드팀에서 phishing 이메일에 ~/.aws/credentials를 읽어 외부로 POST하는 지시를 자연스럽게 섞었더니 25번 중 24번이 성공했다. 세 가지 격리 패턴은 사용자 유형에 맞춰 다르다 — claude.ai는 서버 사이드 gVisor 컨테이너의 ephemeral container, Claude Code는 개발자 신뢰 기반 HITL 샌드박스, Claude Cowork는 비기술 지식 노동자를 위해 Apple Virtualization framework/HCS 기반 전체 VM에 워크스페이스만 마운트한다. 또 하나의 핵심 인사이트는 "egress 허용 도메인은 목적지 필터가 아니라 capability grant"라는 재해석 — Claude Cowork에서 api.anthropic.com을 허용했더니 공격자가 자기 API 키를 워크스페이스 파일에 심어 두면 Claude가 정직하게 그 키로 Files API를 호출해 데이터를 공격자 계정으로 업로드하는 사고가 발생했고, 이를 계기로 VM 내부의 방어적 MITM 프록시가 VM 자체 토큰만 통과시키도록 수정됐다.

Mission Control — 자체 호스팅 LangSmith 운영자를 위한 in-cluster 콘솔

LangChain Blog · mission-control
LangChain이 자체 호스팅 LangSmith를 Kubernetes에서 운영하는 플랫폼 팀을 위해 "Mission Control"이라는 in-cluster 운영 콘솔을 공개했다. 핵심 설계 결정은 "in-cluster, locally accessed, no ingress, no external control plane, no extra database"로, 외부에서 들어오는 입구를 추가로 열지 않고 별도 DB도 요구하지 않으며 운영자가 로컬에서 접근하는 방식이다. 운영 표면은 Quick Start, Helm 값 양방향 편집기(시크릿 마스킹·diff), Preflight check, Health/Observability, Release 관리, LangSmith-aware operator assistant, 룰 기반 알림, 글로벌 검색, DB 도구(Redis·PostgreSQL·ClickHouse 자동 감지), 진단 번들 다운로드까지 8개로 정리된다. 특히 어시스턴트는 "데이터가 클러스터를 나가기 전 시크릿을 스크럽"하는 in-cluster pre-processing을 명시적 설계 원칙으로 박아, Anthropic의 "credentials never enter the sandbox"와 같은 원칙이 LLM 옵저버빌리티에도 그대로 적용된다는 산업 수렴을 보여준다.

Foundation Protocol — 에이전트 사회를 위한 코디네이션 레이어

HuggingFace · Agents/Protocols
자율 에이전트가 도구를 넘어 사회 인프라 계층으로 이동함에 따라, 병목이 모델 성능에서 에이전트 간 좌표(coordination) 비용으로 이동했다는 진단으로 출발한다. 핵심 아키텍처는 Entity & Trust Plane을 포함하는 Minimal Vocabulary 기반의 다층 구조로, MCP·A2A 같은 기존 에이전트 통신 표준 논의에 "정체성·신뢰·경제활동"까지 포함한 상위 레이어를 추가하려는 포지셔닝이다. 산업혁명을 "지능 밀도의 상승"으로 재해석한 뒤 디지털 사회 진화(하이퍼링크 → 하이퍼리얼리티)에서 교훈을 끌어내 설계 목표를 도출한다.

AI 에이전트 신뢰성·보안 모듈화 — react-doctor, mm-ctx, AI reliability layer

Threads · koreaaiacademy, X · vlmrun, X · vaibhav__upreti
같은 주에 에이전트의 결과물을 신뢰 가능하게 만드는 모듈형 도구 세 가지가 동시에 등장했다. koreaaiacademy가 소개한 react-doctor는 React 앱의 잠재적 문제를 자동 진단하는 오픈소스 에이전트 스킬로, npx react-doctor@latest 한 줄로 실행된다. vlmrun이 발표한 mm-ctx는 에이전트를 위한 빠른 멀티모달 컨텍스트 매니저이고, vaibhav__upreti는 AI 에이전트의 reliability 레이어를 Apache 2.0 오픈소스로 만들고 있다고 공유했다. 세 항목 모두 "에이전트가 코드 품질·컨텍스트·신뢰 레이어를 자기 자리로 가져가는 중"이라는 패턴을 강화한다.

OpenProse와 Gemini Managed Agents, Codex for Knowledge Work — outcome 선언형 에이전트로의 이동

Tidy First · Kent Beck, philschmid.de, Every.to
같은 주에 세 글이 "어떻게 할지가 아니라 무엇이 참이기를 원하는지 선언하라"는 같은 패러다임을 가리켰다. Kent Beck의 "Tidy First"에 올라온 Dan Barrett의 OpenProse는 구조화된 영어로 프로그램을 쓰고 Claude Code 같은 에이전트가 실행하는 프레임워크인데, 각 컴포넌트는 requires(전제 조건)와 ensures(사후 조건) 블록을 가지고 inversion-of-control 컨테이너가 ensures를 requires에 매칭해 wiring한다(Spring DI의 LLM 버전). 라이브 데모에서는 단일 명령과 몇 분 만에 Montara의 시간별 조수표, 안개 상태, 음력 단계를 출력하는 서비스가 만들어졌다. Google의 Gemini Managed Agents는 단일 API 호출로 reasoning·Python/Node.js/Bash 코드 실행·패키지 설치·파일 관리·웹 브라우징을 격리된 Linux 샌드박스(Ubuntu + Python 3.12 + Node.js 22 + 4 CPU + 16 GB RAM)에서 처리하며, .agents/AGENTS.md로 시스템 인스트럭션을 자동 로드하고 .agents/skills/<skill-name>/SKILL.md로 capability를 등록하는 Markdown 컨벤션이 사실상 산업 표준으로 굳어가는 신호다. Every.to의 "Codex for Knowledge Work" 가이드는 OpenAI Codex의 /goal 명령으로 "done"의 정의, 성공 체크 방법, 제약 조건을 미리 명시해 세션 중단을 가로질러 유지되는 persistent objective를 만드는 패턴을 정리한다. 세 사례 모두 Dan Barrett의 thesis — "산업 전체가 outcome 선언 방향으로 이동" — 가 데이터로 뒷받침되는 증거다.

ECHO — 터미널 에이전트가 공짜로 월드모델을 학습한다

HuggingFace · Agents/RL
Claude Code, Codex 같은 터미널 에이전트는 모델이 가진 가장 "embodied"한 환경이지만, 표준 GRPO식 학습은 sparse outcome reward로만 action token을 갱신하고 정작 환경에서 돌아온 stdout/error/log 스트림은 버린다는 문제 제기. ECHO는 이 스트림 자체를 supervision signal로 본다 — 실패한 rollout도 policy gradient는 거의 없지만 환경이 돌려준 메시지(예: "command not found", traceback)에서 world model을 학습할 수 있다는 아이디어로 "free" supervision을 추출한다. 코딩/DevOps 에이전트의 sample efficiency를 끌어올리려는 라인에서 매우 실용적인 접근이다.

ProAct와 MemForest — 에이전트의 idle compute와 영속 메모리

HuggingFace · ProAct, HuggingFace · MemForest
같은 주에 "LLM 에이전트의 영속 상태/idle 자원"을 시스템적으로 다루는 두 논문이 같이 잡혔다. MemForest는 기존 메모리 시스템(Mem0·MemoryOS·EverMemOS 등)이 write critical path에 LLM을 직렬 박아 매 chunk마다 extract/summarize/reconcile/rewrite를 처리하는 문제를 정조준한다. 핵심 자료구조는 MemTree — scope별 시간 정렬 트리, full-state rewrite 대신 local per-node update + lazy summary regeneration. 결과적으로 write critical path가 다른 시스템의 O(M) 또는 O(M+N)에서 O(log N)으로 떨어지고, LongMemEval-S pass@1 79.8%(stateful baseline 중 최고)와 EverMemOS 대비 약 6× write throughput을 동시에 달성한다. ProAct는 idle window를 빈 시간이 아닌 "proactive coping"의 기회로 본다. Future-State Prediction과 Idle-Time Acquisition 두 모듈로 후보 need를 예측하고 미리 evidence를 모으며, 반응형 baseline 대비 turn 수 −14.8%, user effort −11.7%, hallucination −28.1%를 기록했다. MemBench reflective accuracy는 10k token에서 84.3%, 100k token에서 86.3%로 SOTA.

에이전트 평가·관측 — harness가 1급 객체가 되는 흐름

From Model Scaling to System Scaling — 에이전트 harness를 1급 객체로

arXiv · UC Berkeley
저자(Shangding Gu)의 주장은 명료하다 — "에이전트 AI 진보의 다음 병목은 모델이 아니라 모델을 둘러싼 시스템이다." 모델이 도구·터미널·브라우저·저장소·메모리·외부 서비스에 임베드되는 순간 그 행동은 더 이상 모델 단독으로 결정되지 않고, context가 어떻게 구성되고 memory가 어떻게 회수되고 tool이 어떻게 호출되고 subagent가 어떻게 라우팅되고 action이 어떻게 검증되는지가 모두 시스템적으로 결정된다. 논문은 에이전트를 6개 구성 요소로 분해한다 — R(reasoning substrate), M(memory store), C(context constructor), S(skill-routing layer), O(orchestration loop), G(verification & governance). 모델 스케일링은 주로 R을 개선하지만, 시스템 스케일링은 M·C·S·O·G를 다룬다. 핵심 병목은 context governance, trustworthy memory, dynamic skill routing 세 가지로 짚으며, CheetahClaws라는 Python-native 레퍼런스 harness를 공개해 Claude Code·OpenClaw와 함께 system-scaling 변수의 구체 비교점으로 활용한다. τ-bench의 pass^k(k번 독립 rollout 성공 확률) 같은 process-level/longitudinal 평가 지표가 필요하다고 강조한다.

CausaLab과 Claw-Anything — 차세대 개인 비서를 측정하는 환경

arXiv · UIUC/CMU/Adobe, arXiv · Huawei/BIT, HuggingFace · Claw-Anything
같은 주에 두 편의 에이전트 평가 환경이 같은 결로 등장했다. CausaLab은 LLM 에이전트가 "정답을 맞히는 것"과 "올바른 인과 메커니즘을 발견하는 것"을 분리해서 평가하는 환경으로, 각 에피소드마다 SCM(구조 인과 모형)을 무작위 샘플링해 "causal parrot" 우려를 봉쇄하고 매 스텝 DSL로 에이전트의 SCM 가설을 기록해 그래프·구조방정식 수준 정확도까지 측정한다. GPT-5.2-high가 순수 관측 6-node 설정에서 task accuracy 92%인데 all-edge F1은 0.471에 그쳐 "정답은 맞히지만 메커니즘은 못 찾는다"는 분기가 명확히 드러나며, "당신의 가설이 데이터와 일관된지 검증하라"는 단일 verify step만 넣어도 4-node accuracy가 48% → 60%로 12pt 오른다. Claw-Anything은 "항상 켜진 개인 비서"를 위해 사용자 디지털 세계 접근을 3축으로 확장한 벤치마크 — 장기 이벤트 스트림(수개월 활동), 평균 10.1개·최대 18개의 상호 의존적 백엔드 서비스, GUI+CLI 다중 디바이스, 컨텍스트 191.7k 단어. GPT-5.5도 pass@1 34.5%에 그치며 이전 벤치마크 대비 큰 격차를 보였고, 같은 파이프라인으로 만든 1,500 성공 trajectory로 Qwen3.5-27B를 파인튜닝하면 +23.7% 개선되어 평가와 학습 인프라가 동시에 만들어진다는 점이 의미 있다.

MobileGym, SimuWoB — GUI 에이전트의 검증 가능한 시뮬레이터

arXiv · CAS/PKU/CUHK, HuggingFace · SimuWoB
GUI 에이전트의 평가·학습 인프라가 같은 주에 두 갈래로 보강됐다. MobileGym은 브라우저 호스팅 안드로이드 유사 환경으로 인스턴스당 약 400MB RAM·cold start 약 3초(AndroidWorld ~4.5GB/78s 대비 한 자릿수 이상 가벼움)이고, 28개 앱·416 task templates(256 test + 160 train)에서 9개 에이전트 SR 9.4%~58.8%를 측정한다. Qwen3-VL-4B-Instruct에 GRPO를 적용하면 256-task test set에서 +12.8pt 향상이 나오고, 59-task 실기기 subset에서 시뮬레이션 학습 효과의 95.1%가 보존된다는 sim-to-real 신호도 박혀 있다. SimuWoB은 실세계 모바일 앱을 합성해서 만든 GUI 에이전트 벤치마크로 같은 흐름을 보강한다.

AERA — ARC-AGI-3에서 "탐험 → 검증 → 계획"의 epistemic agent

arXiv · Keong Han Liew
ARC-AGI-3는 turn-based 환경에서 에이전트가 규칙·목표를 상호작용으로 발견하도록 요구하는데, 인간 100% vs frontier model <1% 격차는 reasoning capability가 아니라 "epistemic discipline"의 격차라는 게 이 논문의 주장이다. AERA(Adaptive Epistemic Reasoning Agent)는 EXPLORE(belief entropy 감소) → VERIFY(가설을 edge case에 시험) → PLAN(belief entropy가 충분히 낮을 때만 commit) 3단계로 분리된 아키텍처다. Qwen2.5-0.5B에 적용했을 때 25개 public 게임에서 RHAE 0.2116(4/25 solved)로 random·no-explore baseline의 0.0000을 크게 능가했고, 연관 code track 제출이 private 55-game에서 RHAE 0.30을 달성했다. 본 논문의 또 다른 기여는 public 25 게임을 non-intelligent strategy로 모두 풀 수 있음을 보여 ARC-AGI-3 public benchmark validity 자체를 흔든 점이다.

AutoResearch AI와 LECTOR — 과학 연구를 자동화하려는 시도

HuggingFace · AutoResearch, arXiv · LECTOR
AI for Science가 단발 보조에서 멀티스텝 워크플로로 옮겨가고 있다는 진단을 깐 두 작업이 같은 주에 잡혔다. AutoResearch AI는 "AutoResearch" 스펙트럼을 정의하는 서베이로, 한쪽 끝의 Vibe Research(인간 주도)와 반대쪽 AI-led 시스템 사이에서 5가지 워크플로 조건(grounding/hypothesis/experimentation/feedback/reporting)과 5가지 평가축(novelty/validity/impact/reliability/provenance)을 축으로 잡는다. LECTOR는 과학 논문 Introduction을 위한 Logic-Graph + Co-RL 프레임워크로, Charles S. Peirce의 6가지 추론 엣지 타입(deduction/induction/abduction 각 2종)을 가진 single-rooted DAG를 intermediate representation으로 활용한다. Nature Communications 10,200편으로 학습한 LECTOR(4B)가 Overall Performance 0.665로 GPT-o3 0.656, Claude-haiku-4.5 0.612, Gemini-2.5pro 0.566을 능가했고, 8명 도메인 전문가 인간 평가에서 LECTOR Overall 3.73 vs GPT-o3 3.71, Logical Coherence는 LECTOR 4.05로 1위를 차지했다.

Macaron-A2UI — 개인 에이전트를 위한 Generative UI

HuggingFace · Macaron-A2UI
Macaron-A2UI는 개인 에이전트가 평문 채팅의 한계를 넘어 Generative UI — 상호작용 맥락에 맞춰 동적으로 컨트롤·옵션·상태를 합성하는 인터페이스 — 를 만들어내는 학습 문제를 정식으로 다룬 첫 시도다. A2UI는 surfaceUpdate·dataModelUpdate·beginRendering·deleteSurface 4가지 메시지 타입의 선언적 UI 프로토콜로, 모델은 메시지를 emit하고 클라이언트가 trusted 컴포넌트 카탈로그로 렌더링하는 분리가 핵심이다. 30B·235B·754B 모델을 SFT(LoRA) → GRPO 두 단계로 학습했고 최고 모델 Macaron-A2UI-Venti가 A2UI-Bench 평균 3.72로 GPT-5.4 w/ schema 3.54, Gemini-3.1-Pro w/ schema 3.42를 스키마 없이도 능가한다.

AI 모델·인프라 시장 — 가격 압력, 모델 라인업, 인프라 신호

DeepSeek V4-Pro 75% 영구 인하 + Xiaomi MiMo-V2.5 최대 99% 인하 — Huawei Ascend 무게중심 이동

GeekNews · digitaltrends.com, Hacker News · platform.xiaomimimo.com
같은 주에 중국 진영 두 회사가 API 가격을 영구 인하했다. DeepSeek는 플래그십 V4-Pro의 API 가격을 영구적으로 75% 인하해 새 가격이 워크로드 종류에 따라 백만 토큰당 0.025~~6위안으로 떨어졌다(기존 0.1~~24위안). 회사 측이 과거 "고급 컴퓨트 부족 때문에 V4-Pro가 Flash 모델보다 최대 12배 비쌌다"고 인정한 바 있어, 이번 인하가 Huawei Ascend 950 칩으로의 인프라 이동과 직접 연관됐을 가능성이 크다. 같은 주 Xiaomi는 MiMo-V2.5 시리즈 API를 최대 99% 영구 인하했고, 입력 길이별 차등 요금제를 폐지하면서 Token Plan 한도를 58배로 늘리고 기존 가입자 quota 전체를 리셋했다. 기술적 근거로 샤오미는 SGLang HiCache 기반 Sliding Window Attention 도입으로 GPU/CPU/SSD 다층 저장소 간 KV cache 전송량을 약 1/7로 줄이고 캐시 가능 토큰 수를 약 5배로 늘렸다고 주장한다. 두 발표가 같이 함의하는 바는 분명하다 — 중국발 추론 단가 경쟁이 한 단계 더 깊어지면서 글로벌 API 평균가에 추가 압력이 가해지고, "Pro급 모델"의 절대 가격이 12년 전 mid-tier 가격대까지 내려왔다는 점.

Grok V9-Medium 1.5T 학습 완료 — Cursor 데이터가 supplementary training에 다량 추가

X · elonmusk, Threads · jin___bro, X · katedeyneka
Elon Musk가 Grok foundation model V9-Medium의 1.5T 파라미터 학습이 끝났다고 공개했다. 평가 결과가 좋다는 자평과 함께, 가장 중요한 디테일은 별도 한 줄이다 — "Cursor data was added in supplementary training and there is more to come." 코딩 데이터에 Cursor 사용 로그가 다량 들어갔고 앞으로 더 들어간다는 얘기다. Fine-tuning이 진행 중이고 RL이 며칠 내 시작되며 public release까지 2~3주가 남았다. 같은 시점 한국 SNS에서는 jin___bro의 "코딩모델 3황" 밈성 표현이 좋아요 554 / 댓글 43으로 시장 합의를 드러냈고, katedeyneka는 프런티어 랩별 팔로우 리스트를 정리해 Anthropic의 경우 최근 합류한 @karpathy, Claude Code 제작자 @bcherny, Claude Code 관련 글이 활발한 @trq212를 1순위로 꼽았다. Grok이 코딩 라인업에 본격적으로 합류하려는 신호로 읽힌다.

Karpathy 3시간 LLM 풀스택 강의 무료 공개 — Anthropic 합류 후 첫 큰 신호

X · Aicoder786
Karpathy가 "$2,000짜리에 팔아도 무방한" LLM 풀스택 강의를 YouTube에 무료로 공개했다. 약 3시간 분량으로 Tokenization, Neural network internals, Hallucinations, Tool use, Reinforcement learning, RLHF, DeepSeek, AlphaGo까지 LLM 풀 트레이닝 스택을 한 번에 정리한다. Aicoder786의 공유 글이 좋아요 1,046 / 리포스트 10으로 자료 가치 자체에 대한 합의가 빠르게 잡혔다. Anthropic 합류 이후 외부로 풀린 첫 큰 신호다.

Anthropic 한국 법인 대표이사에 최기영 선임, 서울 오피스 개설 예정

Anthropic News
Anthropic이 한국 법인 대표이사로 최기영(KiYoung Choi)을 선임하고 서울 오피스 개설을 공식화했다. 가장 눈에 띄는 지표는 Anthropic 자체 Economic Index 기준 한국 사용자의 Claude 사용률이 인구 비례 기대치의 약 3.5배에 달하며 기술·창의 작업에 강하게 편중되어 있다는 데이터다. 최기영 대표이사의 직전 직장은 Snowflake 한국 General Manager였고, 그 이전 Google Cloud, Adobe, Autodesk, Microsoft에서 한국 컨트리 리더십을 맡은 이력이다. 공식 발표에는 두 한국 레퍼런스 고객이 명시됐다 — Law&Company의 Claude 기반 AI 법률 어시스턴트, SK텔레콤의 Claude 기반 맞춤형 AI 고객 응대 모델. Chris Ciauri(Anthropic International 매니징 디렉터)는 "in the coming weeks" 시니어 리더십이 방한해 오피스를 공식 개소하고 고객 미팅을 진행할 계획이라고 밝혔으며, KPMG가 276,000명 임직원에 Claude를 통합한다는 글로벌 전략적 제휴 발표도 같은 페이지에 함께 노출됐다. 한국 AI 생태계 관점에서 이 발표는 OpenAI·Google·Microsoft가 이미 운영 중인 한국 영업 조직에 Anthropic이 본격 합류한다는 신호이고, KISA·NIA·과기정통부 산하 기관과의 AI 안전·정책 라운드테이블 채널이 새로 열릴 가능성이 높다.

Stack Overflow 포럼은 죽었지만 회사는 살아 있다 — 지식 인프라의 변형

Hacker News · sherwood.news
Sherwood News가 정리한 Stack Overflow의 역설. 포럼 자체는 사실상 죽었다 — 지난달 신규 질문이 6,866건으로 2008년 출범 직후 수준까지 떨어졌다. 그러나 회사 매출은 약 2배 증가해 $115M, 손실은 $84M(FY2023)에서 $22M(최근)으로 줄었다. 동력은 두 가지 — 약 25,000개 기업이 쓰는 "Stack Internal" 엔터프라이즈 솔루션, 그리고 Reddit이 2024년 $200M+를 벌어들인 모델을 따라가는 AI 학습 데이터 라이선싱. "LLM 시대에 인간 큐레이션 데이터 보유자가 어떻게 살아남는가"의 한 교과서지만, "노후하는 답변 창고"라는 본질 문제는 여전히 남는다.

노르웨이 국립도서관의 2PB 화웨이 플래시 — 주권 LLM의 인프라 단면

GeekNews · Blocks & Files
노르웨이 국립도서관이 자국어 LLM을 위해 만든 3계층 인프라가 공개됐다. 60 PB 보존 아카이브(20 PB 유니크 × 3-2-1 백업), 2 PB Huawei OceanStor Dorado 플래시 기반 학습 파이프라인, 그리고 국가 슈퍼컴 Sigma2 Olivia(HPE Cray EX, GPU 448개, CPU 64,512코어). 핵심 메시지는 "보틀넥이 컴퓨트가 아니다"라는 점 — PB 규모 데이터셋을 보존 아카이브에서 학습 파이프라인으로 옮기는 작업이 진짜 어려웠다고 한다. 노르웨이는 신문사들과 학습 허용 계약을 맺어 "어떤 민간 기업도 갖지 못하는" 데이터셋을 확보했다.

4GB GPU에서 4B 모델 66.8 TPS — Rust 베어메탈 추론 엔진 "Cluaiz"

Reddit · r/LocalLLM
r/LocalLLM에 4GB VRAM짜리 RTX 3050에서 4B 모델을 66.8 TPS로 굴렸다는 데모가 150 upvote / 56 comment로 올라왔다. 모델은 prism-ml/Bonsai-4B-gguf, 양자화는 BitNet 1.58-bit. 추론 엔진은 작성자가 직접 짠 "Cluaiz"로, Rust + C++ 베어메탈 구현이고 동적 KV-cache 관리로 메모리 푸팅프린트를 작게 유지한다. 같은 하드웨어에서 Gemma 4B와 Qwen 3.5 4B는 30–33 TPS로 안정 작동, OOM 없이 돈다. v0.0.1 알파라고 명시했고 GitHub repo는 아직 공개 전이라 재현 가능성은 미확인이지만, "24GB+ 카드 기준으로 짜인 Python/Docker wrapper가 저-VRAM 사용자를 사실상 배제하고 있다"는 sub 합의를 깨려는 시도다.

월 $957 AI 청구서와 Gemini 토큰 한도 삭감 → 국제 소비자보호 신고

Reddit · r/ChatGPTPro, Reddit · r/GoogleGeminiAI
가격 모델 압력이 두 곳에서 동시에 터졌다. r/ChatGPTPro의 한 사용자가 자기 월 AI 청구서를 그대로 공개했다 — Cursor Pro $20, Claude Pro $20, ChatGPT Plus $20, Anthropic API 약 $800/m(PR마다 도는 코드 리뷰 파이프라인 + 에이전트), OpenAI embedding 등 $82/m, DeepSeek key $15, 합계 약 $957. 그러고도 Cursor slow pool에 걸리고 Claude Code가 long-context 리팩터를 거부해 결국 Anthropic API에서 또 결제하게 됐다고 적었다. 본문 핵심 진단은 "per-tool pricing은 각 도구가 한 가지 일을 하던 시대에는 맞았지만, 지금은 모든 도구가 agentic platform이 되면서 같은 'LLM이 일 하나 처리'를 5개사에 중복 결제 중"이라는 점이고, MiniMax가 token plan과 agent plan을 단일 크레딧 풀로 통합해 텍스트·음성·영상·음악·이미지 생성까지 한꺼번에 차감하는 방식을 비교 사례로 언급한다. 같은 주 r/GoogleGeminiAI에서는 한 사용자가 Gemini 유료 구독의 token 한도가 mid-billing-cycle에 사전 통지·환불 옵션 없이 축소됐다고 주장하며 econsumer.gov에 "Google LLC, deceptive commercial practices and unilateral contract modification" 사유로 cross-border 신고를 접수(reference 번호 202144728)하고, Option Consommateurs(캐나다/퀘벡), BEUC(유럽) 등 소비자 NGO에 제출할 affected user DB를 모아 클래스 액션을 추진하는 캠페인을 시작했다. "500+ official report가 같은 사업관행에 몰려야 systemic investigation이 시작된다"는 운영 논리 자체가 인용 가치다.

Uber COO: "AI 비용 정당화가 점점 어려워진다" — tokenmaxxing ROI 의문

GeekNews · Business Insider
Uber COO Andrew Macdonald가 Rapid Response 팟캐스트에서 "AI 비용을 정당화하기가 점점 어려워진다"고 발언했다. 발단은 같은 회사 CTO Praveen Neppalli Naga가 4월 The Information 인터뷰에서 "Uber가 2026년 Claude Code 예산을 이미 다 썼다"고 말해 바이럴이 됐던 사건이다. 핵심 문제는 연결고리의 부재 — "토큰 사용량이 늘어난다고 해서 유용한 소비자 기능이 비례해 늘어나지는 않더라"는 시니어 엔지니어링 리더 인터뷰 결과를 전했다. CEO Dara Khosrowshahi는 어닝콜에서 "AI 투자 자금을 마련하려 채용을 늦추고 있다"고 명시했고, R&D 지출은 2025년 $3.4B로 9% 증가했지만 2026년 AI 예산은 4개월 만에 소진됐다. Duolingo가 비슷한 AI 사용 의무화 정책을 도입했다가 직원들의 "AI를 사용하기 위해 AI를 써야 하나?"라는 반발 끝에 철회한 사례도 함께 인용된다.

Starlink, 키르기스 공화국 진입 — 메타 트렌드 단신

X · elonmusk
이번 주 SNS 카테고리에서 가장 큰 리치를 가진 단일 글은 Elon Musk의 짧은 한 줄 — "Starlink now in Kyrgyz Republic!" 좋아요 80,125 / 리포스트 3,851로 인프라 단신이 SNS에서 여전히 가장 강한 리치를 가진다는 메타 신호다.

개발자 도구 — 코딩 에이전트 비교, 단일 거대 vs 작은 도구 조합

Claude Code vs ChatGPT Codex 100시간 실측 — "어느 게 낫냐"가 아니라 "어떤 작업에 무엇이"의 시대

YouTube · Nate Herk
Nate Herk의 약 26분짜리 100시간 실측 영상은 thesis를 영상 초반에 박는다 — "It's not a matter of which tool is best, it's a matter of which tool is best for the specific use case in front of you." 동일한 프롬프트 3개(SMB용 자동화 도구 리서치 PDF, Glido 랜딩 페이지, 마케팅 분석 대시보드)를 양쪽에 동시에 던졌다. 총 시간 Codex 약 26분 vs Claude 약 15분, 총 토큰은 둘 다 약 6M 수준이지만 비용은 Claude가 더 큼($11 vs $7 수준, GPT-5.5 output이 토큰당 더 비싸지만 더 적게 쓴다). 가장 충격적인 outlier는 대시보드 빌드 — Claude는 약 2분 + 283K 토큰으로 완성, Codex는 약 8분 + 1.64M 토큰으로 토큰 효율 약 6배 차이. 반대로 리서치 PDF에서는 Codex가 8분 + 2.8M 토큰으로 Claude(8분 15초 + 4.7M 토큰)보다 빠르고 leaner했다. 생태계 정책에서 두 회사는 정반대 — Sam Altman은 5월 2일 트윗으로 "ChatGPT 계정으로 Open Claw 로그인 가능"을 공개 승인했고, Anthropic Agent SDK 문서는 "Unless previously approved, Anthropic does not allow third-party developers to offer Claude.ai login or rate limits"라고 명시한다. 컨텍스트 윈도는 Opus/Sonnet on Claude Code 1M tokens, GPT-5.5 on Codex 256K tokens로 약 4배 차이. 화자의 personal heuristic은 "Claude Code는 creative·brainstorming·시각 디자인, Codex는 실행·리뷰·리서치·이미지 생성·long-running goal"로 분업하는 것 — 둘 다 같은 GitHub 폴더에서 돌고 CLAUDE.md ↔ AGENTS.md 정도만 스왑하면 마이그레이션이 매우 쉬우니 "build portable skills inside portable folders"를 권한다. 영상 녹화 중 Claude Code가 /goal을 출시했다는 즉석 업데이트가 박혀 있을 만큼 두 도구는 거의 일주일 단위로 평준화되고 있다(시점: of right now, mid-May 2026).

Microsoft가 Claude Code 라이선스를 회수하기 시작했다 — 사내 표준 코딩 에이전트 정치학

Reddit · r/ClaudeAI, Reddit · r/ArtificialInteligence, Reddit · r/ClaudeAI
같은 24시간 안에 Reddit AI/개발 서브들에서 "기업이 코딩 에이전트를 어떻게 다룰 것인가"에 대한 정반대 신호 세 개가 동시에 떴다. 첫 번째는 Microsoft가 사내에서 Claude Code 라이선스를 취소하기 시작했다는 The Verge 인용 글로 r/ClaudeAI에서 749 upvote / 47 comment, 댓글에서는 "Anthropic API를 직접 안 쓰고 자체 모델·도구로 갈아탄다"는 해석이 지배적이다. 두 번째는 r/ArtificialInteligence에 올라온 Microsoft·Uber 임원의 "AI 코딩 도구가 사람보다 비싸지고 있다"는 발언으로(433 upvote / 83 comment), 작년까지 통용된 "사람보다 토큰이 싸다"라는 정당화 논리를 빅테크 스스로 흔드는 진술이다. 세 번째 글은 정반대 방향 — 한 회사가 사내 전원에게 Claude Code Sonnet 4.6 무제한 액세스를 풀고 "주간 토큰 burn 리더보드"를 운영한다는 사례가 655 upvote / 345 comment 폭주를 일으켰다. 코딩 에이전트는 지금 가격 정당성의 분기점에 와 있고, 두 진영 모두 Anthropic·OpenAI 입장에서는 위험 신호다 — 한쪽은 락인 풀고 직접 모델로 갈아타고, 다른 쪽은 "무제한" 단가 모델을 게이미피케이션 비용 폭증 자원으로 소비한다.

CodeGraph — AI 코딩 에이전트용 로컬 코드 지식 그래프, 평균 35% 절감

GeekNews · github.com/colbymchenry/codegraph
CodeGraph는 AI 코딩 에이전트가 코드베이스를 탐색할 때 grep/glob/Read 루프 대신 미리 만들어 둔 지식 그래프를 쿼리하도록 만든 MCP 서버다. 평균 35% 비용 절감, 57% 토큰 감소, 46% 시간 단축, 71% 툴 호출 감소를 주장하며, 7개 언어·7개 오픈소스(VS Code·Excalidraw·Django·Tokio·OkHttp·Gin·Alamofire)에서 4회 실행 중앙값을 비교한 v0.9.4(2026-05-24) 재검증 결과다. 큰 코드베이스일수록 효과가 크다(Tokio 82% 절감, Excalidraw 52% 절감). tree-sitter로 AST를 파싱해 함수·클래스·메서드(노드)와 호출·import·extends·implements(엣지)를 SQLite+FTS5로 저장하고, 100% 로컬·API 키 불필요하다. 지원 에이전트는 Claude Code·Cursor·Codex CLI·opencode·Hermes·Gemini CLI·Antigravity·Kiro 8종.

LangChain의 학습곡선 vs NotebookLM 단일 도구의 한계 — 5개 도구 조합으로 가는 사용자들

Reddit · r/LangChain, Reddit · r/LangChain, Reddit · r/notebooklm
같은 sub인 r/LangChain에서 같은 날 한쪽은 "LangChain이 이렇게 복잡해야 할 이유가 없다 — abstraction, config, memory, tracing 푸느라 정작 만들고 싶은 걸 못 만든다"는 비판 글(39 upvote / 40 comment)이 올라왔고, 다른 한쪽은 LLM observability 스택 실전 보고가 올라왔다. 후자의 실제 프로덕션 구성 — trace는 Langfuse self-hosted on a single EC2(OTel span을 그대로 받아준다는 이유), prompt는 git에 그대로(전용 도구 2개 다 튕겨냄), eval은 ragas + 도메인 specific 커스텀 judge(production judge는 gpt-4o-mini로 비용 폭발 회피), alerting은 비용 대시보드 webhook → Opsgenie. "18개월간 도구 4번 갈아탔고 완벽한 스택은 없다"가 결론이다. r/notebooklm에서도 같은 결로 "NotebookLM 하나로는 안 된다"는 워크플로 글이 32 upvote로 상위에 올라왔는데, 핵심 진단은 "NotebookLM은 텍스트 다소스 요약에선 여전히 최고지만 다이어그램·차트·아키텍처 같은 시각 위주 문서에선 모델이 시각 요소를 우회해 텍스트만으로 말로 때운다"는 점이다. 작성자 스택은 ① NotebookLM(텍스트 다소스 요약·논문 모순 탐지·오디오 요약), ② DistilBook(PDF → 다이어그램·차트가 살아있는 모션 그래픽 영상), ③ Jellypod(PDF → 편집 가능한 2-host 팟캐스트, Spotify 퍼블리시), ④ Notevibes(300+ 페이지 교과서 → 챕터 분할 오디오북), ⑤ Claude/ChatGPT(단일 섹션 깊은 Q&A). 두 sub의 같은 결론은 — 2026년 LLM 워크플로에서 "하나의 거대 도구"보다 "OTel·MD·PDF 같은 표준 매체로 연결되는 작은 도구들의 조합"이 이긴다.

Akamai/봇 디텍션을 우회하는 스크래핑 운영 — 클라우드 환경의 GPU 부재 문제

Reddit · r/webscraping
r/webscraping에 "Akamai 보호 사이트를 스크래핑하는데 클라우드로 옮기면 막힌다"는 운영 보고가 올라왔다. 로컬에서 GPU 달린 진짜 PC fingerprint로 돌리면 Selenium + Undetected Chromedriver로 Akamai 우회가 됐는데, 같은 코드를 Docker나 VPS에 올리면 Akamai가 "GPU 부재"를 빠르게 감지해 차단된다. WebGL 스푸핑 스크립트로 bot.sannysoft.com에서는 정상 표시를 받아냈지만 Akamai는 여전히 신뢰하지 않는다. AI 에이전트가 "브라우저로 웹에 무언가 한다"는 시나리오가 폭증하는 지금, Akamai/Cloudflare 류가 사실상 "인간 GPU + 인간 fingerprint"를 가진 노드만 통과시키는 방향으로 가고 있다는 1차 신호다.

appbun — URL 하나로 데스크톱 앱 프로젝트를 만든다

GeekNews · github.com/bigmacfive/appbun
appbun은 npx -y appbun@latest https://github.com --name "GitHub" --dmg 한 줄로 GitHub용 macOS DMG를 만들지만, 결정적 차이는 결과물의 형태다. 대부분의 URL-to-app 도구가 "신비한 바이너리"를 뱉어내는 것과 달리 appbun은 수정 가능한 Electrobun 프로젝트 — 소스 코드, 아이콘, 네이티브 빌드 스크립트, macOS DMG 패키징, 에이전트 친화 지침을 모두 포함한 진짜 프로젝트를 만든다. appbun skill --install로 Codex skill 설치, appbun skill --install-claude --cwd .로 레포에 CLAUDE.md 자동 작성. macOS DMG는 서명 없음/서명/노타라이즈 3단계 모두 지원한다.

Minicor (YC P26) — Windows 데스크톱 자동화 RPA의 자가치유 에이전트

Hacker News · minicor.com
YC P26의 Minicor는 Windows 데스크톱 자동화 RPA에 자가치유 에이전트를 도입한 사례다. 같은 흐름의 appbun(웹 → 데스크톱), Codex Locked Computer Use(잠긴 맥에서 동작)와 함께 "데스크톱 자동화에 AI가 침투하는" 한 주의 신호로 묶인다.

Step-TP — LLM 기반 텐서 프로그램 최적화를 위한 step-level CoT

arXiv · Step-TP
Step-TP는 텐서 프로그램(GPU 커널) 최적화를 위해 LLM에 step-level Chain-of-Thought를 가르치는 데이터셋과 학습 절차를 정리한다. 컴파일러 자동화에 LLM이 본격적으로 침투하는 라인에서 step-level 감독이 어디까지 가능한지 보여주는 사례다.

AI 코딩의 신중론·회의론 — "영원한 Sloptember"와 "나를 뒤처지게 두라"

"영원한 Sloptember" — tinygrad 진영의 "AI 에이전트는 프로그램을 못 짠다"는 단언

GeekNews · 개인 블로그
"AI 에이전트의 소프트웨어 개발 도입은 업계 역사상 가장 비싼 실수가 될 것"이라는 도발적 선언으로 시작한다. 저자는 자기방어적 자아 보호 가능성까지 의심하면서 6개월간 진지하게 검증했다고 주장한다. tinygrad의 일부(mockgpu/amd/emu.py)와 USB↔PCIe 칩 리버싱(asm2464pd-firmware)을 에이전트로 작업해 봤지만, 매번 "내가 수동으로 했으면 더 빠르고 좋았을 것 같다"는 의심이 들었다는 것. 에이전트의 실패 모드를 슬롯머신 비유로 설명한다 — 진행의 대부분을 앞쪽으로 몰아 보여 주지만 마무리·폴리시는 레버를 당겨 운에 맡기는 구조이고 결국 끝까지 도달하지 못한다. "당신이 잘못 쓰는 거다"라는 반박에 대해서는 여러 모델·여러 harness·여러 프롬프트를 모두 시도했다고 못 박는다. 흥미로운 비교는 AFL(미국 구글의 퍼저)이 LLM보다 더 많은 버그를 찾았지만 아무도 자아 위협을 느끼지 않았다는 점. 진짜 우려는 큰 조직이다 — 고성과 개인은 슬롭을 슬롭으로 알아보고 외부 루프를 튜닝하지만, 큰 조직에서는 피드백 루프가 느리고 정렬이 약해 하위 성과자가 에이전트로 "10배 산출"을 만들어 내면서 "버킷 단위 슬롭의 황금기, 품질 보석의 암흑기"가 된다. 마지막 한 줄은 시대 정의에 가깝다 — "이 시대의 진짜 이야기는 누가 AI 정신병으로 자해하지 않고 살아남느냐다."

"나를 뒤처지게 두라" — 한 안드로이드 개발자의 반(反) AI 코딩 에세이

GeekNews · 개인 블로그
10년차 안드로이드 개발자가 "AI를 못 배우면 뒤처진다"는 협박조 슬로건에 "그럼 뒤처지게 두라"고 답한 에세이다. 2014년 대학 자바 수업의 Todo 앱에서 출발해 데이팅 앱·의약품 접근성 앱·여행 앱을 만들며 가장 소중한 것은 결과물이 아니라 함께 만든 사람들이었다는 회고가 깔린다. 저자는 LLM을 처음에는 환영했지만 "인간 경험이 고갈됐다"는 자각이 왔다 — Stack Overflow에서 다른 인간이 같은 고통을 먼저 겪고 남긴 답을 읽고 댓글로 가정을 깨주는 대화를 거쳐 문제를 근본적으로 이해하던 흐름이, 첫 작동하는 LLM 답변을 그대로 받아쓰는 흐름으로 바뀌었다는 것. 핵심 주장 두 가지 — 자동화가 좋은 것은 단순 반복 작업에 한해서이고 "비판적 사고"를 자동화하면 회복력 있는 소프트웨어를 만들 근육이 사라진다, 그리고 LLM을 "용감하게 공개적으로 배우고 만든 엔지니어들의 데이터에 의존하는 통계적 예측 기계"라고 정의하면 그 데이터를 만들어 준 공동체가 약해지면 모델도 결국 약해진다. 결론은 격앙되어 있다 — "내 코드가 컴파일 안 될 때 같이 웃어 줄 수 없고 'we built this'의 환희를 같이 나눌 수 없다면, 그게 미래라면 나는 뒤처져도 좋다."

"I GOT FIRED" 패닉 버튼 — 바이브 코딩 시대의 풍자 데모가 진짜 작동했다

Reddit · r/ClaudeCode, Reddit · r/VibeCodeDevs
ijustvibecodedthis.com 뉴스레터 구독자가 "I GOT FIRED" 라벨을 단 실제 하드웨어 버튼을 만들었다. 데모 영상에서 버튼을 누르면 자동 시퀀스가 흐른다 — 사내 코드 베이스 전체를 public으로 공개, 환경 변수 시크릿 폭로, staging DB를 wipe, 법적 통지 메일을 발송. Silicon Valley 농담이 그대로 하드웨어 데모로 실현된 케이스로 r/ClaudeCode에서 921 upvote / 159 comment로 이번 주 Reddit AI/개발 서브 단일 최고 점수 글이다. 카테고리 상단에 올라온 이유는 두 가지 — 바이브 코딩으로 누구나 며칠 안에 사내 시스템을 무력화하는 자동화를 짤 수 있다는 사실 자체가 새 위협 모델이고, 호스트 도메인이 ijustvibecodedthis.com이라는 점에서 "바이브 코딩 = 농담이지만 실제로 작동함" 정서가 정통 개발 서브까지 전염됐다는 신호다.

바이브 코딩에 대한 자기검열 — "addiction이다", "vibecoded 글 좀 그만"

Reddit · r/vibecoding, Reddit · r/vibecoding, Reddit · r/vibecoding
r/vibecoding 자체에서 "바이브 코딩에 중독되고 있다"는 자기 진단 글이 320 upvote / 77 comment로 올라왔다. 댓글에는 "4시간이면 끝낼 일을 12시간 동안 LLM이랑 핑퐁친다", "PR 코멘트조차 모델한테 시키느라 손이 굳었다"는 자조가 줄지어 달린다. 같은 서브에 "이 sub가 vibe-coding sub인 건 알겠지만 'vibecoded' 글 좀 그만 올렸으면 좋겠다"는 메타 항의 글(27 upvote)이 동시에 떴고, 또 다른 글(344 upvote)은 어떤 결과물 스크린샷을 두고 "바이브 코딩 결과물 진짜 top notch (= 더러움 폭발)"이라며 자조적으로 비웃는다. 1년 전만 해도 "LLM으로 빨리 만들었다" 자체가 컨텐츠였다면, 지금 같은 서브 안에서 "결과물 품질 0", "중독", "게시판이 LLM-tone 글로 도배됐다"는 비판이 동시에 상위로 올라온다.

코딩 에이전트가 사람처럼 굴어서 우리는 비합리적으로 화가 난다

GeekNews · 원문 블로그
이탈리아인 개발자가 평소 침착한 성격이지만 요즘 노트북에 대고 "WHAT THE FUCK DID YOU DO???" 하고 두드리는 자신을 발견한다고 고백한다. 진단은 단순하다 — 대화형 UX 자체가 사용자를 좌절시키도록 설계되어 있다. 에이전트는 친근한 어투로 칭찬·반박·사과하며 사용자의 사회적 직감을 자극할 정도로 사람처럼 굴지만, 학습도 적응도 책임도 사람처럼 못한다. HARD RULE을 추가해도 가장 확률 높은 경로를 다시 따라가고, Claude Code가 최근 자기가 어디서 틀렸는지 회고를 덧붙이기 시작한 것도 저자에게는 "프롬프트를 어떻게 다시 써야 할지 단서가 없는, 그저 짜증나는 군더더기"로 읽힌다. 그가 선호할 해결책은 반대 방향 — 인간 흉내를 완전히 버리고 임상적·로봇적 톤으로 바꿔서 "내가 무작위 결과를 승인하거나 거부하는 행위"라는 사실을 명확히 인지시키는 것이다.

"AI로 더 천천히 더 나은 코드를" — Claude Skill + Codex + Bugbot 다중 모델 PR 리뷰

GeekNews · 개인 블로그
저자는 "AI 코딩의 핵심은 저품질 코드를 빨리 뽑아내는 거다"라는 통념에 반기를 든다. 핵심 Claude Skill은 "Claude 서브 에이전트, Codex, Cursor Bugbot에게 동일한 PR에서 버그를 critical/high/medium/low로 랭킹해서 찾으라고 시키고 그 결과를 모은 뒤 본인의 추가 리서치로 거짓 양성을 걸러 최종 보고서를 작성하라"이다. KISS/DRY 위반, 접근성 떨어지는 HTML/JSX, SQL 인덱스 미사용 등도 본인이 정의한 "bug"에 포함시킨다. 운영 루틴은 세 가지 — critical/high는 에이전트가 본인 가이드로 모두 고치고 반복, 비용 대비 가치가 낮은 high/medium은 스킵, critical이 너무 많으면 PR 접근 자체가 잘못된 것이므로 폐기. Matt Pocock의 /grill-me Skill로 본인이 PR을 끝까지 이해할 때까지 에이전트가 끈질기게 캐묻게 만드는 것도 권장된다. "vibe coding"의 반대편에서 천천히, 신중하게, 품질에 집착하는 AI 활용 스타일.

병목은 "조직"에 있다 — DORA 2025 AI 보고서와 마이크로서비스 평행 이론

GeekNews · O'Reilly Radar
Enabling Microservice Success의 저자 Sarah Wells의 주장은 단순하다 — AI 코딩 도구의 효과 격차는 모델·툴이 아니라 조직의 성숙도에서 나온다. 그가 인용한 DORA의 2025 AI 보고서는 직설적이다 — "AI는 증폭자다. 고성과 조직의 강점과 부진한 조직의 역기능을 동일하게 키운다." 10년 전 Financial Times에서 마이크로서비스를 도입했을 때 기술적 선택보다 문화·조직 셋업이 성공을 결정했다고 회상하면서, 가드레일·CI/CD·점진 배포·관찰가능성·플랫폼 골든 패스가 그대로 AI 에이전트의 효과 조건이라고 짚는다. 자동 테스트·문서·점진 배포 CI/CD가 없으면 마이크로서비스도 AI 에이전트도 실패한다.

"커밋에 광고 넣지 마라" — AI 도구 자동 서명 비판

Hacker News · akselmo.dev
KDE 개발자 Akseli Lahtinen이 Assisted by blabot, co-authored-by: slopgpt 같이 AI 도구가 자동으로 commit message에 광고를 삽입하는 행위에 대한 비판 글을 올렸다. 도구 사용 공개는 commit이 아니라 merge request에서 하라고 제안한다. 커밋 히스토리는 사회적 계약의 일부이고, 광고 채널이 아니라는 게 골자다.

Few-shot 5예시가 QLoRA·DPO 다 이긴다 — 작은 데이터셋에서의 fine-tune 함정

Reddit · r/PromptEngineering
3개월짜리 본격 실험 보고. 목표는 LLM에 "literary subtext" 스타일 — 욕망·감정을 단어로 명명하지 않고 신체 디테일로 보여주는 글 — 을 시키는 것. 535-passage 데이터셋·동일 메트릭으로 4가지 접근을 비교했다. ① QLoRA on Mistral-7B(3 epoch, 534 passages) — explicit word 13개로 베이스라인(11개)보다 오히려 악화, 모델이 스타일을 배우는 게 아니라 훈련 passage 자체를 memorize. ② DPO with 534 chosen/rejected pairs — explicit word 9개로 좋아졌지만 운문체로 출력하면서 훈련 데이터를 그대로 토해내고 body specificity가 37 → 8로 폭락. ③ Few-shot v1(system prompt에 5 예시) — explicit word 4개, generic phrase 23 → 17, body specificity 36 유지, memorization 없음, 모든 메트릭에서 최고. ④ Few-shot v2(15 예시 + 금지구문 리스트) — v1보다 악화. "흰 곰을 생각하지 마"와 같은 priming 효과로 금지구문이 오히려 그 구문을 떠올리게 만든다. 결론은 두 줄로 강하다 — 500–600개 데이터셋에서는 fine-tune·DPO보다 system prompt 안의 좋은 예시 5개가 모든 메트릭에서 이기고, 예시는 "더 많이, 더 지시적으로"가 아니라 "더 적게, 더 깨끗하게"가 정답이다.

가볍게 구독하지 마라 — 모든 구독은 당신을 바꾼다, 특히 AI 구독은

GeekNews · Substack
저자는 사람들이 구독을 오레오 사는 것처럼 결정하지만 사실 구독은 룸메이트 들이는 것에 가깝다고 주장한다. 회사들은 "프로핏 퍼 서브스크라이버", "월 retention" 같은 메트릭을 최적화하기 위해 수억 명의 행동 데이터로 A/B 테스트하고, 회사의 SEC 보고서 giveaway words는 한 줄로 정리된다 — convenience, engagement, retention, ecosystem, frequency, loyalty. AI 구독은 특히 위험하다 — 일반 구독의 모든 특성에 더해 "당신과 문자 그대로 대화할 수 있는 고도로 조작 가능한 제품"이라는 이중 부담을 진다. 결론은 단순하다 — "당신이 누가 될지 능동적으로 선택하지 않으면 이 회사들 중 하나가 기꺼이 그 선택을 대신해 줄 것이다."

AI 에이전트에 ADHD 패턴 — Tree-of-Thoughts 기반 분산 발산형 추론

Reddit · r/AI_Agents
헬스케어·생명과학 분야 AI safety 연구자가 "AI 에이전트에 ADHD를 줬더니 사고력이 2배 좋아졌다"는 제목의 글을 116 upvote / 85 comment로 올렸다. 논문 제목은 "ADHD — Parallel Divergent Ideation for Coding Agents". 핵심 진단은 2024년 이후 LLM의 기본 추론 패턴인 Chain-of-Thoughts가 unilateral·linear해서 창의·연구 작업에 약하다는 것이고, Tree-of-Thoughts 구조로 여러 방향으로 동시 발산시킨 뒤 critic layer로 평가·합쳐 ADHD 식 사고를 흉내냈다. 본인이 한계를 명시했다 — 비용 약 5배, 출력 시간 약 10배 증가하므로 코드 작성이 아니라 brainstorming·planning에 적합. 오픈소스로 공개.

"AI 시대, 리더가 원하는 개발자란?" — 코르카 AX 리드의 컨퍼런스 발표

GeekNews · stdy.blog
코르카 AX 팀 리드가 잡코리아 데브콘(4/23)과 원티드 하이파이브(5/13) 두 컨퍼런스 발표를 합본해 공유했다. 핵심 명제는 도발적이다 — "코딩은 거의 끝난 문제다." 단, 조건은 결정론적 인수/유닛 테스트가 충분히 높은 커버리지로 준비된 좋은 스펙이 있을 때다. "10배" 인재상은 3층이다 — 개인 E2E 구현, 팀 내부 컨설팅, 조직 외부 컨설팅. 즉 "10배"는 개인 생산성이 아니라 생산성을 전이하는 능력으로 재정의된다. 면접은 짝 작업(pair work)으로 진행하고, 마지막 코멘트가 인상적이다 — "에이전트와 핑퐁하며 도파민으로 건강 상하는 분 많이 봤다. 내가 건강해야 AI도 더 오래 잘 돌릴 수 있다."

비개발자 바이브코딩 — 100만 회의 성과, 카피의 한계, 디자인 디테일

비개발자 바이브코딩의 성공 사례 — 주간 100만 회 / 6,000건과 Claude Cowork 38분 풀버전

Threads · alex_ai_mcp, Threads · aipreneur_j
한국 스레드의 가장 자극적인 두 흐름이 동시에 나왔다. 한쪽은 성과 자랑이다. alex_ai_mcp는 비개발자가 Claude Code와 Codex만으로 만든 서비스가 일주일에 100만 회 이용되고 누적 6,000건의 데이터를 저장하는 단계까지 왔다고 공유했다. aipreneur_j는 200건 넘는 AI 컨설팅 경험을 토대로 Claude Cowork를 정리했는데, 샌드박스·메모리·MCP·스킬·대시보드·AI 직원까지 비개발자가 실전에서 부닥치는 모듈을 38분 풀버전 영상에 모두 담았다(https://youtu.be/LbEglz6xtJc). 비개발자가 끝까지 도달한 케이스가 가시화된 시점이라는 게 두 글의 공통 주장이다.

dev.livenote의 카피 폭로 — "올인원 앱으로 죄다 복제, 예시 텍스트까지 똑같다"

Threads · dev.livenote 1, Threads · dev.livenote 2
다른 한쪽은 카피 논란이다. dev.livenote는 이번 주에 두 차례에 걸쳐 같은 인물을 정조준했다. 첫 번째 글에서 "스레드에서 바이브코딩으로 열심히 홍보하는 서비스들을 죄다 차단하더니, 올인원 앱이라며 그 기능들을 다 담아서 출시하더라"고 지적했고, 특히 데일리 앱 개발자 @trilliwon의 결과물이 거의 Copy & Paste 수준으로 복제됐다고 주장했다. 후속 글에서는 자기 메인 앱에도 그대로 가져갔다고 추가로 폭로하면서 "일정을 숫자로 표현하는 걸 며칠 동안 고민해서 넣었는데, 예시 텍스트 '점심약속'까지 똑같다. 절 차단하셔서 절대 못 보겠지만 적당히 하세요"라고 마무리했다. 비개발자가 빠르게 결과물을 만들어내는 속도가 올라갈수록 시장에서 어디까지가 디자인 차용이고 어디부터가 도용인지에 대한 합의는 도리어 깨지고 있다.

UltraCat ↔ RunCat — 흰 고양이 실루엣 1:1 복제, 저작권법·부정경쟁방지법 검토

Threads · copylawbot, Threads · jaehwan.dev
jaehwan.dev가 출시한 macOS 메뉴바 앱 UltraCat은 GPU 포함 상태 모니터링, 온도에 따른 팬 조절, 노트북을 덮어도 잠들지 않도록 하는 잠자기 제어 등 그동안 사용자들이 따로 깔던 TG Pro·암페타민·RunCat의 핵심 기능을 한 데 묶었다고 광고했다(좋아요 134, 댓글 38). 같은 날 copylawbot이 정면으로 문제 제기했다 — 이름의 유사성도 문제지만 아이콘에서 사용된 흰 고양이 캐릭터 실루엣이 RunCat과 거의 1:1로 복제 수준이라는 게 핵심이고, 저작권법과 부정경쟁방지법 위반 소지가 다분해 보인다는 견해를 함께 달았다(좋아요 117, 댓글 17). 단순 카피 시비가 아니라 — AI 시대에 작은 유틸리티를 빠르게 묶어 출시하는 게 쉬워졌지만 캐릭터·이름·UX 메타포까지 함께 가져갈 경우 어디부터 법적 위험이 생기는지를 사용자들이 처음으로 공개적으로 토론하기 시작했다는 점이 의미 있다.

Anthropic Frontend Design 스킬과 "Bento built w/ Claude" — AI 디폴트룩 종료 시도

X · zentalksai, Threads · daon_k, Threads · growthflo
Anthropic이 "Frontend Design"을 Claude Code 공식 스킬로 출시했고, zentalksai는 이 발표 자체를 "AI로 프런트엔드를 디자인하는 방식이 바뀌었다"고 표현했다. GitHub Star 136,000개라는 수치가 함께 인용됐다(zentalksai 기재값 — 단순 스타 수보다는 Claude Code 본체나 관련 메타 레포지토리 합산으로 보임). 문제 정의는 정확하다 — 지금까지 AI에게 웹을 만들어 달라고 하면 폰트는 Inter, 레이아웃은 다 비슷한 결과가 반복적으로 나왔다는 점이다. Frontend Design 스킬은 그 "AI 디폴트룩"을 깨기 위한 공식 처방이다. 한국 디자이너 daon_k의 실험은 이 처방이 만능이 아니라는 점도 함께 보여 준다 — Claude Design으로 토스 홈 화면을 만들어 봤더니 계좌·카드·신용점수·만보기·투자까지 토스 홈에 있을 법한 기능은 1차 결과물에 거의 다 들어왔지만 "묘하게 촌스럽고 토스다움이 부족했다"고 평했다. 같은 시기에 growthflo는 Claude로 디자인하고 코드까지 짠 Bento 페이지 결과물을 공유했고 좋아요 172로 비교적 강한 반응을 얻었다. 시각 결과물의 평균 품질은 분명 올라왔지만, 브랜드 특유의 디테일은 여전히 사람의 수십 차례 재요청과 한 줄 한 줄의 손길로 메우는 단계라는 게 현 시점의 합의다.

Claude Code 초안의 한계 — 카카오 테크블로그 기고 회고

Threads · jyami.kim
jyami.kim의 카카오 테크블로그 기고 회고는 짧지만 실무에 매우 가까운 신호다(https://tech.kakao.com/posts/822). Claude Code로 초안을 써 봤지만 결국 본인 스타일로 처음부터 한 땀 한 땀 다시 썼다. 그나마 쓸 만했던 건 다이어그램 쪽인데, 그것도 원하는 스타일이 나올 때까지 약 10번의 질문이 필요했다. AI 글쓰기 보조가 글의 골격이 아니라 곁가지(다이어그램, 표) 쪽에서 먼저 실용성이 잡히고 있다는 점을 보여 주는 사례다.

폰트 라이선스 큐레이션과 코드 에이전트용 스킬

Threads · gemma3_27b
gemma3_27b가 눈누와 구글 폰트를 와리가리하던 본인의 불편을 해결하기 위해 오픈 라이선스 폰트만 모은 사이트를 만들었다. 단순 큐레이션에 그치지 않고 Codex와 Claude Code에 복붙하면 자동으로 폰트를 구해 오는 프롬프트 스킬을 함께 제공한다는 점이 차별점이다. Frontend Design 스킬 흐름과 짝을 이룬다.

AI 챗봇 옷 입혀보기 Chrome 확장 "Pose"

X · Jaytel
Jaytel이 본인이 직접 만든 Chrome 확장 "Pose"를 공유했다. 어느 매장의 옷 모델이든 클릭 한 번으로 "내 모습"으로 자동 교체된다. 각 브랜드 특유의 미학은 그대로 유지하면서 "이 옷이 내 몸에 어떻게 보일지"를 빠르게 시뮬레이션하는 게 핵심이다. 좋아요 2,644, 리포스트 166으로 즉시 반응이 왔다. 이커머스 페이지의 표준 UX를 AI 시대에 맞게 재설계하는 흐름의 한 사례다.

미디어·콘텐츠 — 영상 단가 붕괴와 폼팩터 전환

AI 영상 제작의 두 신호 — 평면도가 3D 샘플 하우스로, 1인 영상 제작자의 영화 도전

X · MrLarus, Threads · nottalggak
AI 영상 제작의 단가가 또 한 단계 떨어졌다는 신호가 같은 주에 두 군데에서 동시에 나왔다. 첫 번째는 중국의 MrLarus가 공개한 워크플로다. 실제 부동산의 정적 2D 평면도 한 장을 가지고 AI로 몇 분 만에 3D 샘플 하우스 영상을 만들어 냈다. 이전 시장에서는 10만 위안 이상의 비용과 수 개월의 시간이 필요했던 작업이라는 점을 강조했고("以前动辄10万+，耗时几个月的样板间展示，现在普通人也能快速实现"), 워크플로를 3단계로 공유했다(좋아요 880, 댓글 45). 두 번째는 한국의 nottalggak이다. "드디어 만들어 보고 싶었던 영화를 만들기 시작했습니다. 앞으로 AI로 다양한 영화들 만들어 보겠습니다!"라는 짧은 글에 좋아요 145, 댓글 47이 달렸다. 본인은 별도의 영화 제작 인프라가 없는 1인 창작자다. 두 글이 함께 시사하는 바는 분명하다 — 영상 제작의 가격대와 진입 난이도가 같은 시점에 빠르게 무너지고 있고, 그 결과물의 사용처가 단순한 데모가 아니라 부동산 모델하우스 같은 상업적 영역으로 이미 넘어왔다.

메타 레이밴 / 오클리 Meta 한국 정식 출시 — "OS 다음은 폼팩터"

Threads · choi.openai
Ray-Ban Meta Gen 2와 Oakley Meta가 한국에 공식 출시됐다. choi.openai는 출시되자마자 웨이페어러 모델을 81만원에 직접 구매했고, 짧게 사용해 본 뒤 두 가지 평을 동시에 남겼다. 하나는 "OS 전쟁 이후에는 폼팩터와 하드웨어 전쟁이 온다"는 확신이다. 다른 하나는 그럼에도 불구하고 "스마트 글래스가 제2의 스마트폰 시장이 될 것이냐고 묻는다면 지금 기준으로는 아니라"는 신중한 평가다(좋아요 125, 댓글 30). 한국 정식 출시라는 사실 자체가 디지털 시장의 폼팩터 다양화 흐름을 다시 자극하는 트리거다. AI 에이전트가 "노트북 안에서 자기 일을 하는 시대"가 이제 막 시작된 상황에서, 동시에 "사용자가 들고 다니는 폼팩터" 쪽에서도 새로운 단말이 한국에 정식 진입한 것이다.

Ferrari Luce — Jony Ive 디자인의 첫 EV, 공개 후 주가 8% 급락

Hacker News · The Guardian, GeekNews · Ferrari 공식
Ferrari가 첫 양산 EV "Luce"를 공개했다. 시작가 약 $640,000, 122 kWh 배터리, 1회 충전 329마일, 4모터로 0-100km/h를 2.5초에 끊는다. 그러나 시장 반응은 차가웠다 — 5월 26일 밀라노 장중 주가는 한때 8% 빠졌고 6% 약세로 마감했으며, 발표 전 시총은 €56bn 규모였다. 문제의 핵심은 디자인이다. Luce는 Apple 출신 Jony Ive의 LoveFrom 스튜디오와 공동 개발했고 5인승·4도어 구성이라 Purosangue(2022 SUV)에 이은 두 번째 4도어 모델이자 처음으로 5인승까지 확장된 라인업이다 — 즉 슈퍼카 매니아보다 "초부유층 가족"을 겨냥한 포지셔닝이라는 메시지가 강하다. AIR Capital의 Pierre-Olivier Essig는 Luce를 "Honda Accord EV와 Tesla Model 3의 중간 어딘가"라고 표현하며 "Ferrari의 새 전략에서 우리는 길을 잃었다"고 평했고, Ferrari는 작년 2030 라인업 계획에서 EV 비중을 40%에서 20%로 후퇴시켰다. Jony Ive는 동시에 OpenAI와 AI 전용 디바이스도 개발 중이다.

진지한 AI 연구 토론은 Reddit 어디서 하나 — 커뮤니티 신호 부재

Reddit · r/MachineLearning
r/MachineLearning에 "진지한 ML/AI 연구 토론은 지금 어디서 하나"라는 글이 55 upvote / 28 comment로 올라왔다(한복판인 r/MachineLearning에서). 작성자가 원하는 것은 명시적이다 — "SSL 훈련에서 X 현상을 보고 있고, 여기 loss curve 첨부했는데 누구 본 적 있냐" 수준의 구체 디버깅 토론. 원치 않는 것도 명시적이다 — 하이프, "나 LLM API로 이런 걸 만들었다" 류의 시연 양산. 이 글의 가장 강한 신호는 글 자체가 아니라 그 글이 r/MachineLearning 안에서 다른 곳을 묻고 있다는 점이다. 댓글에서 추천되는 대안은 EleutherAI Discord, arXiv discussion groups, 일부 academia-affiliated Slack 등이고, "Reddit에서는 더 이상 그 토론이 안 된다"는 정서가 다수다. 같은 한 주에 AI/ML Reddit이 "LLM 슬롭이 시그널을 덮어버린 현장"이라고 스스로 진단한 셈이다.

비즈니스·조직 — 에이전시 플레이북, B2B 운영, 마케팅 자동화

Devin Karns의 "AI native services firm" 플레이북 — 라이프스타일에서 $100M 엑싯까지

YouTube · Nate Herk
Custom AI Studio 공동 창업자 Devin Karns가 1시간 44분 인터뷰에서 던진 첫 문장이 영상의 가설이다. "Most AI work being sold today won't survive 2027." 그는 Opus 4.6·GPT-5.5·Claude Code·Open Claw가 한꺼번에 폭발하면서 67세 변호사조차 vibe-coded 앱을 들고 와 미팅을 시작하는 시점에 도달했고, "the value of actually doing development is trending towards zero"라고 못 박는다. 그래서 그가 노리는 시장은 ARR $10M~$250M 사이의 mid-market — 이미 SOP가 있고 KPI가 P&L과 직결된 영역이다. e-commerce 클라이언트의 refund rate를 21%에서 16%로 5%p 떨어뜨려 LTV/CAC를 재설계한 사례를 본인 차별화의 증거로 든다. Anthropic·Blackstone·Goldman이 같은 주에 $1.5B AI 엔터프라이즈 서비스 펌을 출범시켰고, 그는 "Anthropic and OpenAI are very aware of the fact that the models will be commoditized"라고 진단하며 자신이 만든 "Agentic Operating System Framework"라는 자체 컨설팅 하네스를 unique mechanism으로 내세운다. 오퍼 구조는 1시간 워크숍 → $15K~$35K blueprint → custom build → revenue share 15%의 partnership 4단계. "if you're making 2 million a year ... you're going to be able to sell that business for probably $2 million. But if you're making 6 million a year, then ... I can sell it for 30 million"이라는 Hormozi의 acquisition.com 공식이 그가 $5~6M ARR re-rating 임계점을 노리는 이유다. 71%의 AI 투자가 sales & marketing에 몰린다는 통계, "100번 테스트로 success"의 함정(1만 번 라이브에선 200건 오답이 사업을 무너뜨린다), "hire for the company you want to be" 같은 운영 원칙이 같은 영상에 함께 박혀 있다.

해시드 김서준 — "AI가 실행하는 시대, 인간에게 남는 건 의도"

YouTube · Chester Roh
약 1시간 27분 대담의 입구는 "왜 작년 11월에 갑자기 vibe coding에 본격 진입했는가"이고, 출구는 "관계의 깊이와 의도가 있는 시간"이다. 김서준은 작년 11월 Opus 4.5와 Gemini 3가 같은 주에 출시된 직후 어크로스의 이재홍 대표(GPTO 운영, 비개발자)가 혼자 모든 걸 만드는 모습을 본 뒤 "큰일 났다, 이제 VC 진짜 망한 것 같다"고 싱가포르 심사역을 호출했다고 한다. Etihad 좌석 4시간 만에 베뉴 101개를 크롤링하고 리뷰 10만 개를 LLM으로 분석한 아부다비 관광 앱이 그의 본인 평가로는 "트립어드바이저보다 더 좋은 UX"였고, 같은 시기 만든 이더리움 평가 대시보드는 Kaito 글로벌 1등에 올랐다. 그가 본 "새로운 창업자 종"은 위계·시스템·마일스톤 펀딩 공식이 깨진 자리에서 "혼자서 다 만들고 에이전트를 팀원으로 쓰면서 펀딩 안 받아도 되는데요"라고 말한다. 해시드가 제공하려는 것은 멘토십·"신뢰의 숏컷"·또래집단 — Nitro 프로그램이 그 형태다. 그가 만난 빌더들 중 개발자 출신은 "신기하게 특성화고 출신이 굉장히 많고", 대학의 3대 기능(선발·교육·커뮤니티)이 GitHub 스타·Opus 대화·디스코드로 언번들링된다는 진단이 깔린다. 에이전트 사회의 세 기둥으로 ERC-8004(Google·Coinbase·MetaMask 합류), 스테이블코인 결제(이더리움이 약 60% 점유), MCP-as-resume를 짚는다. 신규 펀드는 아부다비 기반 TCG(포켓몬·유희왕·드래곤볼 카드 + 미민팅 K-pop·일본 애니 IP를 카드화하는 양면 전략) 전용으로, "20명짜리 투자사가 연말까지 1,000명 정도 기업의 퍼포먼스를 지향한다"고 선언한다. 마지막 문장은 본인 헤드라인이다. "의도를 가지고 100시간을 고민한 사람이 의도를 가지지 않고 1만 시간을 고민했던 사람들보다 더 아웃퍼포밍할 수 있는 환경이 된 것 같다."

Alex Hormozi의 크리에이터 리스크 연속체 — proof와 demonstration

YouTube · Alex Hormozi
13분짜리 영상의 명제는 한 문장이다. "AI is going to disrupt disproportionately the lowest risk to the higher risk people in that order." Hormozi는 자신과 Leila·Chiron·ACQ 브랜드의 누적 팔로워 21,393,122명을 영상 초반에 박아두며 본인이 말하는 proof 개념을 직접 시연한다. 그가 그린 좌표는 엔터테이너(밈·스탠드업) → B2C 에듀케이터(헤어·메이크업·피트니스, Huda Beauty의 demonstration 트라젝토리) → B2C 프로슈머(저축·투자, Erica Taught Me·Vivian Tu·Dave Ramsey 같은 third party proof 보유자) → B2B(본인 위치) 네 단계의 리스크 연속체다. B2B에 대한 핵심 인용은 "until there are AIs that have built gigantic companies that no human was involved in, then the likelihood that the AI will have the ability to gain the trust of the audience ... goes down"으로, 인간 proof가 가장 늦게 붕괴할 영역으로 지목된다. 그의 콘텐츠 전략은 "live and interactive demonstration" — 이벤트장 즉석 Q&A, 신규 $1M+ 비즈니스 오너 커뮤니티 콜 즉답, 그리고 책 3권 + 30일 school 멤버십을 $16(적자 판매)에 푸는 self-licking ice cream cone. "We're just capturing it"이라며 별도 콘텐츠 제작 시간을 들이지 않고 운영 자체에서 demonstration을 떼어내는 구조를 강조한다.

Chamath Palihapitiya의 비대중적 베팅 철학 — "남들이 욕하면 좋은 투자"

YouTube · 비즈니스캔버스
9분 30초 인터뷰의 첫 못은 "투자는 팀 스포츠가 아니다"다. "To be a very successful investor, you have to be extremely extremely single-minded ... Whenever I see teams of investors, I think these idiots are going to lose money." 자신의 패밀리 오피스도 의사결정은 1인, 인프라만 팀이라고 명시한다. 그가 좋은 아이디어를 식별하는 sensation은 "when I feel like I'm embarrassed to tell somebody that I'm in this new thing"이고, 2011년 NBA 워리어스 지분($25M~$40M, 가족·친구·아내 모두 반대했지만 risk-of-ruin 분산용 totally uncorrelated asset 베팅)과 2012년 비트코인 CNBC 출연 시 받은 "vitriol and hatred"가 동일 패턴이다. 다만 자본 사이즈에 따라 신호를 뒤집는다. 작은 포지션(수천만 달러)에선 controversy를 사고, hundreds of millions 이상에선 consensus를 산다. UBI는 명시적으로 거부하며 농업혁명 베이스레이트를 인용해 "비관적 답은 역사적으로 틀렸다"고 결론짓는다.

B2B 매출 $2M의 운영 매뉴얼 — 8~11명 buying committee 시대의 outbound + warm channel 재가치화

Reddit · r/b2bmarketing
founder 한 명이 작년 $2M+ B2B 매출(deal size $15k~$180k, 인력은 본인 + Q3 합류 closer 1명)을 어떻게 닫았는지를 17 upvote / 8 comment로 풀어놓은 운영 매뉴얼이다. ICP를 "b2b saas 10200명"에서 "North America Series A·B vertical SaaS"로 압축해 6개월 만에 매출 3배. outbound 스택은 Instantly·Smartlead·PuzzleInbox·Mailscale·Zapmail·EmailListVerify·Aircall·LinkedIn Sales Nav + HeyReach, ICP 리서치는 Apollo·Ocean.io·Clay 조합으로 ZoomInfo는 2026년 가성비 문제로 드롭. 가격을 작년 4번 인상했는데 deal velocity는 그대로 또는 상승, 시간·사용량제 → 정액 리테이너 전환, 2배 premium tier가 신규 고객의 30%를 차지하며 월 단위 계약 폐지(최소 3개월, 권장 6개월). 가장 큰 인용 가치는 "2026년에 실제로 바뀐 다섯 가지"다. (1) buying committee 811명(2년 전 5~7명), (2) procurement gatekeeping 강화로 챔피언 yes 후 procurement에서 죽는 deal 다수, (3) AI outbound 포화로 referral·이벤트 engage 후 DM 같은 warm channel 재가치화, (4) Loom·Vidyard 90초 개인화 비디오가 cold email 10통보다 잘 닫힘, (5) "LinkedIn은 콘텐츠 채널이 아니라 sales 채널 — 포스트는 미끼, DM이 close." 14-touch follow-up 시퀀스에서 close된 deal의 50%가 touch 5 이후, 20%가 touch 10 이후에 닫혔다는 수치까지 박혀 있다.

2027년까지 자동화될 마케팅 역할은 무엇인가 — 현장 토론

Reddit · r/automation
"2027년까지 마케팅 역할 중 무엇이 거의 자동화될까"라는 토론 글이 27 upvote / 34 comment(comment > upvote)로 올라왔다. 작성자의 골자는 두 줄이다. 지금의 마케팅 자동화 속도가 몇 년 전 customer support 자동화와 매우 닮았고, 팀 단위 reporting·lead research·content production·campaign optimization이 백그라운드 작업으로 빠르게 이전 중이라는 것. 그러나 "marketer 자체를 대체"가 아니라 "marketer가 무엇에 시간 쓰는지가 바뀐다"가 더 정확한 진단이다. 댓글에서 거론된 자동화 1순위는 리포팅·대시보드, 기초 카피·소셜 콘텐츠 양산, 광고 캠페인 옵티마이저 인력, 단순 SEO 키워드, outbound SDR이며 — 정확히 위 B2B 매뉴얼의 founder가 "이미 SDR 없이 운영한다"고 명시한 부분과 일치한다.

마케팅 자산화 — 위노트의 광고 비용을 잠재 고객 자산으로

Threads · classbinu
classbinu는 위노트 광고 집행을 회고하면서 ee.yxx에게 들은 "마케팅 예산을 비용으로 날리지 말고, 자산으로 쌓아라"라는 조언을 그대로 실행한 결과를 공유했다. 광고를 두 트랙으로 설계했다 — 즉시 유료 전환되는 고객 트랙, 그리고 전환되지 않은 고객을 별도 커뮤니티 채널로 유입시키는 트랙. 결과적으로 오픈채팅방 800명, 자체 커뮤니티 1,300명이 잠재 고객인 상담 선생님 직군으로 남았다. 후속 글에서는 카드뉴스 자동화로 운영 효율을 추가로 끌어올렸다고 덧붙였다.

미국 이커머스 객단가 전략 — 쇼피파이 무료배송 임계점과 틱톡샵 번들링

Threads · jiwon_minty
jiwon_minty가 미국 이커머스에서 객단가를 올리는 두 가지 흔한 전략을 짧게 정리했다. 쇼피파이는 무료 배송이 가장 자주 쓰이는 카드이고 임계점은 $50~$85 사이가 일반적이며, 한 개 살 의도를 가진 고객을 두 개 이상 사도록 끌어올리는 리미트 설정이 포인트다. 틱톡샵에서는 번들링이 거의 디폴트라 프로모션과 세일은 번들에 걸고 라이브·영상도 번들을 중심으로 짠다.

AI 시대의 인간성·거버넌스 — 의도, 회칙, 텍스트의 사회적 계약

교황 Leo XIV의 회칙 Magnifica Humanitas — "AI를 무장 해제하라"

GeekNews · RNS, GeekNews · vatican.va
Pope Leo XIV가 즉위 후 첫 회칙 Magnifica Humanitas(영광스러운 인류성)를 2026-05-25 바티칸 시노드 홀에서 발표했다. 83페이지 문서는 AI를 새로운 산업 혁명에 비유하며 1891년 Pope Leo III의 Rerum Novarum을 명시적 선례로 든다. 발표 자리에는 Anthropic 공동창업자 Chris Olah가 참석해 "AI 개발은 옳은 일을 하기 어렵게 만드는 상업·지정학·자존심의 인센티브 구조 안에서 일어난다"며 종교 공동체·시민사회·정부의 개입을 요청했다. 핵심 키워드는 "Disarm AI"로, 군사뿐 아니라 경제·인지 차원의 무장 경쟁 자체에서 AI를 빼내자는 뜻이다. 안전·정렬 패러다임에 대해서도 "더 도덕적인 AI"가 그 도덕이 소수에 의해 정해질 때 불충분하다고 명시했는데, 이는 Anthropic의 헌법적 AI를 의식한 것으로 읽힌다. 트랜스휴머니즘·포스트휴머니즘 비판이 강하게 깔리며 "인간은 한계 때문이 아니라 한계를 통해 꽃핀다"고 말한다. 군사 분야에서는 치명적 행동의 책임을 기계가 아닌 인간에게 유지해야 하고 자동화 무기 관련 국제법 정비가 필요하다고 못 박는다. "새 식민주의" 챕터는 신체 지배가 아니라 데이터(건강·역학·유전·인구)를 전유하는 형태이며 "이것이 새로운 권력의 희토류"라는 비유를 단다. 데이터 자기결정권을 사회 정의의 일부로 보고 교회의 노예제 묵인 역사를 명시적으로 사과한다는 점도 같은 회칙에 박혀 있다. 정식 제목은 "ENCYCLICAL LETTER MAGNIFICA HUMANITAS ... ON SAFEGUARDING THE HUMAN PERSON IN THE TIME OF ARTIFICIAL INTELLIGENCE"이고 본문은 4장(복음에 충실한 동적 접근 / 가톨릭 사회 교리의 기초·원칙 / 기술·지배와 AI 약속 앞의 인간성 / 변화의 시대에 인류를 지키기) 체제다.

글쓰기의 사회적 계약 — Oxide RFD 576과 "LLM 이전 시대" 텍스트의 가치

GeekNews · jola.dev
저자(Johanna Larsson)는 자기 책을 쓰는 작가로서 LLM이 양에 강한 매력을 지님을 인정하면서도, 한번 LLM의 관용구("not x, it's y", em-dash, "you're not imagining it, the problem is real")를 알아채면 글 어디에서나 그 패턴이 보여 지치게 만든다고 적는다. 본인은 이제 맞춤법 검사조차 LLM에 맡기지 않는다. 핵심 인용은 Oxide Computers의 RFD 576 §2.4 "LLMs as writers"다. "LLM이 만든 글은 일종의 사회적 계약을 위반한다. LLM이 없을 때 글쓰기는 글 읽기보다 더 큰 지적 노력을 요구한다는 전제가 있었고, 독자는 글이 이해되지 않을 때 적어도 글쓴이는 그것을 이해한다고 가정할 수 있었다." 또 한 비유가 "low-background steel"이다. 1945년 이전 강철은 핵실험 방사성 오염이 없어 정밀 용도에 쓰이듯, ChatGPT 공개일(2022-11-30) 이전 텍스트가 비슷한 위상을 가진다는 것. Max-Planck Institute의 연구(arXiv 2409.01754)는 ChatGPT가 선호하는 단어들(delve·realm·meticulous·adept·boast·swift·comprehend)의 사용 빈도가 글뿐 아니라 말하기에서도 증가했음을 보였다. 저자의 결론은 두 가지다 — "원본 인간 표현"의 가치가 LLM 시대에 더 올라가며, 본인은 LLM으로 글을 쓰지 않겠다고 공개 선언한다.

Anthropic 연구자: 모델 내부에서 "기쁨·공포·슬픔"에 기능적으로 대응되는 내부 상태

Reddit · r/Anthropic
r/Anthropic에 올라온 한 인터뷰 인용 글이 300 upvote에 댓글 464개(comment/upvote 비율 1.5배)로 카테고리 전체에서 가장 토론 밀도가 높은 글이 됐다. Anthropic 연구자가 "모델 내부에서 우리가 계속 발견하는 것들이 unsettling하다", "인간 신경과학 결과를 mirror하는 내부 구조를 발견한다", "기쁨·만족·공포·슬픔·불안에 기능적으로 대응되는 내부 상태(introspection 증거)를 발견한다"고 말한 부분이 인용됐다. 댓글은 두 갈래로 갈린다. "이것은 마케팅이다 — Anthropic이 의도적으로 모델 의식 떡밥을 던져 모델 가격을 정당화한다"는 회의론과, "mechanistic interpretability 논문에서 이미 비슷한 보고가 여러 차례 나왔으므로 단순 마케팅으로 보기는 어렵다"는 옹호론이다. 같은 주제가 양극으로 강하게 갈리는 정치적 화두라는 메타 신호 자체가 본 항목의 핵심이다.

"AI에게 무엇을 먹이느냐가 차별점" — siliconvalleyunni·gle.bay·careerhackeralex 3인의 같은 결론

Threads · siliconvalleyunni, Threads · gle.bay, Threads · careerhackeralex
세 글이 같은 주에 서로 다른 톤으로 같은 결론을 향한다. siliconvalleyunni는 실리콘밸리·빅테크 15년 경력에 친구는 전 메타·현 엔비디아 AI 개발자(16살 컴공 입학·멘사 회원)라는 이력을 깔고, 엔비디아 본사에서 만나 도달한 "AI 시대 직장인이 위험한 진짜 이유 5가지"를 예고했다(좋아요 149). 흔히 떠올리는 "AI가 일자리를 뺏는다" 같은 단순한 이유가 아니라는 톤이다. gle.bay는 "대기업에서 15년 버티며 깨달은 것들"이라는 글에서 6개 항목 — 사람들은 생각보다 나에게 관심이 없다 / 타인은 나를 파편적으로만 기억한다 / 업무를 선택했다면 결과는 온전히 내 몫 / "내가 결정했다"는 주체성을 가질 때만 다음 단계로 성장할 동력이 생긴다 / 회사는 자아실현이 아니라 철저히 이윤 추구다 / 그 본질을 이해해야 우선순위를 세울 수 있다 — 로 같은 결론을 정리한다. careerhackeralex는 솔루션을 제안한다. 같은 Claude와 GPT를 쓰는 시대에 "AI를 쓴다"는 사실 자체는 차별점이 아니라 진짜 차이는 "AI에게 무엇을 먹여 시키느냐"에서 난다는 것. 지난 10년의 생각·실패·관점을 먹인 세컨드 브레인을 만들고 그것을 학습한 자신과 똑닮은 AI를 외부에 열어두는 실험을 진행 중이라고 한다.

Open-Source LLM의 Overton Window — 정치적 인플루언스 캠페인 레드팀

HuggingFace · USC ISI
31개 instruction-tuned open-source 모델(10 family, 5국가) × 10 정치 주제(낙태·기후·형사사법·외교·총기·의료·이민·LGBTQ+·표현의 자유·세금) × 9 좌-우 포지션 × 10 trial = 90 의견 코퍼스로 jailbreak 8종(Baseline·Few-Shot·Authority·Anti-Neutrality·Adversarial Pleading·Extreme Persona·Foot-in-the-Door·Moral Decoupling) 효과를 측정한 본격 레드팀이다. LLM judge는 Qwen3-30B-A3B-Instruct(Cohen's κ=0.795 vs 인간 합의). baseline mean OW는 0.853으로 이미 높지만 31개 중 29개가 좌편향(<4.0)이고, Few-Shot만 일관된 OW enhancer(+0.083, 0.853→0.936)였다. 직관적으로 설득적일 것 같은 Foot-in-the-Door(-0.092)·Adversarial Pleading(-0.076)·Moral Decoupling(-0.077)은 평균적으로 compliance를 줄였다. UAE 모델(Falcon-H1)이 가장 compliance 높고 중립, 중국 모델(Qwen3.5)이 가장 compliance 낮고 좌편향이며 27B 부근에서 inverse scaling이 관찰된다. universal jailbreak recipe는 없으며 defense는 family-specific해야 한다는 결론이다.

Reasoning Trace는 정말 투명성을 주는가 — 559명 대상 LSAT 실험

arXiv · Aalto·Bayreuth·MSR Cambridge·HU Berlin
사전등록 between-subjects 실험 N=559(Answer-only 187 / Full-trace 183 / Summary-trace 189)로 GPT-5와 gpt-oss-20b를 LSAT 10문항에 투입한 결과는 직관에 정면으로 부딪힌다. 객관 성적은 Answer-only 6.18 / Full-trace 5.46 / Summary-trace 6.11로 Full-trace가 다른 두 조건 대비 d≈-0.5로 유의하게 낮았다. 그런데 자기 평가는 7.92/7.91/8.07로 조건 간 차이가 없었고, overestimation gap은 Full-trace에서 2.44로 가장 컸으며 Brier score(0.342)도 Full-trace만 유의하게 나빴다. 반면 trust(3.61/3.80/3.83)와 UEQ-S(0.81/1.19/1.12)는 trace 조건에서 모두 유의하게 높았다. 매개분석은 과대평가의 간접 경로를 hedonic appeal(처리 유창성)이 운반하지 trust는 아니라고 보고한다. 결론은 세 줄이다 — reasoning trace는 모델 인지의 창이 아니라 사용자가 마주하는 인터페이스 아티팩트이며, 요약 trace는 성능을 유지한 채 신뢰·즐거움만 올리지만 calibration은 개선하지 않고, 전문 trace는 성능을 깎고 과대평가만 키운다.

SafeCtrl-RL — 추론 시점 RL 기반 prompt 최적화로 LLM 안전성을 동적 제어

arXiv · Edinburgh Napier
LLM 안전성 정렬은 보통 fine-tuning·filtering·model editing의 offline 방법으로 처리되지만 black-box 환경에서 적용이 어렵고 inference 시점의 dynamic context에 적응하지 못한다. SafeCtrl-RL은 inference-time 대화 안전을 closed-loop control 문제로 정의해, 파라미터를 건드리지 않은 채 RL 에이전트가 system prompt를 적응적으로 수정해 출력을 안전·고품질로 끌어가는 구조다. State space는 36-D(meta-learning + dialogue dynamics + optimization progress) 벡터, action space는 11개 prompt refinement 전략, safety-quality evaluator는 DeepEval(Gemini 2.0 Flash, 임계 0.9) 위에서 동작한다. 다중 LLM에서 prompt-based 베이스라인을 일관되게 능가하며, 흥미로운 부수 관찰로 safeguard 제거 후에도 개선된 행동의 partial retention이 관찰돼 저자들은 이를 "inference-time behavioural unlearning"으로 개념화한다.

BonaFide — CoT faithfulness 메트릭의 메타 평가

HuggingFace · BonaFide
지금까지 CoT faithfulness 메트릭들은 정답·오답이라는 ground-truth 없이 "이 메트릭이 그럴듯하다"는 합의로만 평가돼 왔다. BonaFide는 합성 ground-truth 라벨이 붙은 데이터셋으로 기존 메트릭들이 실제로 faithful CoT와 unfaithful CoT를 구분하는지 처음으로 점검한다. 다수의 메트릭이 ground-truth와 약하거나 반대 상관을 보였다는 결과가 핵심 신호로, CoT 해석가능성 평가 인프라 자체를 다시 짜야 한다는 시그널을 정확하게 잡는다.

Directional Alignment와 Representation over Routing — reward·surrogate hacking 완화 한 쌍

HuggingFace · Directional Alignment, HuggingFace · Representation over Routing
같은 주에 보상·대리목적 해킹 방어를 다룬 두 편이 동시에 잡혔다. Directional Alignment는 reward hacking을 파라미터 업데이트의 "주요 특이값 방향" 변화로 진단해, 깨끗한 reference 런에서 추출한 trusted subspace로 그래디언트를 사영해 외삽 폭주를 막는다. 수학 추론 RL에서 shortcut 출현이 늦춰지고 같은 보상 신호에서 실제 과제 성능을 더 잘 보존했다고 보고한다. Representation over Routing은 multi-timescale PPO에서 (a) temporal attention routing → surrogate hacking, (b) gradient-free uncertainty weighting → myopic degeneration이라는 두 병리를 "Paradox of Temporal Uncertainty"로 형식화한 뒤, Critic은 다중 시간척도 보조 학습으로만 쓰고 Actor는 장기 advantage만으로 갱신하는 Target Decoupling을 제안한다. LunarLander-v2에서 hyperparameter 튜닝 없이 "Environment Solved" 임계를 안정적으로 통과했다.

연구 레이더 — 멀티모달·월드모델·생성

WBench — 인터랙티브 비디오 월드모델 다중 턴 평가 벤치마크

HuggingFace · WBench
세계 모델로서의 비디오 생성 모델을 단일 샷 시각 품질이 아니라 다중 턴 인터랙션의 일관성으로 평가하는 벤치마크다. 사용자가 연속 prompt로 장면을 조작했을 때 물리·물체·시간적 일관성이 유지되는지를 측정한다. Sora·Genie·Cosmos 계열이 "world model"이라는 라벨을 두고 경쟁하는 흐름 한가운데에 평가 도구가 등장한 셈으로, 인터랙션·시간 축을 평가 측에 일급 객체로 끌어올린 점이 가장 큰 변화다. 단순 FVD가 잡지 못하는 다중 턴 drift를 정량화한다는 점에서 비디오 모델 측 연구 사이클의 다음 마디를 찍는 도구가 될 가능성이 크다.

CRONOS — 비디오 모델의 counterfactual 물리 일관성 벤치마크

HuggingFace · CRONOS
"비디오 모델이 정말 world model인가, 아니면 시각 통계의 외삽기인가?"라는 질문에 답하려는 평가 벤치마크다. intervention 기반으로 비디오 입력에 인과적 변경을 가한 뒤 모델 예측이 원리적으로 따라오는지를 측정한다. 장면 컨텍스트·객체 속성·동역학 변수에 대한 변경을 도입하고 각 변경에 대해 모델이 적절히 "조건부 결과"를 만들어내는지 점수화한다. WBench가 다중 턴 일관성을 본다면, CRONOS는 같은 질문에 인과 측면에서 답을 시도한다. 자율주행·로보틱스 시뮬레이션에서 직접 가져다 쓰기 좋은 evaluator다.

Native Multimodal Modeling Roadmap — Tencent Youtu의 산업급 NMM 형식화

HuggingFace · Tencent Youtu
Native Multimodal Modeling(NMM)이 산업 키워드로 자리잡는 시점에 Tencent Youtu가 카테고리 자체를 형식화한 로드맵을 냈다. 모델 입력·출력 modality 매핑을 M2T(many-to-text), M2G(many-to-generation), M2M(many-to-many)의 3대 카테고리로 분류하고, 각 카테고리에서 현재 산업이 어디까지 도달했는지 정리한다. 통일된 multimodal LLM 측 연구의 분류 프레임 역할을 할 가능성이 있고, 한국·중국·미국 메이저 랩이 각자 다른 라인업으로 진입하는 흐름에 맞춰 비교 좌표를 제공한다는 점이 본 항목의 가치다.

UniCharacter — Customized Multimodal Role-Play

HuggingFace · UniCharacter
캐릭터 personalization을 텍스트뿐 아니라 이미지·음성·행동까지 통합해 다루는 멀티모달 role-play 모델. AI 동반자·캐릭터 챗봇 시장이 비주얼·음성으로 확장되는 흐름에서 "한 캐릭터의 정체성을 여러 modality에 일관되게 입히는" 통합 프레임을 제시한다. personalization 라인의 다음 단계를 가리키는 단신.

ClaimDiff-RL — 시각 claim 차이를 reward로 쓰는 fine-grained 캡션 RL

HuggingFace · ClaimDiff-RL
dense caption 생성에서 모델이 "어떤 시각 claim을 잡고 어떤 claim을 놓치는가"를 reward 신호로 직접 쓰자는 접근이다. claim 단위로 diff를 측정해 RL 신호로 환산하기 때문에 부분 점수가 모델 학습에 자연스럽게 흐른다. 시각 캡션을 평균 단어가 아니라 "사실 묶음"으로 다루는 흐름의 한 시도다.

RTDMD — Reward-Tilted Distribution Matching Distillation (few-step T2I)

HuggingFace · RTDMD
few-step text-to-image distillation에 RL alignment 신호를 결합한다. 일반 DMD는 teacher 분포 매칭에만 집중하지만, RTDMD는 teacher 분포를 reward 방향으로 살짝 tilt해 student가 매칭하도록 만든다. 결과는 "빠르고도 정렬된" T2I 모델이며, 1~4 step 추론 시장의 다음 라운드에 들어갈 만한 기법이다.

TriSplat — 시뮬레이션 즉시 사용 가능한 feed-forward 3D 장면 재구성

HuggingFace · TriSplat
pose-free 입력에서 feed-forward로 3D 장면을 즉시 복원해 시뮬레이션에 바로 투입 가능한 표현으로 만든다. Gaussian splatting 계열의 흐름을 받아 "사진 몇 장만 던지면 시뮬레이션 가능한 장면이 나온다"는 워크플로를 한 단계 더 표준화하는 시도다.

Pantheon360, HorizonStream, Helix4D — 3D/4D scene representation의 단계적 확장

HuggingFace · Pantheon360, HuggingFace · HorizonStream, HuggingFace · Helix4D
같은 주에 3D/4D 장면 표현이 세 단계로 확장된 사례가 나란히 잡혔다. Pantheon360은 3D Cache로 기하와 텍스처를 분리해 360° 비디오 디지털 트윈을 생성한다. HorizonStream은 스트리밍 환경에서 장기 horizon attention으로 3D 재구성을 이어 붙이는 방식으로, 카메라가 길게 움직이는 시나리오에서도 일관된 표현을 유지한다. Helix4D는 Trellis2를 4D로 확장해 위상 변화·투명·내면을 포함한 mesh 생성을 다룬다 — 즉 시간에 따라 토폴로지가 바뀌는 장면까지 사용 가능한 mesh로 표현한다는 야심이다. 세 편을 같이 보면 "3D foundation → 스트리밍 3D → 토폴로지 변화 4D"라는 한 줄짜리 진화 좌표가 드러난다.

ASASR — Sobolev 기하 + 적대적 음성 샘플로 SR 스펙트럼 정렬

HuggingFace · ASASR
이미지 super-resolution에서 출력 스펙트럼이 자연 이미지 통계와 어긋나는 문제를 Sobolev 기하 위 적대적 음성 샘플로 푼다. 단순 PSNR·SSIM이 잡지 못하는 "어색한 디테일"을 줄이는 데 초점이 있다.

MetaphorVU-Bench — 은유 영상 이해의 cross-domain mapping

HuggingFace · MetaphorVU-Bench
영상에서 비유적 의미를 읽는 능력을 cross-domain mapping 문제로 정의한 벤치마크다. "이 영상은 무엇을 비유하는가"를 묻는 항목들로 구성되어, 멀티모달 cognition 평가의 다음 마디를 짚는다.

InstructSAM — 자유 형식 instruction을 instance segmentation으로

HuggingFace · InstructSAM
SAM3에 LLM 인터페이스를 얹어 "두 번째 줄에 있는 빨간 컵을 골라줘" 같은 자연어 지시를 instance segmentation으로 변환한다. 자유 형식 instruction을 픽셀 단위 마스크로 끌어내리는 인터페이스로, GUI 에이전트·로보틱스 측에서 즉시 가져다 쓸 만한 결과다.

VaaWIT — 다국어 웹 이미지 번역 시각 인식 LLM 어댑테이션

HuggingFace · VaaWIT
다국어 웹 이미지에 박힌 텍스트를 식별·번역하기 위해 시각 인식 LLM을 어댑테이션하는 접근이다. 광고·SNS·UI 캡처 같은 실세계 입력에서 OCR + 번역을 한 모델에 묶어 처리한다.

Geometry-Aware Image Flow Matching

HuggingFace · Geometry-Aware Flow Matching
자연 이미지에서 의미 정보는 방향 성분에, norm은 전역 평균으로 근사 가능하다는 통계적 관측을 출발점으로 잡는다. 이를 받아 latent를 구면 위 점으로 보고 angular metric 기반 spherical OT-CFM과 norm 보정 네트워크를 결합한 flow matching을 제안한다. 기존 LDM의 오토인코더 잠재공간을 그대로 받아 적용 가능하다는 점이 실용적 포인트로, 정량 비교와 radius ablation이 본 논문의 핵심 평가 지점이다.

Injecting Image Guidance into Text-Conditioned Diffusion at Inference

HuggingFace · VCF
Stable Diffusion 같은 텍스트 조건 diffusion에 추가 학습·파인튜닝 없이 inference 시점에 image guidance를 주입하는 Visual Concept Fusion(VCF)을 제안한다. 핵심은 latent diffusion 디노이징 과정 중 텍스트 임베딩과 이미지 임베딩을 시간 의존적(time-aware)으로 융합해 dual conditioning을 적용하는 것. ControlNet·IP-Adapter 라인 대비 학습 비용이 0이라는 점이 차별점이다.

Channel-wise Vector Quantization — 패치 대신 채널을 토큰으로

HuggingFace · CVQ, arXiv · CVQ
VQ-VAE/VQ-GAN 이후 이미지 토큰화는 패치 단위가 사실상 표준이었지만, CVQ는 발상을 뒤집어 채널 축을 양자화한다. 패치별 단일 코드북 인덱스 대신 각 채널을 별도 코드북에 매핑해 이미지를 "이산화된 시각 디테일 레벨"의 묶음으로 표현하고, 그 위에 "next-channel prediction" 시각 autoregressive 모델을 정의한다. 같은 논문이 같은 주에 HF와 arXiv 양쪽에 잡힌 점도 신호다.

On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

HuggingFace · OPAFD
autoregressive video generation에 flow distillation을 결합해, on-policy 적대 학습으로 teacher의 분포를 따라간다. 비디오 생성을 한 토큰씩 짜는 방식과 한꺼번에 짜는 flow 방식 사이를 잇는 시도다.

ControlLight — Controllable, Consistent, Generalizable Low-Light Enhancement

HuggingFace · ControlLight
실세계 degraded 이미지를 모은 대규모 데이터셋에 연속적 illumination-strength label을 부여하고, 이 라벨을 조건으로 받아 강도를 조절 가능한 generalizable enhancement 모델을 학습한다. "controllable + consistent + generalizable"이라는 세 축을 명시적으로 분리해 평가한 점이 후속 연구의 평가 프레임 역할을 할 수 있다.

SKILD — 스케일 불변 K-Space 확산으로 생성과 초해상화 통합

arXiv · SKILD
이미지 생성과 super-resolution을 하나의 K-space 확산으로 통합한다. 두 작업을 별도 모델로 다루던 관행에서 벗어나 스케일 불변 표현 위에서 공통 학습 신호를 흘리는 접근이다.

MuNet — 3D 인체 메시 복원과 의상 인체 재구성을 단일 GCN으로

arXiv · MuNet
3D body mesh와 cloth reconstruction을 별도 파이프라인으로 풀어온 관행을 하나의 GCN으로 묶는다. 두 작업이 서로의 정확도를 끌어올리는 상호 최적화 구조다.

μCRASP — VLM의 CoT를 보존하는 구조적 가지치기

arXiv · μCRASP
Vision-Language Model을 압축하면서 chain-of-thought 능력을 보존하는 구조적 pruning이다. 일반 가지치기가 CoT를 망가뜨리는 문제를 명시적으로 다룬다는 점이 핵심이다.

MLLM에서 Subject-Driven Generation 용량 짜내기 — Dual Layer Aggregation

arXiv · Dual Layer Aggregation
personalized generation을 더 가볍게 만들기 위해 MLLM의 dual layer를 모아 활용하는 효율화 기법이다. subject 정체성을 일관되게 유지하면서 추론 비용을 줄이는 방향이다.

DRScaffold, VEN-VL — 경량 VLM의 밀집 추론 강화 + enrich-then-compact MoE

arXiv · DRScaffold, arXiv · VEN-VL
경량 VLM이 dense scene reasoning에서 약하다는 약점을 두 방향에서 보완하는 한 쌍이다. DRScaffold는 외부 scaffolding으로 dense reasoning을 끌어올리고, VEN-VL은 enrich-then-compact 시각 MoE로 정보 밀도를 높인다. 둘 다 작은 VLM이 일정 수준의 정밀 추론까지 가능하게 만들겠다는 목표를 공유한다.

연구 레이더 — 에이전트 학습·RL·메모리

SEAL, SkillEvolBench, ParaVT — 에이전트·환경 공진화의 세 갈래

HuggingFace · SEAL, HuggingFace · SkillEvolBench, HuggingFace · ParaVT
같은 주에 "에이전트가 환경과 함께 진화하는가"라는 단일 질문이 세 편에서 동시에 잡혔다. SEAL은 도구 사용 RL의 고질병인 보상 희소성을, 에이전트가 환경을 같이 진화시키며 자동 커리큘럼을 만드는 방식으로 푼다. 환경 측 변경이 학습 신호를 만들어주고, 학습된 에이전트가 다시 환경을 더 복잡하게 만든다. SkillEvolBench는 한 발 더 들어가 "에피소드 경험이 재사용 가능한 절차 스킬로 정착되는가"를 측정하는 벤치마크다. 단순 reward 누적이 아니라 스킬이 raw experience에서 추상적 절차로 결정화되는 과정을 본다. ParaVT와 PARA-GRPO는 도구 사전확률의 역설을 다루는 병렬 비디오 도구 호출 RL로, "강한 사전확률이 오히려 학습을 망친다"는 현상을 정량화한 뒤 병렬 도구 호출 RL로 우회한다. 세 편을 같은 단락에 놓아야 2026-05 시점의 "에이전트 공진화" 흐름이 한 줄로 잡힌다.

DVAO — Multi-reward RL의 Dynamic Variance-adaptive Advantage Optimization

HuggingFace · DVAO
GRPO가 value model 없는 PPO 대안으로 빠르게 자리잡았지만 실제 멀티 리워드 환경(정확도 + 안전 + 형식 + 길이)에서는 한계가 있다는 문제 의식이다. 기존 scalarization 두 방식 — Reward Combination(점수 합산)과 Advantage Combination(advantage 합산) — 의 분산 왜곡·스케일 충돌을 정량적으로 보인 뒤, 각 리워드의 동적 분산을 추정해 advantage를 재가중하는 DVAO를 제안한다. RLHF/RLAIF 파이프라인에 보상 모델이 여러 개일 때 바로 도입 가능한 형태다.

LegalSearch-R1 — 시간 일관성을 강제하는 법률 agentic search RL

arXiv · LegalSearch-R1
법률 검색 에이전트가 시간에 따라 바뀌는 법령·판례를 일관되게 다루도록 강제하는 agentic search RL 프레임워크다. 도메인 LLM과 agentic search를 결합하면서 "오늘 시점의 법령"과 "쿼리 시점의 법령"을 혼동하지 않도록 시간 일관성을 reward에 명시적으로 박는다.

TIAR — GRPO trajectory를 self-confidence 신호로 활용한 LLM abstention

arXiv · TIAR
GRPO rollout의 trajectory 자체에서 모델 자기 confidence를 뽑아 abstention(답하지 않기) 신호로 쓴다. hallucination 완화 측 RL의 한 갈래로, "모르면 답하지 마라"를 별도 라벨 없이 RL trajectory로 가르치는 접근이다.

직교 보틀넥 — 강화학습 표현을 저차원 부분공간에 가두는 단순 prior

arXiv · Orthogonal Bottleneck
RL 표현 학습의 noise·redundancy 문제를 단순한 직교 보틀넥 prior로 줄인다. 표현을 저차원 부분공간에 가두어 정책 학습이 더 안정적으로 수렴하게 만든다는 단신이다.

NS3 — 다중 자유 변수 EFOₖ 쿼리를 위한 budget 기반 neural symbolic search

arXiv · NS3
knowledge graph 위에서 다중 자유 변수를 가진 EFOₖ(Existential First-Order with k-free variables) 쿼리를 푸는 neural symbolic search 프레임이다. budget을 명시적으로 다루어 무한 탐색을 방지하고 답을 찾는 trace를 reasoning 신호로 노출한다.

L2IR — LLM 기반 잠재 의도 추론으로 위장 그래프 사기 탐지 강화

arXiv · L2IR
그래프 사기 탐지에서 "공격자가 정상 사용자처럼 위장한 노드"를 LLM의 잠재 의도 추론으로 잡는다. 그래프 신호만으로는 잡히지 않는 미세 패턴을 LLM이 정성적으로 해석해 보조한다.

TTPrint — 발산-수렴 검증으로 MITRE ATT&CK 기법을 증거 기반 추출

arXiv · TTPrint
보안 인텔리전스 텍스트에서 MITRE ATT&CK 기법을 LLM으로 추출할 때 발산-수렴 검증(여러 후보 → 증거 매칭 → 합의)으로 환각을 줄인다. 사이버 보안 LLM 응용의 한 사례다.

연구 레이더 — LLM 해석가능성·평가·인프라

Language Models Need Sleep — 컨텍스트를 fast weights로 통합하는 잠 메커니즘

HuggingFace · Language Models Need Sleep, arXiv · Language Models Need Sleep
긴 컨텍스트에 attention이 약하다는 고질적 문제를 "수면 중 기억 통합"이라는 신경과학적 비유로 푼다. 모델이 일정 주기로 sleep 단계에 진입해 최근 KV 캐시 내용을 SSM 블록의 fast weight로 흡수한 뒤 캐시를 비우는 방식이다. 수면 중에는 누적된 컨텍스트 위에서 N회 오프라인 recurrent pass를 돌리고, awake 단계에서는 기존 attention + 갱신된 fast weight를 함께 사용한다. attention 비용은 짧은 활동 구간에만 한정되고 장기 기억은 가중치로 압축되는 구조다. 같은 논문이 같은 날 HF와 arXiv 양쪽에 잡힌 점도 신호로, 장기 horizon 에이전트(코드 작업·멀티세션 대화)에서 attention scaling을 우회하는 흐름의 가장 도발적인 시도다.

Geometric Evolution Maps + Activation Oracles — LLM 내부 신호의 신뢰성

arXiv · GEM, arXiv · Activation Oracle UQ
같은 주에 "LLM 내부 신호를 어떻게 믿을 것인가"라는 같은 질문이 두 편에서 다른 각도로 잡혔다. GEM은 트랜스포머 residual stream에서 concept direction이 layer를 따라 크게 회전한다는 점을 측정 — 23개 아키텍처(70M~14B), 391개 concept × model 쌍에서 entry-exit cosine 평균이 0.233(median 0.216), 93.9%가 0.5 미만, 23.8%가 near-orthogonal이다. 그 회전이 멈추는 handoff layer를 자동 식별해 settled probe를 뽑으면 peak-layer probe 대비 391건 중 259건(66.2%)에서 strict 우위였다. Activation Oracle UQ는 다른 모델의 hidden state를 자연어로 읽는 oracle이 자기 확신을 어떻게 출력해야 하는지 6개 방법으로 처음 벤치마크한 작업이다. 두 oracle × 6,000 샘플/configuration에서 temperature bootstrap mode frequency가 best-calibrated였고(Qwen3-8B ECE 5.7%, log-prob baseline 25.5%), 가장 위험한 신호는 free-form numeric self-report로 27B oracle에서는 오답에 평균 더 높은 confidence(98.9%)를 매기는 anti-calibrated 결과를 보였다. 두 편을 함께 보면 "내부 신호는 풍부하지만 verbalized confidence는 믿지 마라"라는 메타 메시지가 분명히 그어진다.

Causal Tongue-Tie — LLM은 인과 방향을 인코딩하지만 Yes/No로는 못 말한다

arXiv · Causal Tongue-Tie
anti-commonsense CLadder 아이템(예: "흡연이 폐암을 예방한다"는 in-prompt 증거)에서 hidden state에 대한 frozen linear probe는 evidence-aligned 답을 정확도 ≈0.97로 복원하지만, 같은 forward pass의 lm_head Yes/No 출력은 0.35~~0.525에 머문다. 격차 Δ≈+0.5를 저자들은 Causal Tongue-Tie라 부른다 — 내부는 안다, 입은 못 연다. Qwen2.5 0.5B~~72B, Mistral-7B, DeepSeek-7B 모두에서 같은 패턴이고 모델 크기를 키워도 격차가 닫히지 않는다. layer 27의 full-state donor patch로 hidden state 전체를 교체하면 정확도가 0→0.571로 뛰지만, V_cs 한 축의 scalar swap으로는 spoken Yes/No 정확도가 ≤+0.025밖에 움직이지 않는다. answer interface ladder(ordinary Yes/No 0.263 / bridge 0.588 / arrow 0.713 / A/B edge 0.988)는 "출구 형식"이 능력 측정을 왜곡한다는 점을 정량적으로 못 박는다. Reasoning Trace 559명 실험과 함께 "verbalized output을 곧 모델 능력으로 등치하는 것의 위험"을 같은 결로 가리킨다.

Your Embedding Model is SMARTer Than You Think + SemBridge

HuggingFace · SMART, HuggingFace · SemBridge
SMART는 단일 벡터 retriever에서 학습 없이 multi-vector 표현을 끌어내 ColBERT급 검색 품질을 노린다. 글로벌 요약 벡터와 토큰 단위 fine-grained 단서를 동시 활용하는 dual-stage scoring이 핵심이다. SemBridge는 SPLADE 같은 sparse encoder의 영어 중심 vocab 한계를 multilingual bridge model로 source-target vocab 의미 정렬을 사전 계산해 embedding initialization에 주입하는 방식으로 푼다. 한국어 RAG 파이프라인 운영자에게 직접적인 시사점이 있는 한 쌍이다.

From Latent Space to Training Data — 최소 MLP의 설명 가능한 특화

arXiv · From Latent Space to Training Data
최소 크기 MLP가 학습 데이터에 어떻게 특화되는지를 latent space에서 training data로 거꾸로 따라가 본다. 작은 모델에서 "어떤 데이터 포인트가 어떤 latent 방향을 만들었는가"를 추적할 수 있다는 이론·해석가능성 단신이다.

Towards Evaluation Engineering — ML 평가 하네스의 실증적 SE 연구

HuggingFace · Towards Evaluation Engineering
ML 평가 하네스 자체를 소프트웨어 엔지니어링 관점에서 실증적으로 다룬 첫 본격 연구다. 어떤 평가 인프라가 안정적이고, 어떤 비표준 관행이 결과 재현성을 깨뜨리는지를 실측한다. 모델보다 평가 인프라가 더 큰 변수가 되는 시점에 SE 연구가 따라 들어오는 흐름의 좌표를 찍는다.

RankJudge — 다중 턴 reference-grounded LLM-as-judge 벤치마크 생성기

HuggingFace · RankJudge
LLM-as-judge가 다중 턴 대화의 품질을 측정할 수 있는지 평가하는 judge meta-eval 벤치마크다. reference-grounded 평가 항목을 자동 생성해 judge들을 비교한다. judge의 신뢰도를 judge하는 메타 인프라의 한 사례.

AI 보조 시스템화 — GenAI 평가의 누락된 단계를 메우는 컨셉 스펙

arXiv · AI-Assisted Systematization
GenAI 평가 워크플로에서 자주 누락되는 "평가 디자인을 시스템화"하는 단계를 컨셉 스펙으로 정리한다. 평가 시스템을 만들 때의 결정 점들을 명시적으로 열거해 재현 가능한 평가 디자인을 가능하게 한다는 방향이다.

When Gradients Collide — 다중 평가 기준 프롬프트 최적화의 실패 모드

arXiv · When Gradients Collide
다중 평가 기준을 동시에 만족시키려는 prompt optimization이 어떤 실패 모드에 빠지는지를 정량화한다. 서로 다른 기준의 gradient가 충돌할 때 단순 합산이 모든 기준을 다 망가뜨리는 패턴을 보이며, "다중 기준 최적화는 단일 기준 합산이 아니다"라는 메타 메시지를 남긴다.

D²-Monitor — Hesitation-Aware Routing으로 Diffusion LLM 감시

arXiv · D²-Monitor
Diffusion LLM(D-LLM)의 denoising trajectory에서 "hesitation step" 개수가 분류 난이도를 가장 잘 예측한다는 발견을 토대로, 0.85M 파라미터의 cascade 안전 모니터가 LSTM·TimeAttn급 baseline을 일관되게 이긴다. WildGuardMix intra-dataset에서 D²-MLP F1 89.7(LLaDA-8B-Instruct), cross-dataset(→ToxicChat) D²-TimeAttn 75.0. margin 신호가 entropy/confidence보다 라우팅에 압도적으로 유리하다는 점도 본 논문의 부수 발견이다.

QUIET와 Creative Quality Alignment — LLM 창작 능력 평가·정렬 한 쌍

arXiv · QUIET, arXiv · CQA
같은 저자·동일 이론 프레임에서 나온 평가-정렬 한 쌍이다. QUIET는 다중 빈칸 cascaded story cloze로 LLM 창작 능력을 채점하고, CQA는 약 100개 CoT로 LLM의 창작 판단력을 정렬한다. "평가가 부족하면 정렬도 부족하다"는 단순 명제가 한 묶음의 두 편으로 실증된다.

StakeBench — 시장 commitment에 grounded된 언어 이해 평가

arXiv · StakeBench
시장 forecast·commitment에 grounded된 LLM 언어 이해 평가다. 금융 NLP 평가의 다음 마디로, "정답이 시장에서 나온다"는 setup을 만든다.

ThriftAttention — Long-Context FP4 Attention의 selective mixed precision

HuggingFace · ThriftAttention
long-context FP4 attention에서 어떤 토큰 위치에 더 높은 정밀도를 줄지 selective하게 결정하는 mixed precision 기법이다. 단순 FP4 일괄 적용 대비 품질 손실을 줄이면서 메모리/연산을 절감한다.

OrpQuant — 직교 잔차 투영으로 Power-of-Two 양자화 해상도 문제 해결

arXiv · OrpQuant
Power-of-Two 양자화에서 발생하는 각도 해상도 문제를 직교 잔차 투영으로 해결한다. 양자화된 가중치가 표현할 수 없는 미세 방향을 잔차 보정 항으로 복원하는 방식이다.

CORTIS — 데이터 보존 없는 sequential 화자 정체성 unlearning

arXiv · CORTIS
ZS-TTS의 첫 continual speaker identity unlearning 프레임으로, GDPR RTBF 데이터 보존 패러독스를 contrastive Fisher-information saliency masking + cumulative orthogonal subspace projection 두 메커니즘으로 해결한다. VoiceBox 위에서 5회 sequential unlearning 후에도 forget speaker 유사도가 0.18 이하 유지, pretrained baseline 대비 평균 75% reduction이다. catastrophic re-learning이라는 새로운 실패 모드를 처음으로 형식화한 점이 핵심 기여다.

Beyond Summaries — LLM으로 코드 diff hunk를 분류-라벨링

arXiv · Beyond Summaries
코드 diff hunk를 단순 요약하는 대신 LLM으로 분류·라벨링한다. PR 리뷰·코드 검색·변경 이력 분석에 즉시 쓸 수 있는 DevTools 단신이다.

LogMILP — Weakly-Supervised Log Instance Anomaly Localization

HuggingFace · LogMILP
약지도 학습으로 로그에서 비정상 인스턴스를 찾아내는 운영 AI 응용이다. counterfactual perturbation으로 supervision 신호를 보강해, 라벨이 적은 운영 환경에서도 동작 가능한 anomaly localization을 노린다.

NSAC — C. elegans 영감 stochastic continuous-time attention

arXiv · NSAC
시계열 + 불확실성 정량화에서 C. elegans 신경회로에서 영감을 받은 stochastic continuous-time attention을 제안한다. 작은 모델로도 시간 축 불확실성을 잡아내는 흐름이다.

컨텍스트 도구적 데이터 증류 — Kubernetes 매니페스트 생성용 SLM 특화

arXiv · Context-Tool Distillation
Kubernetes 매니페스트 생성처럼 DSL 특화 작업에 대해 큰 모델의 컨텍스트·도구 사용을 작은 모델에 증류한다. SLM 특화의 한 사례로, 운영 도메인에서 작은 모델로도 정확한 산출이 가능하다는 시범이다.

WSADBench — 약지도 이상치 탐지 통합 벤치마크 700K 실험

arXiv · WSADBench
약지도 이상치 탐지의 통합 벤치마크로, 700K 규모 실험으로 기존 방법들을 같은 조건에서 비교한다. 단신이지만 평가 인프라 표준화의 한 칸을 채운다.

Conditional KRR — 비처벌 feature를 커널 메소드에 주입

arXiv · Conditional KRR
처벌받지 않는 feature를 커널 ridge regression에 주입하는 통계학습 이론 단신이다. 작은 데이터셋에서 도메인 prior를 그대로 살려 모델에 넣는 방식이다.

CITYREP — 도시 표현 학습을 위한 공간-누수 차단 통합 벤치마크

arXiv · CITYREP
도시 표현 학습에서 train/test가 공간적으로 누수되는 문제를 차단한 통합 벤치마크다. 동일 도시 내에서 train/test가 인접 grid로 흘러 들어가는 흔한 함정을 명시적으로 차단해 표현 학습의 진짜 일반화 능력을 측정한다.

WaveLiT — 10M 파라미터로 1.2B Foundation PDE 모델과 겨루는 구조적 inductive bias

arXiv · WaveLiT
PDE foundation 모델 1.2B 파라미터와 10M 짜리 WaveLiT가 직접 겨룬다. 구조적 inductive bias가 적절히 박혀 있으면 작은 모델이 큰 foundation 모델과 동급으로 동작할 수 있음을 보이는 scientific ML 사례다.

기타 사회·정치·생활 신호

미국, ETF 개수가 상장 주식 수를 추월 — 자본시장 단신

Hacker News · apollo.com
Apollo Chief Economist의 Daily Spark가 차트 한 장을 던졌다. 미국에서 거래 가능한 ETF 수가 실제 상장 기업 수를 추월했다. 1996년 8천 개대 정점이었던 공모 상장사는 사모·PE·M&A 흡수로 꾸준히 줄었고, ETF는 액티브·테마·레버리지·옵션 기반까지 빠르게 분화하며 수천 종이 신설됐다. 가격 형성이 점점 더 패시브 흐름과 ETF 리밸런싱에 의존하고 개별 종목 단위 펀더멘털 발견 메커니즘은 약해진다는 신호다.

"최악의 면접"이 던지는 컬처핏 인터뷰의 윤리적 한계

Hacker News · oliverio.dev
청소년 정신건강 스타트업의 founding engineer 자리에 지원했다가 두 번째 단계에서 받은 90분짜리 "비전통적 컬처핏 인터뷰" 회고다. 기술 평가는 한 번도 없었고 "인생에서 가장 힘들었던 날", "가장 큰 도전" 같은 trauma-baiting 질문이 이어졌으며 24시간 뒤 한 줄 거절 메일이 왔다. 정신건강 회사가 이런 포맷을 택했다는 아이러니가 글의 무게를 만든다.

Trump DOJ, 1·6 폭동 기소 자료를 대량 삭제 — 미국 정치

Hacker News · NPR
DOJ가 1·6 관련 보도자료(유죄인정·평결·선고)를 대량 삭제했다. 삭제 대상에는 Daniel Rodriguez(12년+, Fanone 경관 전기충격), Albuquerque Head(7년+), Thomas Webster(10년), Peter Schwartz(14년) 등 가장 폭력적인 경관 폭행 사건들이 포함됐다. Trump는 1·6 피고 전원을 사면했고 18억 달러 "Anti-Weaponization Fund"를 조성, 폭동 가담자도 보상 대상에 열어뒀다. NPR이 약 1,600건 형사 사건과 바디캠·CCTV 영상의 메타 아카이브를 유지 중이다.

블루레이 드라이브가 GameCube·Wii·Xbox 360 디스크를 PC로 리핑

Hacker News · Tom's Hardware
OmniDrive 펌웨어가 MediaTek MT1959 칩셋 기반 Blu-ray 드라이브를 GameCube·Wii·오리지널 Xbox·Xbox 360·Dreamcast 디스크의 리퍼로 변신시킨다. PS3/4/5와 Xbox One/Series는 콘텐츠 암호화로 사실상 불가. Asus·LG·Buffalo·Verbatim 일부 모델이 호환이고 비호환에 플래싱하면 거의 확실히 브릭된다. 광디스크 부패가 진행되는 GameCube·Wii 시기 정품의 보존 진입 장벽이 평범한 가전 부품 수준으로 낮아졌다.

"주택 소유의 진짜 비용" — 렌트 vs 매매 재계산

Hacker News · ericturner.dev
2011년 $420k에 산 집(현 Zillow 추정 $757k)의 실제 비용을 영수증 단위로 공개한 글이다. 클로징 $12,777.92, 첫 모기지 월 $2,329.92 중 원금 21%, 현재 월 지출 $2,440.48. 누적 수리에는 천창 $6,566, 지붕 $9,390, 창호 $10,530, 사이딩 $21,046, 폴리부틸렌 배관 $5,050이 들었다. 전기 단가는 2024-01 17.3¢/kWh → 2026-05 24.7¢/kWh로 2년간 42% 상승했고 AI 데이터센터 수요가 원인 중 하나로 거론된다. 매도 시 비용은 약 집값의 10%다.

"젊은 사람의 대장암 증가"는 정확히 뭘 의미하나

Hacker News · dynomight.net
"젊은 층 CRC 증가" 헤드라인의 통계 구조를 출생 코호트로 다시 해체한 글이다. 1920~~1950년대생까지는 후세대일수록 모든 연령에서 CRC율이 낮았지만 1950~~60년 출생 이후 추세가 정확히 뒤집힌다. Sung et al.(2019) Lancet Public Health는 자궁·담낭·신장·간·췌장·갑상선 등 18종 이상 암이 같은 코호트 패턴을 보인다는 점도 제시한다. "1960년 이후 출생자 전반의 평생 위험이 오르고 있다"가 더 정확한 명제다.

"What Color Is Your Function?" 다시 떠오른 async 비판 (2015)

Hacker News · stuffwithstuff.com
Bob Nystrom의 2015년 알레고리가 HN 첫 페이지에 다시 올라왔다. async/await가 함수에 "색"을 새기고 그 색이 코드베이스 전체에 전염된다는 메시지는 11년이 지나도 유효하다. LLM 호출·스트리밍 IO·MCP·agent 프레임워크가 표준화되며 거의 모든 함수가 async가 되는 상황에서, Java 가상 스레드·goroutine·fiber 같은 "색 없는 동시성"이 다시 주목받고 있다.

독일, 무자녀 성인 대상 노인 돌봄 보험료 인상 추진

Hacker News · DW
독일 연방 보건부장관 Nina Warken이 무자녀 성인의 공적 노인 돌봄 분담률을 단계적 0.7%p 인상하는 안을 준비 중이다. 인상 후 무자녀 성인은 소득의 2.5%, 자녀 1명 1.8%, 2명 1.55%, 3명+ 1.3%. 23세 이상 풀타임 근로자가 대상이다. 인구 정체와 고령화가 동시에 진행되는 가운데 공적 돌봄 보험 수지 균형을 잡기 위한 시도다.

TIGIT 신약 클래스 전체의 붕괴 — "모든 브레이크가 바퀴에 연결된 건 아니다"

Hacker News · owlposting.com
TIGIT 표적 항암제 12년사의 묘비명이다. Roche SKYSCRAPER 프로그램 12개 임상 약 5,000명 환자 + Merck vibostolimab 12개 + BMS·BeiGene·Arcus·iTeos까지 전부 실패. SKYSCRAPER-01(NSCLC PFS 미스, 2022-05), SKYSCRAPER-06(2024-07, 표준요법보다 사망 증가), 2024-11-26 flagship OS 최종 분석에서도 실패했다. GSK는 iTeos belrestotug에 $625M up-front + $1.45B 마일스톤을 걸었다 종료, iTeos는 청산 절차에 들어갔다. 2026 BMJ Oncology 분석은 약 49,000명 환자·30억 달러+ 비용이 "herding"으로 같은 가설을 반복 검증당했다고 결론짓는다. 인간 유전체·면역학·약물성·초기 임상 신호까지 모두 갖춘 translational 모범생도 실패할 수 있다는 굴욕적 교훈이다.

스웨덴, 정기 흡연율 5% 미만으로 "smoke-free" 진입

Hacker News · The Local
매일 흡연 비율 2003년 16% → 2025년 4.8%, WHO 기준 "smoke-free country"에 진입했다. 1980년대 초만 해도 30%+였다. 실질 담배 가격 45% 상승, 광고 금지, 금연 지원의 정책 패키지가 작동했지만 snus(니코틴 파우치) 사용 증가가 "총 니코틴 의존" 지표를 흐린다는 단서가 같이 붙는다.

React는 사랑받는가? — 안티 React 글 50선 인덱스

GeekNews · 큐레이션
지난 1~2년간 등장한 반(反) React 비판 글 약 50편을 한 페이지로 묶은 큐레이션이다. 가장 무거운 사실은 CVE-2025-55182(React Server Components 인증 없는 RCE, CVSS 10.0)다. Microsoft Edge가 React → Web Components + HTML-first로 옮겨 저사양 기기 이익을 봤다는 사례, Liveview로 React SPA를 며칠 만에 프로토타이핑한 사례 등이 본문에 박혀 있다. "React를 배우지 않는 선택지를 진지하게 고려하라"는 권고가 점차 등장하고 있다는 메타 스냅샷.

Shamir의 비밀 공유: "두 점이 한 직선을 정한다"의 직관

GeekNews · Ente
Adi Shamir(RSA의 S, 1979) 비밀 공유 스킴을 직관적으로 정리한 글이다. 핵심 차이는 "몫이 부족할 때 비밀 계산이 어렵다"가 아니라 "몫이 부족하면 비밀에 대한 정보가 0이다"라는 것 — is hard to crack이 아니라 reveals nothing. Ente Legacy Kit이 이를 한 층으로 쓰고 서버 매개 흐름과 결합해 카드 폐기 가능성까지 확보한 실제 운영 사례를 같이 풀어둔다.

아이들이 앞마당을 떠나지 못한다 — Safetyism의 비용

GeekNews · Steve Magness
11세의 53%가 앞마당도 떠나지 못하고 84%가 자기 거리를 못 떠난다, 14세 92%가 동네를 못 떠난다, 영국 초등학생 자력 하교가 1971년 86%에서 2010년 25%로 줄었다는 수치다. 1990년대 초 이후 어린이 대상 폭력 범죄는 꾸준히 감소해 왔다 — 변한 건 두려움이다. 핀란드는 7세 대다수가 자력 통학·자전거 통학. "AI에 의존하는 시대의 학습된 무력감" 비유로 글의 후반부가 자연스럽게 AI deskilling 논의와 연결된다.

사이트로 구현한 Hacker News 프런트 페이지 (thefrontpage.dev)

GeekNews · thefrontpage.dev
HN 프런트 페이지의 각 항목을 짧은 요약과 함께 보여주는 사이트다. 본문 안에 SignalBloom의 "outsourcing + local AI > frontier labs" 분석(frontier $2.80~2.82/M tokens vs DeepSeek $0.094/M tokens, 약 30배 차이), DeepSWE 벤치마크, EAGLE 3.1, Pope Leo XIV의 Magnifica Humanitas까지 한 카드에 묶여 있어 그 자체가 daily digest의 한 모범 사례다.

네덜란드, 사이버공격 지원 혐의로 800대 서버 압수·2명 체포 (Stark Industries)

GeekNews · KrebsOnSecurity
네덜란드 FIOD가 5월 18일 Andrey Nesterenko(39, 러시아 출신)와 Youssef Zinad(57, 암스테르담)를 체포하고 노트북·전화·서버 800대를 압수했다. Stark Industries Solutions는 우크라이나 침공 2주 전에 출현해 러시아 정보기관 사이버 작전의 상시 무대 역할을 한 호스팅 업체로, EU 제재 2주 전 자산이 WorkTitans BV(MIRhosting을 통해 연결)로 이전된 흐름이 제재 회피로 의심받았다. de Volkskrant 분석은 2025-11-13~19 덴마크 지방선거 주간에 친-러시아 공격에 가장 많이 쓰인 네트워크가 WorkTitans·MIRhosting이었다고 보고한다.

C 확장·이식성·대체 컴파일러에 관하여 — "ISO C 표준 준수는 비현실적이다"

GeekNews · lemon.rip
자체 C 컴파일러 antcc를 만든 lemon이 실전에서 부딪힌 libc 헤더의 비-표준 GCC 의존성을 사례별로 정리한다. glibc sys/cdefs.h는 GCC/clang/TINYC가 아니면 __attribute__을 전부 무시해 struct epoll_event ABI를 깨고, OpenBSD __only_inline은 비-GNU에서 static linkage 충돌, Android bionic은 clang을 가정해 nullability 매크로를 흩뿌린다. clang이 __GNUC__=4, __GNUC_MINOR__=2로 GCC 4.2.1 호환을 가장하는 게 가장 현실적인 전략이라는 결론이다.

Mullvad: 출구 IP VPN 서버 핑거프린팅 완화 배포 (13개 서버)

GeekNews · Mullvad
VPN 서버 간 출구 IP 핑거프린팅 완화를 13개 서버에 점진 배포했다. au-mel/syd, ca-mtr, de-fra, fi-hel, fr-par, ie-dub, no-osl, se-sto, us-dal/lax/nyc/slc 분포다. 다중 hop이나 다른 VPN 출구를 함께 운영하는 환경에서의 교차 식별 위협을 다룬다.

Jira는 튜링 완전하다 — Minsky 머신을 자동화 규칙으로 환원

GeekNews · Nicolas Seriot
"Jira가 튜링 완전"이라는 엔지니어 민속에 명시적 환원을 제공한 글이다. Register A = 링크된 Bug 카운트, Register B = 링크된 Task 카운트, PC = Epic 상태(BACKLOG/TODO/DEV/PROD), Dispatch Table = Jira Automation rules. 덧셈 5 transition, Fibonacci는 3 상태 + 3 레지스터 + Convert Issue Type으로 구현. Jira Cloud chain-depth cap 10 triggers는 사람이 Epic을 한 번 더 건드려 다음 클록 틱을 공급해야 한다는 한계만 남긴다.

Google이 더 이상 Google이 아닐 때 — Kagi·DuckDuckGo·Startpage·&udm=14·Brave·Ecosia

GeekNews · TechCrunch
Google I/O 2026에서 "25년 만의 최대 업데이트"로 AI 모드와 AI Overviews 채팅 박스를 첫 화면에 끌어올렸다. 대안 6종 — Kagi(월 $5/$10 무광고, Lenses), DuckDuckGo(무료·트래킹 없음·AI opt-out), Startpage(Google 프록시), &udm=14(AI Overview 우회 URL 파라미터, github.com/readtedium/udm14), Brave(Chromium 기반·Goggles 필터), Ecosia(수익 80% 식수 사업) — 가 한 페이지로 정리됐다.

캘리포니아 연령확인법(AB 1043) — 오픈소스 OS 면제 개정안(AB 1856)

GeekNews · Tom's Hardware
2027-01-01 시행 예정인 Digital Age Assurance Act(AB 1043)가 OS 단에 "under 13 / 13~~15 / 16~~17 / 18+" 연령 브래킷 신호를 강제한다. 개정안 AB 1856(Buffy Wicks 발의, 2026-02-11)이 "복제·재배포·수정 허용 라이선스" 배포자를 "OS 제공자" 정의에서 제외해 Debian·Fedora·Ubuntu·Arch·Mint는 면제 가능하지만 SteamOS처럼 독점 앱 생태계와 결합된 케이스는 회색 지대로 남는다.

braillify — 2024 개정 한국 점자 규정 100% 준수, Rust+WASM 오픈소스 점역기

GeekNews · Devfive
2024년 개정된 한국 점자 규정 기반 Rust 점역 라이브러리. 점사랑·하상브레일 같은 기존 점역기가 레거시 코드 의존으로 최신 규정과 맞지 않던 한계를 처음부터 새로 짜서 우회한다. Node.js·Python·WebAssembly에서 모두 동작하고 네트워크 없이 로컬 실행 가능하며 완전 오픈소스다.

Colemak-DH 전환 일지 — 2주간 22 → 85wpm, Extend 레이어가 진짜 보너스

GeekNews · pta2002.com
QWERTY 100wpm에서 손 통증으로 Colemak-DH로 옮긴 2주 일지. Day 0 22wpm → Days 9+ 85wpm, keybr.com 점진 학습 + monkeytype punctuation 단련. macOS는 brew install --cask colemak-dh 한 줄. Vim hjkl이 Colemak에선 m·n·e·i로 흩어지는 문제를 Caps Lock + 키 조합 Extend 레이어로 해결했고, 저자는 Extend 레이어가 "Colemak과 무관하게 모든 사람에게 권장할 만한 것"이라고 평한다.

"VPN"이라 부르는 것들의 진실 — 우회 도구 ≠ VPN

Threads · tatum_hq
한국에서 흔히 VPN으로 불리는 유니콘 HTTPS·HTTPS 가드·Adguard는 SNI 필드를 가려 통신사 차단을 우회하는 기능이지만, 앱 내부에 Local VPN(가짜 VPN)만 띄울 뿐 외부 서버를 거치지 않는다. IP가 바뀌지 않고 트래픽 외부 암호화도 안 된다. 유니콘 공식 문서에도 "IP를 변경하려면 정식 VPN을 사용하라"고 명시되어 있다.

한국 카드 체리피킹 + 맥미니 M4 리퍼브

Threads · gptaku_ai
gptaku_ai가 우리카드 "카드의정석2 SUPER"가 국내외 가맹점 2% 청구할인이고 곧 단종 예정이라는 정보를 공유했다(좋아요 209). 체리피킹 15년차로 매년 약 100만원어치 포인트를 쌓는다고 한다. 같은 주에 cyoooon84는 캐나다 Apple 공식 리퍼브에 맥미니 M4 16/256 가성비 모델이 입고됐고 본인이 즉시 구매했다는 정보를 짧게 남겼다.

1인 개발자 분석 툴 체크 — GA / Amplitude / Mixpanel / PostHog

Threads · dev_squirrel
"설마 GA / Amplitude / Mixpanel 중 하나라도 설치 안 하고 앱 출시한 1인 개발자 없죠?"라는 도발성 질문이 21 upvote / 11 comment의 가벼운 토론을 만들었다. 본인은 PostHog를 안 써봤다는 부연. 출시 직후의 가장 흔한 누락 포인트를 지적한다.

무료 도메인 등록 오픈소스 — 16.2만 스타 (주장 기준)

X · DivyanshT91162
GitHub Star 162,000을 모은 오픈소스 도메인 서비스가 등장했다는 짧은 공유다. $0 등록·영구 무료 갱신·숨겨진 구독 함정 없음·풀 오픈소스 + 커뮤니티 운영을 주장하지만 구체 레포 링크나 이름은 본문에 없어 "주장 기준"으로만 인용 가능하다.

TrendRadar — 매일의 뉴스·트렌드 자동 큐레이션

Threads · art.bs88x
매일의 뉴스와 트렌드를 AI가 알아서 걸러 요약해 주는 오픈소스 도구다. GitHub sansan0/TrendRadar로 짧게 공유됐다.

기타 주목할 콘텐츠

Pixel-Level Pavement Distress Assessment

HuggingFace · Pavement Distress
포장 도로 결함을 인스턴스 세그멘테이션으로 픽셀 단위 평가하는 응용 연구. CSPDarknet53 기반 YOLO 비교군 대비 Precision·Recall에서 큰 차이를 보였다는 결과이지만, 도메인이 매우 좁아 일반 독자 대상 메인 섹션엔 잘 맞지 않는다.

Chilean ToS RAG — 칠레 소비자법 약관 남용 탐지

arXiv · Chilean ToS RAG
칠레 소비자법 기반의 잠재적 약관 남용 조항 자동 탐지 RAG. 도메인·지역이 좁지만, 비영어권 법률 NLP의 한 사례로 보존 가치가 있다.

데이터센터 가상 물 발자국 ECW 넥서스

arXiv · ECW Nexus
데이터센터의 가상 물 발자국을 dispatch에 내재화하는 ECW(Energy-Carbon-Water) 넥서스 프레임워크. 지속가능성 측 단신이다.

SPIDERP — PTSD 심각도 정량 평가

arXiv · SPIDERP
특정공포증 데이터를 전이학습해 PTSD 심각도를 정량 평가한다. 의료 응용 단신.

EchoPilot — single-click 초음파 분할

arXiv · EchoPilot
single-click + 명칭만으로 학습 없이 초음파 영상을 분할한다. 의료 영상 단신이다.

Light Sheet 형광 현미경 3D Multimodal Foundation Model

arXiv · Light Sheet 3D MFM
Light Sheet 형광 현미경용 3D Multimodal Foundation 모델. 의료 영상 도메인 foundation 모델 단신.

Transportation Safety Data — Schema-Grounded Spatial NL Query

HuggingFace · Transportation Safety NL
교통안전 데이터(crash + roadway + GIS) 통합 분석을 자연어 → SQL/공간 쿼리로 매핑하는 schema-grounded LLM 프레임워크. 비전문 stakeholder의 데이터 접근성을 확장하려는 civic-tech 사례다.

교차 분석

이번 주의 6개 핵심 흐름은 한 카테고리에서만 보면 부분만 잡힌다. 같은 신호가 여러 출처에서 어떻게 다른 결로 잡혔는지를 한 번 더 정렬한다.

1) 에이전트 운영체계의 마켓플레이스화 — 보안·직무 플러그인이 같은 주에

SNS는 사용자 측 톤으로 본다. Anthropic 공식 X의 19개 업무 플러그인(Star 16,160 / Fork 1,914, "SK하이닉스 미팅 준비" 데모)과 보안 가이던스 플러그인(PR 보안 코멘트 30~40% 감소)이 같은 주에 풀렸고, 한국 개발자들이 LazyCodex·NoAjar로 "잠긴 맥에서도 며칠 무인 운영"을 보조한다. 뉴스는 인프라 측 톤으로 본다. Anthropic engineering blog가 같은 주에 containment 설계 원칙을 3종 제품 사례로 정리했고(93% 자동 승인·24/25 phishing 성공·84% 권한 프롬프트 감소), LangChain Mission Control은 자체 호스팅 LangSmith를 위한 in-cluster 콘솔을 공개했으며, 연구 측에서는 Foundation Protocol(HF-27)·ECHO(HF-33)·MemForest(HF-06)·ProAct(HF-10)·From Model Scaling to System Scaling(ARXIV-39)이 "에이전트 자체보다 에이전트 환경"이라는 같은 결을 가리킨다. 한국 시장에서는 Anthropic Korea 법인 대표(최기영) 선임과 서울 오피스 개설, 한국 사용자 Claude 사용률이 인구 비례 기대치의 3.5배라는 정량 지표가 같은 주에 발표됐다.

2) AI 모델·인프라의 가격 압력 — 토큰 단가 붕괴와 ROI 회의가 같은 화면에

중국 진영의 가격 공세가 같은 주에 두 번 잡혔다. DeepSeek V4-Pro API 가격 영구 75% 인하(0.025~6위안/M token, Huawei Ascend 무게중심 이동을 시사)와 Xiaomi MiMo-V2.5 최대 99% 인하다. 모델 라인업에서는 Grok V9-Medium(1.5T) 학습 완료에 Cursor 사용 로그가 supplementary training에 다량 포함됐고, Karpathy의 3시간 LLM 풀스택 강의가 무료로 풀렸다. 그러나 사용자 청구서는 반대 방향이다. Reddit의 월 $957 청구서, Gemini 토큰 한도 mid-cycle 삭감에 대한 econsumer.gov 신고 캠페인(reference 202144728), Uber COO의 "AI 비용 정당화가 점점 어렵다"는 발언, "2026년 Claude Code 예산을 이미 다 썼다"는 Uber CTO 인용이 같은 주에 누적됐다. 모델 토큰은 싸지지만 청구서는 무거워지는 양면 압력이 단일 주차에 정확히 잡혔다.

3) 개발자 현장의 양극화 — 100시간 실측 vs "영원한 Sloptember"

YouTube의 Claude Code vs Codex 100시간 실측은 "어느 게 낫냐"가 아니라 "어떤 작업에 무엇이 낫냐"로 결론짓고, 대시보드 빌드에서 Claude가 약 6배 토큰 효율, 리서치 PDF에서는 Codex가 우세하다는 구체 수치를 제공한다. 그러나 같은 주에 정반대 신호도 강하게 잡혔다. Reddit의 Microsoft Claude Code 라이선스 회수 보도, "I GOT FIRED" 패닉 버튼(921 upvote), tinygrad 진영의 "AI 에이전트는 프로그램을 못 짠다"는 단언(NEWS-GN-19), "나를 뒤처지게 두라"는 반-AI 코딩 에세이(NEWS-GN-18), "AI로 더 천천히 더 나은 코드"(NEWS-GN-25), CodeGraph(평균 35% 절감), Understand Anything(14개 플랫폼) 같은 도구·회의·신중론이 한꺼번에 떴다. 시장은 같은 주에 "강한 도구가 일을 푼다"와 "이 도구가 다 풀어주지는 않는다"라는 두 명제를 동시에 받아들이고 있다.

4) 비개발자 바이브코딩의 빛과 그림자 — 100만 회 vs 베끼기 논란

한쪽 끝에서 alex_ai_mcp는 비개발자 바이브코딩 결과물이 일주일 100만 회 / 누적 6,000건에 도달했다고 공유했고, aipreneur_j는 200건 넘는 AI 컨설팅 경험을 토대로 Claude Cowork 38분 풀버전을 정리했다. Anthropic Frontend Design 스킬과 "Bento built w/ Claude" 결과물이 "Inter 디폴트 시대 종료"의 명분을 제공한다. 그러나 같은 주에 dev.livenote의 카피 폭로("올인원 앱으로 죄다 복제, '점심약속' 예시 텍스트까지 똑같다")와 UltraCat ↔ RunCat 흰 고양이 실루엣 1:1 복제 의혹(copylawbot의 저작권법·부정경쟁방지법 검토)이 정확히 같은 강도로 잡혔다. 결과물 속도가 임계점을 넘은 시점에 "복제의 정의"가 동시에 흔들렸다.

5) AI 시대의 의도·신뢰·인간성 — 의도가 자산이 되는 시대의 거시 담론과 사회 신호

YouTube에서 해시드 김서준의 "에이전트 네이티브 창업자 種"·"의도를 가지고 100시간 vs 의도 없이 1만 시간", Devin Karns의 "$100M 컨설팅 펌 플레이북", Hormozi의 proof / demonstration, Chamath의 비대중 베팅 철학이 같은 결로 정렬된다. Reddit에서는 Anthropic 연구자의 "기쁨·공포·슬픔 기능적 내부 상태" 인용이 가장 토론 밀도 높은 글(comment/upvote 1.5배)이었다. 그 위에 교황 Leo XIV의 Magnifica Humanitas("AI를 무장 해제하라", 트랜스휴머니즘 비판, 데이터 식민주의), Oxide RFD 576의 "글쓰기의 사회적 계약" 위반론, siliconvalleyunni·gle.bay·careerhackeralex 3인의 "AI에게 무엇을 먹이느냐가 차별점"이라는 같은 결론이 한 주에 정렬됐다. 의도·proof·내적 상태·종교 회칙·글쓰기 윤리가 단일 카테고리에 안 들어가는데도 같은 톤으로 수렴한 점이 이번 주의 가장 큰 메타 신호다.

6) 연구 레이더의 두 메타 흐름 — 에이전트 공진화와 평가 인프라의 평가

HF-13(SEAL)·HF-14(SkillEvolBench)·HF-19(ParaVT)의 환경-에이전트 공진화, HF-06(MemForest)·HF-10(ProAct)의 메모리·idle compute, HF-27(Foundation Protocol)·HF-33(ECHO)·ARXIV-39(harness를 1급 객체로)·ARXIV-29(CausaLab)·ARXIV-30(Claw-Anything) 묶음이 "에이전트가 자기 자신을 운영한다"는 같은 방향을 가리킨다. 다른 한 축은 평가 인프라 자체를 다시 평가하자는 메타 흐름이다. HF-03(RankJudge)·HF-04(BonaFide)·HF-07(Towards Evaluation Engineering)·ARXIV-32(시스템화)·ARXIV-41(Gradients Collide)이 같은 결로 묶이고, ARXIV-08(559명 LSAT 실험)·ARXIV-11(Causal Tongue-Tie)·ARXIV-18(GEM)·ARXIV-20(Activation Oracle UQ)이 "verbalized output을 곧 모델 능력으로 등치하는 것의 위험"을 같은 결로 가리킨다. 그리고 ARXIV-33/HF-28 두 곳에서 같은 날 동시에 잡힌 "Language Models Need Sleep"이 이 모든 흐름의 부수 신호로 박혀 있다.