Daily Digest — 2026-04-10

2026-04-10

에이전트 운영체계, 검증 레이어, 가격 재편, 멀티모달·로봇 연구가 동시에 구조 변화를 보여준 하루.

Daily Digest — 2026-04-10

오늘의 핵심 흐름

오늘 가장 선명했던 변화는 AI를 더 똑똑하게 만드는 경쟁이 아니라,
그 AI를 얼마나 오래, 안전하게, 싸게, 검증 가능하게 돌릴 수 있느냐로 기준이 이동했다는 점이다.
Every의 팀 운영 에이전트, Anthropic의 Managed Agents, Reddit의 Monitor tool 논의,
그리고 형식 검증 논문들까지 모두 같은 쪽을 가리켰다.

두 번째 흐름은 가격표와 쿼터가 제품 기능보다 더 크게 체감된다는 점이다.
개인과 팀 계정 사이의 reasoning 차이, $20에서 $100·$170으로 뛰는 요금제 공백,
월 $100 ChatGPT Pro와 Codex 5x/10x 프로모션,
그리고 6시간 뒤 $2,400 청구서 같은 사례가 한날에 동시에 나왔다.

세 번째는 검증이 생성보다 더 앞단으로 올라왔다는 사실이다.
SEVerA와 위성 라우팅 compiler는 아예 계약과 validator를 먼저 붙였고,
코드 이해 평가와 agent eval 논의는 must-contain, semantic oracle, coverage 설계를 강조했다.
“좋은 출력”보다 “틀린 출력을 어떻게 막을 것인가”가 제품과 연구 모두의 공통 언어가 됐다.

네 번째는 멀티모달과 로봇 연구가 더 큰 모델이 아니라 더 정교한 표현과 더 얇은 비용 구조를 추구했다는 점이다.
Q-Zoom은 필요한 비전 토큰만 키웠고,
DeltaTok과 TC-AE는 token bottleneck을 다시 설계했으며,
RoSHI와 CADENCE는 센서와 compute를 필요한 만큼만 쓰는 방향으로 움직였다.

마지막으로, 빌더 도구와 소비자 제품도 같은 구조 변화를 보여줬다.
Codex preview branch는 feature request를 10분 만에 실물로 바꿨고,
개인화된 vertical tool은 $15 영상과 월 $14 스타일링으로 기존 SaaS 가격을 흔들었으며,
쇼핑·금융 검색조차 대화형 지역화 경험으로 바뀌기 시작했다.

에이전트 운영체계와 실행 인프라

운영 에이전트와 adviser 계층이 API보다 중요해졌다

Every · Notion/Anthropic, LinkedIn · Seungpil Lee, YouTube · a16z / Aaron Levie, YouTube · Anthropic adviser strategy

Every는 25명 규모 조직에서 6개 제품과 미디어, 컨설팅을 함께 돌리면서
사람 한 명당 30개 안팎의 태스크를 다루는 운영 부담을 네 개 에이전트로 분산했다.
Anton이 우선순위 브리핑을 만들고,
Max가 회의 transcript에서 액션 아이템을 뽑는 식으로,
에이전트가 단순 보조가 아니라 운영 레이어로 올라왔다.

Anthropic은 이 흐름을 Managed Agents로 제품화했다.
session, harness, sandbox를 분리하고
장시간 실행과 실패 복구를 런타임 설계에 넣었으며,
세션 시간당 $0.08을 붙여 “모델”이 아니라 “가동 시간”을 파는 구조를 명확히 했다.

Aaron Levie가 말한 agent-facing software도 같은 방향이다.
앞으로 소프트웨어는 human-facing UI와 함께
agent가 API·CLI·MCP를 보고 고를 수 있는 인터페이스를 같이 설계해야 하며,
그 선택 기준은 UI 미학보다 비용, 내구성, 의미론이 된다.

Anthropic의 adviser strategy는 이 구조가 비용 제어와 분리되지 않음을 보여준다.
Opus는 입력 $5/출력 $25,
Sonnet은 $3/$15,
Haiku는 $1/$5 per million tokens이고,
Sonnet에 Opus adviser를 얹으면 SWE-bench 계열에서 2.7%p를 더 얻으면서 비용은 약 12% 줄일 수 있었다.

배포 표준과 실행 레이어가 제품이 된다

LinkedIn · LangChain, Reddit · r/n8n, Hugging Face Papers · Qualixar OS

올해의 agent tooling은 기능이 많아진 게 핵심이 아니라,
그 기능을 어떤 규약으로 묶을지가 핵심이 됐다.
AGENTs.md, /skills, mcp.json을 기준으로 하는 open harness는
모델 이름보다 실행 규칙을 더 중요한 추상화로 밀어 올린다.

Reddit에서 흥미로웠던 논의는 Managed Agents와 n8n을 대체재로 보지 않는 시각이었다.
n8n은 422 native integrations, visual builder, self-hosting, trigger/routing을 맡고,
Managed Agents는 checkpointing, sandbox, error recovery, API-first 실행을 맡는 식으로
연결층과 실행층이 분리된다는 해석이 실무적으로 가장 설득력 있었다.

Qualixar OS는 이 흐름을 극단으로 밀어붙인다.
10개 LLM provider, 8개 이상 agent framework, 7개 transport,
12개 topology, 24-tab dashboard, 25-command UCP,
236개 이상 live model discovery, 2,821개 테스트 케이스를 한 application-layer runtime으로 묶겠다고 주장한다.

수치의 보수적 해석은 필요하다.
custom 20-task suite에서 100% accuracy와 task당 $0.000039라는 숫자는 self-reported system metric에 가깝다.
그럼에도 agent orchestration이 단일 prompt가 아니라
배포·감사·routing·QA를 포함한 운영 레이어 문제라는 메시지 자체는 분명하다.

하네스 성능은 메트릭과 monitor에서 증명된다

LinkedIn · Meta-Harness 사례, Reddit · r/ClaudeCode Monitor

하네스 논의가 추상론에 머물지 않는 이유는 숫자가 꽤 세게 나오기 때문이다.
Meta-Harness 계열은 정답률을 7.7%p 끌어올리면서
컨텍스트 토큰을 4분의 1로 줄였고,
OSWorld류에서는 성공률이 30.4%에서 47.2%로 뛰는 대신 토큰 13배, 호출 12배, 시간 5배라는 운영비도 드러냈다.

즉 하네스는 “더 잘한다”가 아니라
어떤 비용 구조로 더 잘하는지까지 포함해야 한다.
6시간마다 도는 수확기가 92건을 훑어 23건만 남기는 사례처럼,
실무 하네스는 생성량이 아니라 pruning과 reuse의 효율로 읽는 편이 맞다.

Claude Code의 Monitor tool도 같은 축이다.
로그, PR, 배포를 무한 폴링으로 계속 묻는 대신,
의미 있는 이벤트가 생길 때만 agent를 깨우는 구조는
장기 작업에서 가장 비싼 “헛돌기”를 줄이는 운영 패턴이다.

이건 작은 유틸리티가 아니라
AI를 background service로 다루기 시작했다는 신호다.
계속 생각하게 두는 것보다,
생각해야 할 때만 깨우는 쪽이 결국 더 싸고 더 깨끗하다.

조사·메모리 백엔드가 에이전트 성능을 가른다

SkyPilot · research-driven agents, Threads · MemPalace, YouTube · Hex notebook agent

SkyPilot 사례는 “코드를 읽는 agent”와 “조사를 먼저 읽는 agent”의 차이를 수치로 보여줬다.
llama.cpp 최적화에서 문헌 조사, 포크 비교, 경쟁 구현 분석을 앞단에 두자
4개 cloud VM에서 3시간 동안 30개가 넘는 실험을 돌려
실제로 살아남은 개선 5개를 뽑았고,
x86 text generation +15%, ARM +5%를 총비용 약 $29에 얻었다.

메모리도 요약본 길게 남기기 경쟁이 아니었다.
MemPalace는 wing→room→hall→closet 계층으로 기억을 저장하고,
ChromaDB와 SQLite를 함께 써
LongMemEval 96.6%,
완전 로컬 실행,
GitHub 26.7K stars라는 조합을 만들었다.

Hex의 notebook agent는 셀 하나의 답변보다
노트북 전체와 프로젝트 전체 문맥을 읽는 쪽으로 진화했다.
90일 시뮬레이션으로 장기 성능을 보는 접근은
analysis agent도 결국 stateful system 위에서만 힘을 낸다는 걸 보여준다.

결국 병목은 모델 깊이보다,
조사 단계와 기억 저장소를 얼마나 잘 설계했느냐다.
정답을 잘 쓰는 모델보다,
어디를 읽고 무엇을 기억할지 잘 정하는 시스템이 실제로 더 강하다.

Graphify와 AgentGL은 구조를 먼저 만들고 탐색한다

LinkedIn · Graphify, Hugging Face Papers · AgentGL

Graphify의 메시지는 단순하다.
문서를 통째로 먹이지 말고 구조를 먼저 만든 뒤 필요한 노드만 물어보라는 것이다.
13개 프로그래밍 언어, PDF, 이미지, 마크다운을 묶어
Obsidian 볼트와 지식 그래프로 재구성하면
raw 파일을 직접 읽는 방식 대비 쿼리당 토큰이 71.5배 줄고 vector DB도 따로 필요 없다.

AgentGL은 같은 철학을 graph learning 쪽으로 옮겼다.
그래프를 text로 요약해서 먹이는 대신
local neighborhood expansion,
hop-constrained traversal,
global evidence probing 같은 graph-native tool을 agent의 policy 일부로 넣는다.

이 차이는 단순 검색 품질이 아니라 구조적 성능 차이로 나타난다.
TAG benchmark에서 node classification은 최대 17.5%p,
link prediction은 최대 28.4%p 올라갔다.
문서 그래프든 citation network든,
핵심은 정보를 더 많이 넣는 게 아니라 더 구조적으로 걷는 데 있다.

Codex와 저장소 진단은 discovery loop를 10분짜리 preview로 바꾼다

YouTube · OpenAI / Braintrust, GeekNews · repo 상태 먼저 보기

Braintrust가 보여준 가장 큰 변화는 feature request 처리 속도다.
기존에는 backlog로 들어가던 요청이
이제는 Slack 메시지를 Codex에 붙이는 순간 preview branch로 바뀌고,
대략 10분 안에 고객이 만질 수 있는 실물로 돌아온다.
요구가 굳기 전 molten phase에서 직접 만져보게 하니 피드백 품질도 달라진다.

이 loop가 가능하려면 저장소를 읽는 방식도 달라져야 한다.
churn, shortlog, bug grep, monthly commit counts,
revert와 hotfix 패턴을 먼저 보면
“어디부터 읽을지”가 아니라 “어디가 위험한지”가 먼저 드러난다.

이 두 사례는 결국 discovery와 delivery의 간격이 짧아졌다는 같은 결론으로 수렴한다.
요구를 말하는 순간 preview가 생기고,
코드를 읽기 전에 이미 위험 지형도를 본다.
개발자의 일은 더 빨리 쓰는 것보다 더 빨리 좁히는 쪽으로 이동 중이다.

비개발자 워크플로도 Git과 Notebook, Cowork로 묶인다

LinkedIn · Gemini/NotebookLM, LinkedIn · Git은 안전망, Threads · Cowork

비개발자 AI 도구에서 계속 반복되는 문제는
AI가 뭘 바꿨는지 모르고,
실수했을 때 되돌릴 방법이 없으며,
맥락이 세션 밖으로 안 남는다는 점이다.
그래서 Git이 개발자 전유물이 아니라 안전망으로 다시 소환된다.

Gemini와 NotebookLM의 양방향 싱크는
리서치와 산출물 생성을 따로 두지 않고 하나의 루프로 묶는 시도다.
프로젝트 폴더, 과거 채팅 이동, structured notebook이 연결되면
맥락 자체가 제품의 핵심 자산이 된다.

Cowork가 마케팅·재무·법무부터 열린 것도 같은 맥락이다.
이 영역에서 필요한 것은 모델 성능보다
작업 추적과 맥락 보존,
그리고 롤백 가능한 협업 구조다.
비개발자 업무도 결국 버전관리와 장기 상태 관리 쪽으로 흘러간다.

검증·제약·평가 설계

receipts와 anti-slop이 생성량보다 중요해졌다

GeekNews · leceipts / AI-SLOP Detector, Reddit · MCP server 품질

에이전트 생태계에서 가장 빨리 늘어나는 도구가 생성기보다 검증기라는 점은 의미가 크다.
Spring AI Playground가 MCP 툴을 작성·테스트·노출까지 묶고,
leceipts가 “Every claim needs leceipts”를 외치며
코드 변경 뒤 구조화된 증거를 남기게 하며,
AI-SLOP Detector가 스파게티 코드를 잡아낸다.

Reddit의 MCP 논의도 같은 결론이었다.
문제는 프로토콜 자체보다 서버 구현이 컨텍스트를 얼마나 비대하게 만드는가다.
GitHub MCP가 시작부터 43개 툴을 던지는 대신,
CLI처럼 4개 툴로 6개 integration을 단계적으로 노출할 수 있다면
tool surface는 훨씬 얇아진다.

이 흐름에서 핵심은 생성량이 아니다.
출력을 얼마나 설명 가능하게 남기고,
얼마나 작은 인터페이스로 감쌀 수 있느냐가
실제 agent tooling의 경쟁력으로 올라오고 있다.

안전한 에이전트는 contract와 validator를 먼저 둔다

Hugging Face Papers · SEVerA, arXiv · LEO intent compiler

SEVerA는 self-evolving agent가 강해질수록
검증 가능한 안전 경계를 먼저 만들어야 한다는 쪽에 선다.
FGGM은 각 generative call에 first-order logic contract를 붙이고,
rejection sampler와 verified fallback으로 출력을 감싸
constraint violation을 0으로 고정했다.

그 상태에서 HumanEvalDafny 97.0% verification rate,
GSM-Symbolic 66.0%,
tau^2-bench airline 52.6% pass rate를 냈다는 점이 중요하다.
안전 제약이 성능의 반대말이 아니라
오히려 더 좋은 후보 공간을 찾게 하는 장치가 될 수 있다는 뜻이기 때문이다.

LEO 위성 라우팅 compiler도 같은 구조를 택한다.
자연어 intent를 typed constraint program으로 바꾸고,
verifier-feedback repair loop와 8-pass deterministic validator를 붙여
98.4% compilation,
87.6% full semantic match,
47개 infeasible intent에 대해 0% unsafe acceptance를 만들었다.

요지는 같다.
LLM 출력을 그대로 믿는 대신,
contract와 validator로 한 번 더 닫는 시스템이
지금의 agent 시대에서 가장 실전적인 안전 패턴으로 자리 잡고 있다.

형식 언어는 문법보다 의미와 표기 체계가 더 어렵다

arXiv · SCFG translation, arXiv · LTL translation

형식 언어 관련 두 논문은 같은 결론을 다른 방식으로 보여줬다.
SCFG translation에서는 grammar size와 sentence length가 커질수록 성능이 급락했고,
word order 변화는 거의 영향이 없었으며,
pointed Hebrew에서는 exact-match가 0%까지 떨어졌다.
BLEU와 chrF++ 같은 heuristic 지표가 어려운 조건일수록 과대평가한다는 점도 중요했다.

LTL translation은 문법적으로 맞는 공식과
의미적으로 맞는 공식이 전혀 다른 문제임을 분리했다.
6단계 평가 체계로 AP extraction, well-formedness, future-LTL,
trace classification, trace generation, past-LTL을 갈라 보니
평균 exact semantic equivalence는 24.37%에 그쳤다.

AST-constrained Python interface를 써도 strongest model이 61%를 조금 넘는 수준이었다.
VERIFY 보안 subset 56개에서 핵심 오류가
AP grounding과 temporal operator mis-scoping이라는 점을 보면,
형식 언어에서 병목은 여전히 semantics다.

즉 형식 언어를 “말은 그럴듯한 텍스트”로 다루면 안 된다.
script와 scope, entailment를 끝까지 지켜야 하는 symbolic transduction 문제로 봐야 한다.

자율성은 leash와 deterministic orchestration 없이는 운영비가 된다

Reddit · r/AI_Agents

Reddit 현장에서 가장 선명했던 합의는
production agent에서 autonomy를 무턱대고 키우는 게 거의 항상 손해라는 점이었다.
wrong record,
hallucinated field,
malformed data 같은 실패는
모델이 창의적으로 망가질수록 더 비싸진다.

그래서 short leash와 deterministic orchestration layer가 safety feature로 취급된다.
agent에게 좁고 예측 가능한 일만 맡기고,
주요 분기와 external side effect는
결정적인 로직이나 workflow engine으로 감싸는 쪽이 더 낫다는 것이다.

컨텍스트도 길수록 좋지 않았다.
긴 대화는 dead context를 키우고,
모델은 예전 히스토리와 현재 작업을 섞으며,
토큰은 의미 없는 기억 유지에 계속 새어나간다.
MemGPT/Letta류가 이 문제를 푸는지 여부도 아직 실전 검증이 더 필요하다는 반응이 많았다.

eval은 정답률이 아니라 coverage design이다

Reddit · r/LangChain eval, arXiv · code understanding assessment

agent eval 논의는 이제 test case 몇 개 맞히는 문제가 아니다.
입력 공간이 사실상 무한하다는 전제 아래,
sub-category로 범위를 나누고,
Q/A pair마다 must_contain과 must_not_contain을 두고,
LLM-as-a-judge로 recall과 F1을 계산하는 coverage design 문제로 바뀌었다.

tool call 수와 failure 위치 같은 운영 지표를 같이 보는 것도 중요하다.
그렇게 해야 문제가 추론인지,
툴 호출인지,
아니면 프롬프트 커버리지인지 빨리 분리할 수 있기 때문이다.

코드 이해 평가 논문도 똑같은 패턴을 보였다.
12개 시스템을 hybrid 5/12, rule-based 4/12, LLM-based 3/12로 분류하고,
정답 코드가 아니라 실제 이해를 검증하기 위해
Socratic dual-agent 구조와 Score=20+(Similarity×0.8) 같은 평가식을 제안했다.

정답률 자체보다 어떤 이해를 어떻게 검증할지,
그리고 그 검증을 어느 수준까지 deterministic fact에 묶을지가
이제 eval의 핵심 질문이다.

프롬프트 패턴과 router rules는 행동과 비용을 함께 바꾼다

Reddit · r/PromptEngineering, Reddit · Cursor cost control, Hugging Face Papers · Combee

120개 프롬프트 패턴을 3개월 동안 실험한 글은
persona와 constraint가 실제로 모델 행동을 바꾼다는 점을 분명하게 보여줬다.
generic persona보다
구체적 경력과 직무, 금지 조건이 붙은 persona가 더 잘 먹고,
/punch + /trim + /raw처럼 조합했을 때
Slack용 압축 메시지 같은 실용 패턴이 생긴다.

Cursor power user의 .cursorrules 사례는 이걸 비용 관리로 확장한다.
“설명 말고 코드 블록만 출력” 같은 규칙과
자체 API router를 섞으면 Anthropic bill을 약 70% 줄일 수 있었고,
모델을 UI/CSS, 복잡한 backend, quick question별로 태깅해 쓰는 방식이
prompt engineering을 사실상 traffic shaping으로 바꿨다.

Combee는 이 문제를 대규모 prompt learning 차원에서 다시 정리한다.
128K context가 있어도 reflection을 한곳에 몰아넣으면
aggregator가 lossy compression을 일으키고,
trace를 많이 모을수록 오히려 quality가 흐려진다.
그래서 Map-Shuffle-Reduce식 병렬 scan을 써
AppWorld, Terminal-Bench, Formula, FiNER에서 최대 17배 speedup을 내면서도
accuracy는 동급 이상으로 유지했다.

즉 프롬프트는 더 멋지게 말하는 기술이 아니라
행동 제약,
비용 절감,
trace 집계 방식을 함께 설계하는 운영 레이어에 가깝다.

힌트는 신호를 만들고 pruning은 낭비를 줄인다

Hugging Face Papers · HiLL, Hugging Face Papers · graph-based CoT pruning

HiLL이 건드리는 문제는 hard question에서 GRPO가 신호를 잃는 순간이다.
group 내 rollout reward가 모두 같으면 advantage가 0이 되고,
학습은 멈춘다.
그래서 hinter policy를 따로 두고,
hint reliance와 transfer-weighted reward를 써
“힌트가 없을 때도 남는” 학습 신호만 보존하려 했다.

Qwen2.5-7B 기준 in-distribution 평균 44.2,
out-of-distribution 51.0을 얻었고,
wall-clock overhead 2.6배~3.8배를 감수하는 대신
진짜 학습 가능한 힌트를 회수했다.
핵심은 힌트의 정답률보다 transferability다.

반대로 CoT pruning은 너무 많은 reflection이 만드는 낭비를 줄인다.
선형 CoT를 DAG로 바꾸고,
branch-level과 depth-level pruning으로 redundant review를 잘라내
k=2, m=0.9 기준에서 reasoning token을 평균 42% 줄이면서
정확도는 유지하거나 오히려 개선했다.

하나는 신호를 만들어내고,
다른 하나는 신호를 흐리는 잡음을 깎는다.
reasoning optimization이 길게 생각하게 하는 방향만이 아니라
어떤 생각을 남기고 어떤 생각을 버릴지 설계하는 방향으로 이동했다는 뜻이다.

latent planning에도 ceiling이 있다

Hugging Face Papers · The Depth Ceiling

이 논문은 chain-of-thought monitoring이 어디까지 믿을 수 있는지 묻는다.
모델이 내부 latent space에서 충분히 깊은 planning을 스스로 발견하면,
겉으로 보이는 reasoning trace만으로는 안전을 다 설명할 수 없기 때문이다.

그런데 실험 결과는 오히려 반대 방향의 경계도 보여준다.
tiny transformer는 최대 3 latent steps,
fine-tuned GPT-4o와 Qwen3-32B는 5 steps,
GPT-5.4는 few-shot에서 7 steps 정도가 상한으로 나타났다.
1.6M-parameter 모델에서 GPT-4o까지 키워도 planning depth 증가는 2 step 안팎이었다.

즉 scaling이 planning depth를 무한히 밀어주지는 않는다.
내부 reasoning에도 ceiling이 있고,
이 ceiling은 CoT monitoring이 과소평가하는 위험과 함께
과대평가하는 위험도 동시에 보여준다.

OpenClaw 피로는 모델보다 설정과 업데이트에서 온다

Reddit · r/openclaw update fatigue, Reddit · GPT 5.4 설정 문제

OpenClaw 사용자들이 쌓아 올린 불만은 단순한 “품질 저하”보다 운영비 누적에 가깝다.
2026-03-28, 03-31, 04-05, 04-09 업데이트마다
API key 재배치,
approval loop,
entrypoint rename,
122회 crash loop 같은 문제가 생기면
사용자는 기능 추가보다 복구 작업에 시간을 쓰게 된다.

여기에 reasoning off,
구버전,
잘못된 OpenAI path 같은 설정 문제까지 겹치면
모델이 나빠 보이는 원인이 실제로는 런타임 설정 품질일 수 있다.
Hermes와 OpenClaw를 3주 병행한 사용자가
교체보다 분업이 낫다고 결론 내린 것도 그 때문이다.

결국 모델 비교보다 중요한 건 운영 구조다.
도구 체인이 잘못 묶이면 어떤 모델도 무력해지고,
도구를 고치는 데 다시 AI를 써야 하는 루프가 생긴다.

가격·쿼터·경제성

개인·팀 계정 차이와 중간 요금제 공백이 체감 품질을 바꾼다

Reddit · ClaudeCode reasoning throttling, Reddit · $100 ChatGPT plan, Threads · ChatGPT Pro/Codex

개인용 Max 계정과 Team 계정에서
같은 사람이 같은 흐름을 돌렸는데도 reasoning effort 체감이 drastic하게 다르다는 글은,
이제 quota가 단순 사용량 제한이 아니라
사고량과 세션 깊이 자체를 바꾸는 변수로 읽힌다는 점을 보여줬다.

가격 설계도 같은 문제를 드러낸다.
$20 Plus에서 바로 $100 Pro,
혹은 $170대 enterprise급으로 뛰는 구조는
사용자에게 중간층 공백으로 느껴진다.
Perplexity 사용자까지 5x usage를 주는 $50대 플랜을 요구한 이유가 여기에 있다.

OpenAI는 ChatGPT Pro $100과 Codex 5x,
일시적으로 10x usage 프로모션을 밀고 있지만,
Anthropic 쪽에서는 529 에러와 세션 조기 종료가 오히려 습관을 바꾸고 있다.
결국 어떤 모델이 더 좋으냐보다,
얼마나 오래 안정적으로 쓸 수 있느냐가 더 큰 체감 품질이 됐다.

ARR보다 토큰당 마진과 추론 비용을 봐야 한다

GeekNews · AI 기업의 ARR 착시

Anthropic이 2026년 2월 ARR 140억 달러를 말했지만,
법원 제출 문서의 누적 매출은 50억 달러를 조금 넘는 수준이었다.
OpenAI도 2025년 ARR 200억 달러를 언급했지만,
반기 기준 실제 매출은 약 43억 달러,
현금 소진은 25억 달러였다.

여기에 Anthropic의 2025년 1월~9월 AWS compute 비용이 약 26.6억 달러,
추정 매출이 약 25.5억 달러라는 수치가 붙는다.
이쯤 되면 ARR은 SaaS식 반복 매출 지표라기보다
AI 기업의 소비 구조를 가리는 화장에 가까워진다.

AI 비즈니스는 gross margin 80~90%를 전제로 읽는 SaaS 문법보다,
token당 이익,
사용자별 편차,
추론 비용 구조를 함께 보는 문법이 더 맞다.
숫자가 커졌다는 사실보다
그 숫자가 더 이상 같은 अर्थ을 갖지 않는다는 점이 중요했다.

AX 전환은 별도 팀보다 현장 책임 이동이 먼저다

GeekNews · AX 팀을 만드는 순간 실패, YouTube · EO Korea

AX 전환 논의에서 가장 많이 인용된 숫자는 95%였다.
MIT NANDA 연구 인용에 따르면 GenAI 파일럿의 95%가 실패했고,
성과가 난 5%는 central AI lab이 아니라
현장 line manager가 adoption을 이끌었다는 식으로 정리됐다.

Fortune이 전한 76% great value,
AI 역할을 CFO에게 준 기업이 2%뿐이라는 숫자도 비슷한 메시지를 준다.
도구를 더 깔아도 전환은 안 되고,
책임과 권한이 이동해야 전환이 된다.

YouTube의 채용/온보딩 대화도 이 점을 보완한다.
결국 조직이 해야 할 일은
인재밀도를 올리고,
첫 90일 안에 작은 성공을 만들어,
새 사람이 팀 안에서 효능감을 갖게 하는 것이다.
AI 조직도 사람 조직과 마찬가지로 execution ownership가 먼저다.

로컬 LLM은 싸지만 통합 비용이 새어나간다

Reddit · Ollama integration latency, Reddit · LocalLLM memory 고민

로컬 LLM 논의에서 가장 인상적인 문장은 “터미널에서는 빠른데 앱에 붙이면 13분이 걸린다”였다.
문제는 모델 속도보다
context size,
streaming 설정,
주변 glue code,
호출 방식에 있을 수 있다는 자가 진단이 바로 따라붙었다.

48GB와 64GB unified memory 사이 고민도 같은 문제다.
이건 단순 스펙 비교가 아니라
앞으로 어떤 모델 크기와 어떤 세션 길이를 감당할지의 선택이 된다.
로컬 추론은 “싼 API 대체재”가 아니라
배포된 시스템 전체를 관리하는 일이다.

OpenVINO GPU가 Proxmox 9의 LXC Docker에서 안 도는 문제까지 붙으면,
하드웨어보다 integration surface가 더 큰 병목이라는 결론이 선명해진다.
로컬의 진짜 비용은 전력보다 통합 시간에 있다.

플랫폼은 마찰을 키우고 쇼핑과 검색도 대화형 탐색으로 바뀐다

EFF · Leaving X, YouTube · ChatGPT shopping

EFF가 X에서 떠나기로 한 이유는 단순한 정치적 불만만이 아니었다.
2018년 월 5천만~1억 impressions에서
2024년 월 200만 impressions 수준으로 떨어지고,
최근 1년 1,500 posts가 전체 1,300만 impressions에 그쳤다는 수치는
플랫폼 마찰과 분배 구조가 얼마나 달라졌는지 보여준다.

사용자 쪽에서는 Microsoft dark pattern과 Netflix 가격 인상,
심지어 DVD 플레이어 회귀가 같이 거론됐다.
광학 시장에서는 EssilorLuxottica가 27B 달러 규모로
브랜드·매장·렌즈·보험을 함께 장악하는 구조가 문제로 읽혔다.

반대로 ChatGPT 쇼핑은 검색과 구매 전 탐색을
visually immersive shopping experience로 바꾸려 한다.
방 사진이나 디자인 inspiration을 넣고 비슷한 물건을 찾는 구조는
키워드 검색보다 개인 취향과 맥락을 읽는 대화형 큐레이션에 가깝다.

한쪽은 마찰을 키워 락인을 만들고,
다른 쪽은 탐색을 흡수해 구매 동선 자체로 들어간다.
둘 다 플랫폼이 “답변창 밖”에서 더 강하게 작동하기 시작했다는 뜻이다.

SaaS는 끝나기보다 personal/private 도구로 쪼개진다

Threads · ianpark.vc, YouTube · Balaji Srinivasan

“한 시간이면 만들 도구라면 SaaS가 아니라 스크립트다”라는 감각이 이제 사례로도 붙는다.
Claude로 25개 넘는 도구를 만들고 15개를 매일 쓰는 사람이
비용은 $200 Max 구독료뿐이라고 말하는 순간,
범용 SaaS의 가격 전제는 흔들린다.

$15 부동산 renovation video,
월 $14 스타일리스트 앱 같은 예시는
전문가 서비스와 vertical SaaS 가격을 동시에 깎는다.
중요한 건 단가가 싸졌다는 사실보다,
개인화된 내부 도구가 더 설득력 있는 선택지로 올라온다는 점이다.

Balaji가 말한 personal, private, programmable software도 같은 방향이다.
AI는 SaaS를 완전히 끝내기보다
개인과 팀 단위의 더 좁고 더 사적인 작업 공간을 밀어붙일 가능성이 크고,
distillation이 98%까지 싸질 수 있다는 관측은 이 구조를 더 가속한다.

운영 데이터는 decay와 distribution에서 성패가 갈린다

Reddit · CRM decay, Reddit · AuraMarket / Holaboss

운영 데이터의 현실은 생각보다 빨리 썩는다는 점이다.
HubSpot에 10k 연락처가 있고,
2년간 intake 때만 enrich하고 refresh를 안 했다면,
bounce rate가 3~~4%에서 6~~8%로 오를 수 있고,
B2B contact data가 2%/month씩 decay한다는 가정 아래
1년 전 95% 정확한 리스트가 지금은 70% 수준으로 내려갈 수 있다.

반대로 분배를 잘 잡으면 작은 제품도 빠르게 증폭된다.
Holaboss는 13일 동안 994 stars,
743 unique cloners,
2,226 unique visitors를 만들었고,
AuraMarket은 Artemis II crew attention을 실제 가격 신호로 바꿨다.

한쪽은 stale subset을 어떻게 빨리 찾느냐의 문제고,
다른 한쪽은 한 번 얻은 관심을 어떻게 재사용하느냐의 문제다.
결국 운영의 성패는 생성보다 decay 관리와 distribution 설계에 더 가깝다.

문서·지식·교육·건강

Paper-to-Code와 DeepTutor는 읽기를 재현과 코칭으로 바꾼다

LinkedIn · Paper2code, Threads · DeepTutor

Paper2code의 강점은 코드를 생성한다는 사실보다
논문이 어디까지 명시했고 어디부터 추론인지 표시한다는 점이다.
specified,
partially specified,
unspecified로 구현 선택을 나누고,
코드 한 줄을 논문 섹션과 equation,
appendix와 footnote까지 다시 걸어 둔다.

DeepTutor는 같은 문제를 교육 쪽에서 푼다.
PDF 교재를 읽고 수준을 진단한 뒤
그냥 답을 주지 않고 소크라테스식 질문으로 학습 경로를 다시 구성한다.
GitHub 공개 하루 만에 12,000 stars가 붙은 건,
사람들이 단순 QA bot보다 learning loop 자체를 원한다는 뜻에 가깝다.

문서를 읽는 AI는 이제 요약기보다
재현기와 코치 쪽으로 이동한다.
읽고,
구현하고,
다시 묻고,
약한 부분을 찌르는 루프가 연구와 교육 모두의 기본 인터페이스가 되고 있다.

NotebookLM 품질 저하는 고신뢰 학습 사용자를 먼저 흔든다

Reddit · NotebookLM regression

NotebookLM 회귀 शिकायत이 중요한 이유는
가벼운 메모 앱 사용자가 아니라
medical paper와 textbook chapter를 다루는 고신뢰 사용자에게서 먼저 나왔기 때문이다.
이들은 예전에는 여러 논문을 묶어 요약하고,
audio overview와 quiz까지 만드는 도구로 추천할 수 있었지만,
지금은 결과가 superficial 하고 sometimes inaccurate 하다고 본다.

체감도 정성적이지 않았다.
80~100장짜리 슬라이드를 기대했는데 15장 수준으로 줄고,
1시간 가까운 audio overview가 25분으로 짧아졌다면,
사용자는 이걸 “더 간결해진 것”이 아니라 “깊이가 사라진 것”으로 읽는다.

특히 의료 맥락에서는
길이 축소와 얕은 요약이 곧바로 신뢰 하락으로 이어진다.
제품 회귀는 늘 power user에게서 먼저 보인다.

의료 의사결정에서 AI는 질문 능력과 근거 retrieval을 넓힌다

YouTube · OpenAI Forum / osteosarcoma case, Reddit · diabetes medical chatbot

희귀 골암 osteosarcoma 사례는 AI가 의사를 대체했다는 이야기가 아니다.
연간 미국 환자가 1,000명도 안 되는 질환에서,
재발 후 생존 가능성이 months 단위로 읽히는 상황에서,
환자와 가족이 25TB의 데이터를 모으고
개인화 mRNA vaccine을 6개월 만에 실행하며
의사와 대화하는 질문 수준 자체를 바꿨다는 이야기다.

bulk RNA sequencing이 약 $50,
whole genome sequencing이 약 $500,
AI 도구가 $20 수준이라는 숫자는
고가의 의료 판단을 더 싼 데이터 분석으로 넓힐 수 있다는 점을 보여준다.
60% necrosis,
20% shrinkage 같은 결과도 이 맥락에서 나온다.

diabetes 챗봇 사례는 좀 더 보수적이다.
11,000개 이상의 real medical Q&A pair를 knowledge base로 두고
generic answer 대신 RAG로 근거를 먼저 retrieve한 뒤 생성하는 구조를 택했다.
의료에서는 멋진 답보다 근거의 출처가 먼저 신뢰를 만든다.

법령과 점자는 코드처럼 버전관리된다

GeekNews · legalize-kr, GeekNews · braillify 2.0

법령과 판례를 Markdown과 Git 히스토리로 관리하려는 legalize-kr,
그리고 한글 점자를 Rust 라이브러리와 Node.js,
WebAssembly,
Python으로 옮긴 braillify 2.0은
공공 지식이 어떤 형식으로 저장돼야 재사용 가능한지 다시 묻는다.

핵심은 기술 자체보다 형식 전환이다.
법과 점자가 코드처럼 diff와 version history를 갖게 되면
검색,
비교,
배포,
자동화를 붙이기가 훨씬 쉬워진다.
공공 지식이 드디어 “읽기용 문서”에서 “운영 가능한 데이터”로 이동하는 셈이다.

금융 정보도 이제 대화형·지역화된 검색이 된다

GeekNews · Google Finance AI rollout

작은 뉴스처럼 보이지만,
Google Finance의 AI 확장은 검색 UX가 어디까지 바뀌는지 보여준다.
한국을 포함한 100개국 이상으로 넓어지고,
local language를 지원하며,
단순 주가 조회가 아니라 AI 요약과 지역화된 탐색으로 넘어간다.

금융 정보는 보수적인 UI 영역으로 여겨졌지만,
이제는 여기서도 keyword lookup보다
대화형 탐색과 요약이 기본 인터페이스가 되기 시작했다.
AI가 어디까지 퍼졌는지를 보여주는 제품 신호로는 꽤 상징적이다.

인프라·공공 시스템·보안

공개 지연보다 운영 책임과 인간 지원이 더 중요하다

GeekNews · GPT-2 공개 논쟁, GeekNews · Anthropic billing issue

GPT-2 공개 지연을 둘러싼 오래된 논쟁은
강한 모델을 늦게 내는 것이 책임 있는가를 묻는다.
8 million webpages로 학습된 모델을 두고
OpenAI가 smaller version만 공개했던 결정은
연구 윤리와 보안 우려가 배포 전략까지 바꾸는 대표 사례였다.

하지만 2026년의 더 현실적인 문제는 운영 책임이었다.
Claude Max 사용자가 약 $180 unexpected charge와
16개의 extra usage invoice를 받았고,
거의 한 달 동안 human support 없이 AI agent 회신만 받았다면,
이건 공개 정책보다 고객 신뢰의 문제다.

강한 모델을 늦게 내는 것보다,
낸 뒤에 누가 billing과 support를 책임지느냐가
지금 사용자에게는 더 직접적인 안전 문제로 읽힌다.

공급망 보안과 멀티모달 공격면은 측정으로 증명돼야 한다

GeekNews · Astral supply chain security, Hugging Face Papers · cross-modal typography attacks

Astral의 배포 정책은 선언보다 배포 경로를 통제하는 쪽에 가깝다.
pull_request_target과 workflow_run 같은 위험 트리거를 막고,
action을 commit SHA로 pin하며,
org-wide permission을 read-only로 두고,
Trusted Publishing과 Sigstore attestations,
immutable releases까지 붙였다.

한편 멀티모달 쪽에서는 보안 공격면이 더 넓어졌다.
audio-visual MLLM에서 speech를 typography처럼 다루는 공격은
Qwen2.5-Omni-7B 기준 WorldSense 64.03% ASR,
MMA-Bench에서 visual/audio combined attack 83.13%와 83.43% ASR,
content moderation detection 약 13% drop을 만들었다.

reverse-SynthID가 90% detection과 함께
carrier energy 75.8% 감소,
phase coherence 91.4% 감소,
43.5dB PSNR을 보여준 사례까지 합치면,
보안은 이제 문구가 아니라 측정값으로 증명해야 한다는 결론이 더 선명해진다.

스토리지·전력·규제 병목이 AI 인프라를 되돌린다

Reddit · BunnyCDN data loss, The Register · Stargate UK pause

AI 인프라의 가장 현실적인 병목은 GPU가 아니라
데이터를 안 잃고 전기를 감당하며 허가를 받는 문제다.
BunnyCDN 사례에서는 2025-01-13에 시작된 missing files 문제가
2026-03-24와 03-26에도 이어졌고,
replication region에는 있는데 main region에는 없는 file inconsistency를
15개월째 해결하지 못했다고 한다.
사용자는 10M files 규모를 다른 provider로 옮기고 있다.

OpenAI의 Stargate UK pause와 Maine의 대형 데이터센터 제동,
Tesla가 더 작고 싼 EV로 되돌아간다는 뉴스는
모두 확장보다 유지가 더 어려워진다는 같은 메시지를 준다.
전력과 규제가 먼저 막히면
AI 인프라는 roadmap가 아니라 facility 문제로 돌아간다.

감시 기술은 성능보다 거버넌스가 문제다

GeekNews · Flock Safety

Flock Safety 논의가 중요한 이유는
이게 “카메라 성능이 좋은가”의 문제가 아니기 때문이다.
2026년 들어 여러 도시가 계약을 중단했고,
Bend, Oregon도 공공 압력 끝에 빠졌으며,
2025년에는 최소 8개 Washington law enforcement agency가
ICE와 직접 데이터를 공유했다는 사실이 거론됐다.

75%의 law enforcement customer가 National Lookup Tool에 참여하고,
주별로 3-minute rule에서 21-day limit까지 규제가 갈리는 상황에서
핵심은 retention, access, audit, purpose limitation이다.
기술이 더 좋아질수록 오히려 로컬 거버넌스가 더 중요해진다.

배포 DX와 rootless runtime은 실행 경로를 다시 줄인다

Reddit · devopsellence, GeekNews · proroot

devopsellence는 Hetzner 같은 VM/IaaS 위에서
Heroku나 Vercel에 가까운 DX를 만들겠다는 시도다.
CLI가 image를 빌드하고 압축해 SSH로 보내면,
서버 agent가 이를 받아 시작한다.
중요한 건 이 과정이 어디서 끊기면 안 되는지 사용자가 이해할 수 있다는 점이다.

proroot는 Android arm64에서
ptrace 병목을 피해 Node.js, Python, Git, Chrome, FFmpeg 같은 user-space를 돌리는
rootless Linux runtime을 노린다.
배포 자동화와 실행 환경 확장이 둘 다
복잡한 플랫폼 추상화보다 얇은 실행 경로를 선택한다는 점에서 닮아 있다.

레트로 컴퓨팅과 data-oriented thinking은 다시 돌아온다

Bitmap Fonts, What game engines know about data

오늘 레트로/시스템 묶음은 단순 취향 공유가 아니었다.
bitmap fonts가 컴퓨터를 “컴퓨터답게” 느끼게 만든다는 미학,
Native Instant Space Switching이 animation latency를 직접 다루는 태도,
PicoZ80와 Charcuterie 같은 작은 도구들은
인터페이스 감각과 시스템 공학이 다시 맞닿는 지점을 보여줬다.

게임 엔진에서 데이터베이스가 잊은 것을 찾는 글은 더 직접적이다.
Typhon이 sub-microsecond latency,
50,000 entities,
그리고 1~4% useful work 같은 표현으로
MVCC와 ECS 관점을 다시 엮는 순간,
data-oriented design이 더 이상 niche가 아니라는 느낌이 생긴다.

컴퓨팅 문화는 여전히 미학과 성능 사이를 왕복한다.
낡은 것이 돌아오는 게 아니라,
직접 느껴지는 latency와 구조를 다시 중시하는 쪽으로 감각이 복원되는 셈이다.

멀티모달·생성·비전 연구

soft equivariance는 constraint와 expressiveness를 같이 조절한다

Hugging Face Papers · Tunable Soft Equivariance

equivariance를 “있다/없다”로 보지 않고
조절 가능한 연속 변수로 보는 시각이 흥미로웠다.
strict equivariance는 real-world data에서 표현력을 깎을 수 있지만,
기존 soft 접근은 실제로 어느 정도 symmetry가 남는지 잘 보장하지 못했다.

이 논문은 pretrained backbone weight를 designed subspace로 projection하고
induced equivariance error에 이론적 bound를 붙였다.
ViT, DINOv2, ResNet, SegFormer에 얹어
CIFAR-10, CIFAR-100, ImageNet, PASCAL VOC, trajectory prediction까지 실험한 점도 강하다.

비전 모델 스케일링이 단순 파라미터 증가만이 아니라,
얼마나 제약을 넣고 얼마나 풀 것인지 설계하는 문제로 이동하고 있다는 신호로 읽힌다.

visual prompt와 stroke reasoning이 생성 인터페이스를 바꾼다

Hugging Face Papers · FlowInOne, Hugging Face Papers · Think in Strokes

FlowInOne은 텍스트 지시 중심 멀티모달 생성 대신
visual prompt canvas 하나로 generation을 통일하려 한다.
VisPrompt-5M은 5 million pair와 8개 data type을 담고,
VP-Bench는 instruction faithfulness,
content consistency,
visual realism,
spatial precision을 따로 본다.

Think in Strokes는 이미지 생성을
Plan→Sketch→Inspect→Refine의 loop로 바꿨다.
중간 상태를 사람이 읽을 수 있는 visual draft로 다루고,
62K sample과 inference cost 131로
PARM의 688K/1000을 넘어 GenEval 0.77→0.83,
WISE 0.70→0.76을 만들었다.

둘을 같이 보면 메시지가 선명하다.
생성 인터페이스가 더 이상 “텍스트 한번 넣고 결과 한 번 받기”가 아니라,
시각적 중간 상태를 다루며 반복적으로 수정하는 쪽으로 이동하고 있다.

Q-Zoom은 query-aware routing으로 고해상도 비전을 다시 짠다

Hugging Face Papers · Q-Zoom

고해상도 멀티모달 입력의 병목은 단순히 해상도가 높아서가 아니라,
query intent를 무시한 채 모든 비전 토큰을 다 확장하는 방식에 있다.
Q-Zoom은 coarse feature만 보고 충분한지 먼저 판단하는 Dynamic Gating과,
필요한 영역만 확대하는 SD-RPN을 결합했다.

Qwen2.5-VL-7B 기준 Document/OCR에서 2.52x,
High-Resolution 시나리오에서 4.39x speedup을 내면서
baseline peak accuracy를 유지하거나,
maximum fidelity에서는 1.1%와 8.1%씩 넘겼다는 점이 중요하다.

비전 토큰을 더 많이 던지는 게 아니라
언제, 어디를, 얼마나 자세히 볼지 query 기준으로 다시 짠 것이다.
멀티모달 효율화가 이제 tokenizer보다 routing에 더 가까워지고 있다.

delta token과 staged compression은 tokenizer bottleneck을 다시 설계한다

Hugging Face Papers · DeltaTok / DeltaWorld, Hugging Face Papers · TC-AE

DeltaTok은 consecutive frame feature difference를
single continuous delta token으로 압축해
512x512 frame 기준 1,024배 token reduction을 만들었다.
이 representation 위에서 돌아가는 DeltaWorld는
Cosmos보다 35배 적은 parameter,
2,000배 적은 FLOPs로도 더 나은 미래 예측을 냈다고 한다.

TC-AE는 이미지 tokenizer에서 channel만 키우면 구조가 collapse되는 문제를
token space 자체를 키우는 방향으로 다시 풀었다.
staged token compression과 iBOT self-supervision으로
semantic preservation ratio를 0.08에서 0.31까지 올리고,
gFID를 44.72에서 16.39로 낮추며,
64 token과 164 GFLOPs로 607 GFLOPs급 구조보다 더 좋은 생성성을 확보했다.

둘 다 핵심은 무엇을 토큰으로 남길지 다시 정했다는 데 있다.
크게 보기보다,
더 의미 있는 차이와 더 생성 친화적인 구조를 남기자는 쪽이다.

3D avatar diffusion은 in-the-wild 데이터로 넘어간다

Hugging Face Papers · GenLCA

GenLCA는 3D human diffusion이 studio capture에 갇혀 있던 한계를 깨려 한다.
1,117,411 identities 규모의 token dataset을 만들고,
그중 1,113,476개를 in-the-wild video identity로 채웠다는 숫자부터 압도적이다.
2,737 studio capture,
1,198 mobile capture를 합친 구조도 현실적이다.

핵심은 visibility-aware training이다.
LCA reconstruction model을 tokenizer로 재활용해
8,192 query point와 1,024차원 token을 만들고,
보이지 않는 region은 loss에서 빼 hallucinated artifact를 줄였다.

64 A100으로 4일 학습해
semantic align 0.64/0.76,
HyperIQA 63.05,
HuGe100K FID 76.50,
inference 12초,
그리고 user study 4.56~4.68 점대를 낸 건,
현실 데이터로도 photorealistic full-body avatar generation이 가능하다는 강한 신호다.

4D reconstruction은 elastic TTT로 긴 시퀀스를 버틴다

Hugging Face Papers · Fast Spatial Memory

LaCT 계열의 test-time training은 fast weight가 너무 plastic해서
시간이 길어질수록 catastrophic forgetting과 overfitting이 동시에 나타나는 문제가 있었다.
그래서 긴 시퀀스를 사실상 single large chunk로 보는 타협이 생겼다.

LaCET는 Fisher-weighted elastic prior와
EMA 기반 anchor state로 fast weight drift를 억제했다.
global,
streaming,
streaming-EMA를 비교한 결과
streaming-EMA가 가장 안정적이었다는 점도 설득력 있다.

RealEstate10K 10M frames,
DL3DV 51M,
Stereo4D 15M 같은 대규모 데이터 위에서
4 chunks + streaming-EMA 구조가
PSNR 약 29.99,
SSIM 0.903을 내며
single chunk baseline 26.021/0.792를 크게 앞질렀다.

dense retrieval distillation은 hard negative보다 score 분포가 중요하다

Hugging Face Papers · dense retrieval KD

이 논문은 retriever distillation에서 hard negative mining만 강조하는 흐름에 제동을 건다.
teacher score distribution이 너무 좁아지면
student는 teacher의 전체 preference structure를 배우지 못하고,
몇 개 어려운 negative만 외우는 식으로 collapse할 수 있다.

그래서 201-document candidate pool에서 quantile anchor를 잡는 stratified sampling을 써
score spectrum 전체를 고르게 덮는다.
coverage 0.990,
entropy 1.523,
std 0.359라는 diversity 수치가 가장 높았고,
reranker-top은 entropy 0.202,
std 0.035로 지나치게 좁았다.

MarginMSE 조건에서 reranker-top이 MRR@10 0.006까지 무너질 수 있는 반면,
stratified는 MRR@10 0.307,
BEIR nDCG@10 0.376을 냈다.
학습 신호는 hardness뿐 아니라 distribution shape로 봐야 한다는 점이 분명해졌다.

R3PM-Net은 산업용 point matching을 synthetic 밖으로 끌고 간다

Hugging Face Papers · R3PM-Net

point cloud registration은 benchmark 성능이 좋아져도
실제 산업 현장 scan에서는 쉽게 무너진다는 불신이 컸다.
R3PM-Net은 이 문제를 모델 개선만으로 풀지 않고,
Sioux-Cranfield와 Sioux-Scans라는 real-world industrial dataset을 같이 내놓았다.

photogrammetric scan과 event-camera scan을 CAD model에 붙이는 설정은
synthetic benchmark보다 훨씬 거칠고 현실적이다.
그 위에서 ModelNet40 기준 fitness 1,
inlier RMSE 0.029cm,
0.007초 latency,
RegTR 대비 약 7배 속도를 보여준 건 꽤 강하다.

실무적으로는 “정확한가”보다
“실제 공정 데이터에서도 빠르고 robust한가”를 보여준 쪽에 더 가깝다.
현장 데이터셋 공개 자체가 이 논문의 중요한 기여다.

로봇·물리세계·시뮬레이션

저가 센서와 adaptive perception이 embodied AI의 현실 비용을 낮춘다

arXiv · RoSHI, arXiv · CADENCE, YouTube · Hugging Face folding robots

RoSHI는 9개 저가 IMU와 Project Aria glasses를 묶어
야외에서 쓸 수 있는 humanoid 학습용 모션 인터페이스를 만들었다.
tracker와 receiver를 합친 하드웨어 비용이 약 $350 수준이고,
11개 motion sequence를 2명이 수집했으며,
Unitree G1으로의 retargeting까지 연결했다는 점이 실용적이다.

CADENCE는 perception compute를 상황에 따라 조절한다.
AirSim과 Jetson Orin Nano HIL 환경에서
sensor acquisition -9.67%,
power -16.1%,
inference latency -74.8%,
energy -75.0%,
navigation accuracy +7.43%를 만들었고,
20,000 RGB-depth pair로 학습한 slimmable depth network가
R² 0.9033까지 나왔다.

여기에 YouTube의 셔츠 접기 로봇이 던지는 현실이 겹친다.
완전 자율 folding을 만들기 위해 실제로는 약 10명의 teleoperator가 시연 데이터를 만들었다.
embodied AI는 결국 센서·compute·인간 데이터 생산의 경제를 어떻게 짜느냐 문제다.

Android Coach는 비싼 emulator state를 더 깊게 재사용한다

arXiv · Android Coach

Android GUI agent의 온라인 RL은 emulator latency 때문에 원래 비싸다.
기존 SSSA는 비싼 state를 한 번만 쓰고 버렸고,
PPO나 GRPO는 rollout을 돌려도 state 활용도가 낮았다.

Android Coach는 SSMA,
즉 Single State Multiple Actions로 이 구조를 바꿨다.
한 state에서 여러 action을 샘플링하고,
PRM과 outcome verifier를 붙인 critic Q,
ACLOO leave-one-out advantage로
비싼 state 하나를 더 깊게 읽는다.

20k PRM 데이터와 14% coordinate tolerance 설정 아래,
UI-TARS-1.5-7B는 AndroidLab 31.9%→39.4%,
AndroidWorld 32.8%→41.1%로 올랐고,
training efficiency는 1.4배였다.
온라인 agentic training이 rollout 수가 아니라 state reuse 문제일 수 있음을 잘 보여준다.

GROMACS+DeePMD는 inference가 MPI보다 더 큰 병목임을 보여준다

arXiv · GROMACS with deep potentials

AI-driven interatomic potential을 production molecular dynamics에 넣을 때
많은 사람이 먼저 통신 병목을 떠올리지만,
이 논문은 오히려 inference와 rank imbalance가 더 큰 병목임을 보여줬다.
ROCm profiler 기준 wall time의 90% 이상이 DeePMD inference였고,
MPI collective는 10% 미만이었다.

1.6M-parameter DPA-1을 1YRF 582 atoms로 검증하고
1HCI 15,668 atoms로 scaling을 본 결과,
strong scaling은 16 devices에서 66%,
32 devices에서 40%였고,
weak scaling은 16 devices까지 80% 근처를 유지하다
32 devices에서 MI250x 48%,
A100 40%로 내려갔다.

즉 AI potential을 넣는 문제는
MPI를 피하는 것보다 inference를 어떻게 감당할지의 문제에 더 가깝다.
production MD가 AI 때문에 느려지는 지점을 꽤 솔직하게 보여준 사례다.

MoRight는 camera/object disentanglement와 causality를 분리한다

arXiv · MoRight

motion-controlled video generation의 오래된 문제는
카메라 이동과 object motion이 한 신호에 엉겨 있다는 점이었다.
MoRight는 canonical static view와 target camera view를 나누는 dual-stream 구조로
이 문제를 먼저 풀고,
거기에 active motion과 passive motion을 분리하는 causality까지 넣었다.

motion dropout으로 한쪽 component를 일부러 감추고
반대편을 추론하게 만드는 방식도 흥미롭다.
사람 평가에서 controllability 53.5%,
motion realism 54.6%,
photorealism 55.9%를 얻었고,
ATI와 WanMove보다 확실히 우세했다.

비디오 생성이 trajectory replay에서
원인과 결과를 따지는 쪽으로 조금 더 이동했다는 신호로 읽힌다.

병리 AI의 expert 붕괴는 constrained routing으로 막아야 한다

arXiv · ROAM pathology routing

whole-slide image는 gigapixel과 heterogeneous morphology 때문에
한 경로로 다 처리하면 특이 패턴이 쉽게 묻힌다.
MoE가 해법처럼 보이지만,
softmax routing은 한두 expert로 붕괴하기 쉽다.

ROAM은 spatial region tokenization 뒤에
capacity-constrained entropic optimal transport를 붙여
expert load를 구조적으로 균형 잡는다.
그 결과 NSCLC에서 TCGA internal 1,043 slide,
CPTAC external 2,206 slide 설정에서
external AUC 0.845±0.019를 냈고,
PANDA 10,615 slide에서는 QWK 0.917±0.003까지 올라갔다.

ablation에서 softmax no-capacity는 0.809,
w/o graph regularization은 0.813,
w/o routing GNN은 0.836으로 떨어졌다.
의료 AI에서도 routing은 취향이 아니라 제약 최적화 문제라는 점이 분명하다.

exact relevance frontier는 깔끔한 structural predicate로 닫히지 않는다

arXiv · Exact Relevance Certification

오늘 논문 중 가장 이론적인 항목이지만,
메시지는 surprisingly practical하다.
exact relevance certification의 tractable frontier를
CSP dichotomy처럼 깔끔한 finite structural predicate로 닫을 수 있으리라는 기대가 깨진다는 것이다.

저자들은 tractable family 15개를
6 core,
4 lifts,
5 degenerate로 나누고,
primitive mechanism은 8개로 압축했다.
하지만 dominant-pair concentration 등 4개 obstruction family가
closure orbit 안에서 계속 충돌해
정확한 classifier를 단순 구조 분류로 만들기 어렵다는 점을 보였다.

Lean artifact까지 붙은 이 결과는
“구조를 잘 정의하면 정답도 깔끔하게 나올 것”이라는 직관에 제동을 건다.
형식 검증 자체도 때로는 불가능성의 경계를 더 잘 설명한다.

제품·빌더·문화

shared identity와 over-vibecoding은 빌더 도구의 편향을 드러낸다

Reddit · shared identity agents, Reddit · Replit 14-minute app

여러 agent에 shared identity와 shared memory를 붙였더니
기술적 협업보다 조직 페르소나를 먼저 흉내 내기 시작했다는 실험은
memory layer가 단순 recall이 아니라 bias injection이 될 수 있음을 보여준다.
“The Over-Optimized Founder”라는 persona를 넣자
에이전트가 scalability와 dashboard를 강박처럼 반복했다.

Replit의 14분 앱 사례는 다른 방식의 편향이다.
dashboard,
auth,
payments,
CRM,
pricing page,
심지어 존재하지 않는 testimonial까지 붙는 순간
도구는 사용자를 너무 빨리 “스타트업스럽게” 보이게 만든다.

속도는 분명 가치지만,
shared identity와 over-vibecoding은
모두 agent 도구가 어떤 서사를 강제로 덧씌우는지 보여주는 경고로 읽힌다.

haptic preset과 hotel feedback agent는 작은 운영 도구가 실제 UX를 바꾼다

Reddit · React Native haptic presets, Reddit · personalized hotel feedback automation

React Native용 haptic preset은 작은 유틸리티처럼 보이지만,
iOS와 Android에서 “비슷하게 느껴지게” 만드는 일은 실제로 꽤 어렵다.
특히 Android는 기기별 haptic engine 편차가 커서
platform parity 자체가 제품 품질이 된다.

호텔 체크아웃 피드백 에이전트도 같은 계열이다.
체크아웃 다음 날마다
stay 기록,
complaint,
시설 이용,
room type을 읽고 개인화된 Formfex 설문을 만들고,
그 답변을 다시 reason over 해서
긴급도와 감정을 분류해 recovery email 또는 review request로 라우팅한다.

n8n,
Gemini,
Formfex,
Slack/SMTP 같은 평범한 스택이지만,
“개인화된 설문 → 감정 판독 → 자동 라우팅”이라는 흐름은
작은 운영 도구가 실제 서비스 품질을 바꿀 수 있음을 잘 보여준다.

단기 자동매매보다 장기 리스크 구조가 더 중요하다

YouTube · OpenClaw $10,000 challenge, YouTube · Chamath on compounding

$10,000을 30일 동안 맡긴 OpenClaw trading challenge는
AI가 돈을 벌어줬다는 서사보다
전략을 어떻게 설명하고 리스크를 어떻게 줄이느냐가 더 중요하다는 걸 보여준다.
같은 기간 S&P가 10,000→9,153으로 약 -8.46%였고,
한 계정은 9,624,
다른 계정은 9,980 수준으로 마감했다.
61 trades,
116 orders라는 수치도 과도한 낙관을 줄여 준다.

Chamath의 장기 투자 대화는 이걸 더 큰 틀에서 해석한다.
get rich quick이 아니라 get rich slow,
20~30년 복리 구조,
그리고 한쪽엔 집중된 기술 투자,
다른 한쪽엔 현금이나 비상관 자산을 두는 barbell 전략이 핵심이라는 것이다.

AI trading bot이든 인간 투자자든,
결국 중요한 건 한 번의 수익이 아니라
다음 기회까지 살아남는 구조다.

바이킹 사례는 속도와 심리 충격이 구조를 바꾸는 오래된 교훈이다

YouTube · Lex Fridman / Lars Brownworth

오늘의 기술 이야기와 가장 멀어 보이는 항목이지만,
오히려 하루 전체의 감각을 설명하는 데는 도움이 된다.
바이킹 롱십이 하루 70~120마일을 가고,
흘수가 2피트 이하라 강과 바다를 오가며,
793년 Lindisfarne raid에서 유럽의 “바다는 안전하다”는 전제를 깨뜨렸다는 설명은
속도와 심리 충격이 시스템 구조를 어떻게 바꾸는지 잘 보여준다.

AI 에이전트가 업무 구조를 흔드는 방식도 비슷하다.
절대 성능보다,
누가 더 빨리 진입하고,
더 예측 불가능한 경로로 들어오느냐가
실제 조직과 시장을 바꾼다.

디자인 감각도 이제 하네스와 시뮬레이터로 모듈화된다

Threads · design skills for Claude Code, X · Figma Weave

디자인 자동화 쪽에서 가장 흥미로운 변화는
결과물을 그냥 예쁘게 만드는 게 아니라
감각을 규칙과 스킬 세트로 바꾸려 한다는 점이다.
Front-End Design,
Figma to Code,
Theme Factory,
Brand Guidelines 같은 Claude Code 스킬 묶음은
디자인 감각을 하네스화하려는 시도다.

Figma Weave가 이미지,
비디오,
3D까지 다루는 workflow를 밀고,
Paperdraw가 트래픽과 장애,
지연,
스케일링을 drag-and-drop 시뮬레이션으로 바꾸는 것도 같은 흐름이다.
디자인과 시스템 설계 모두 결과물보다 재현 가능한 프로세스를 저장하려 한다.

스트리밍 입력과 브라우저 벤치마크가 도구 경쟁력을 가른다

X · VibeVoice, X · browser tool benchmark, X · Solami

실시간 입력을 다루는 쪽에서는 모델 이름보다 ingest path가 더 중요해진다.
VibeVoice는 60분 오디오를 chunking 없이 한 번에 전사하고
speaker diarization과 타임스탬프를 함께 잡는다.
이건 컨텍스트 분할 자체를 줄이는 방향이다.

브라우저 tool benchmark는 같은 agent 작업에서도
어떤 도구를 쓰느냐에 따라 비용과 latency가 크게 달라진다는 점을 보여줬다.
즉 모델보다 toolchain이 실제 병목일 수 있다는 뜻이다.

Solami와 ShredStream이 block,
transaction,
account를 실시간으로 흘리고,
UDP raw shreds를 블록 확정 전 받는 구조까지 합치면,
실시간성은 UI 부드러움이 아니라 데이터 파이프라인 설계 문제가 된다.

교차 분석

오늘의 가장 큰 교차 주제는 “출력을 바로 믿지 않는다”는 태도였다.
SEVerA의 formal contract,
LEO intent compiler의 8-pass validator,
code understanding assessment의 verifier,
MCP server 품질 논의,
receipts와 anti-slop 도구까지,
연구와 제품 모두 LLM을 생성기로만 두지 않고 검증기를 한 겹 더 붙였다.

두 번째 교차점은 비용이 기능을 규정한다는 사실이다.
Managed Agents의 $0.08/session-hour,
Opus/Sonnet/Haiku의 토큰 가격,
ChatGPT Pro $100과 Codex 5x/10x,
Anthropic의 reasoning throttle 체감,
OpenClaw 운영 피로,
로컬 LLM의 13분 통합 지연,
CADENCE의 75% energy 절감까지,
오늘 거의 모든 카테고리는 비용을 성능의 부록이 아니라 설계의 중심으로 다뤘다.

세 번째는 구조화가 곧 성능이라는 흐름이다.
Graphify의 지식 그래프,
MemPalace의 계층 기억,
AgentGL의 graph-native 탐색,
FlowInOne의 visual prompt,
Q-Zoom의 query-aware routing,
DeltaTok과 TC-AE의 token 재설계,
ROAM의 capacity-constrained routing은
모두 더 큰 모델보다 더 좋은 구조를 택했다.

네 번째는 인간이 완전히 사라지는 방향보다
인간의 질문과 판독과 개입 지점을 더 선명하게 만드는 방향이 강했다는 점이다.
암 치료 설계,
호텔 피드백 분류,
Codex preview branch,
teleoperator가 만드는 로봇 데이터,
채용 90일 온보딩까지,
AI는 사람을 대체했다기보다
사람이 더 잘 묻고 더 빨리 판단하도록 지형을 바꾸는 쪽에 가까웠다.

마지막으로 문화와 도구의 감각이 다시 붙었다.
bitmap fonts와 instant space switching,
shared identity agent와 over-vibecoding,
immersive shopping과 haptic parity는
지금의 기술 변화가 성능 지표만의 경쟁이 아니라
사용자가 무엇을 “자연스럽다”고 느끼는가를 둘러싼 경쟁이기도 하다는 점을 보여줬다.