Daily Digest — 2026-04-12

하네스 엔지니어링, 에이전트 운영체계, AI 보안, 실전형 연구와 비즈니스 자동화 신호가 한꺼번에 겹친 날

Daily Digest — 2026-04-12

오늘의 핵심 흐름

오늘은 모델 이름보다
모델을 둘러싼 운영체계가 더 자주 등장했다.

Anthropic의 Managed Agents,
Multica 같은 오픈소스 에이전트 보드,
Graphify 같은 지식 그래프 도구,
MCP 메모리 서버,
로컬 모델 실행 스택이
모두 다른 표면을 하고 있었지만,
실제로는 같은 질문을 던지고 있었다.

질문은 단순하다.
더 강한 모델을 붙이는 것이
정말 실전 경쟁력의 핵심인가,
아니면 메모리·스킬·프로토콜·하네스·세션 관리 같은
바깥 구조를 더 잘 설계하는 것이 핵심인가다.

오늘의 자료는 거의 모두
후자 쪽으로 기울었다.
같은 모델이라도 하네스만 바꾸면 점수가 오르고,
같은 CLI라도 AGENTS.md와 UI 규칙만 바꿔도 사용감이 달라지고,
같은 코드베이스라도 무작정 읽는 대신 그래프와 스킬 검색으로 풀면
토큰과 비용이 크게 줄어든다는 식이다.

보안도 같은 방향이었다.
Mythos와 Project Glasswing는
“모델이 얼마나 강한가”보다
“그 강함을 어떤 공개 전략과 책임 체계 안에 둘 것인가”가
더 중요한 이슈가 됐다.

Linux kernel의 AI 제출 규칙,
Zero Data Retention 설정 논의,
Microsoft 계정 정지,
CPUID 다운로드 링크 탈취,
Claude 한도와 신뢰성 불만까지 이어서 보면,
지금의 병목은 모델 가중치보다
운영 경계와 정책, 유통, 권한 설계에 가깝다.

연구 전선도 더 현실로 내려갔다.
웹 에이전트는 라이브 사이트,
모바일 에이전트는 Android emulator,
embodied agent는 3D 게임 월드,
omni-modal 모델은 오디오와 비디오 시간축으로 확장됐다.

동시에 이론 쪽에서는
differential privacy가 생성 가능성 자체를 없애지는 않지만,
샘플 복잡도와 식별 문제에서는 훨씬 더 큰 비용을 만든다는
정리도 나왔다.

비즈니스와 제품에서는
광고·부동산·법률 같은 도메인에서
읽기 보조가 아니라 쓰기 권한을 가진 커넥터가 등장했고,
SEO·cold email 인프라·회의 자동화·AI OS 같은 운영 체계가
직접 매출과 연결됐다.

반대로 베이비대시보드처럼
AI와 무관해 보이는 제품 사례는
좋은 제품이란 결국
사용자 한 명이 아니라
사용자들이 함께 놓인 맥락을 읽는 일이라는 점을 다시 보여줬다.

에이전트 운영체계와 실행 환경

Managed Agents 이후, 하네스가 제품을 가른다

LinkedIn · Shubham Saboo, LinkedIn · HoYeon Lee 외, GeekNews · Managed Agents, YouTube · Anthropic, YouTube · AI Jason

Managed Agents 공개 이후의 핵심 질문은
어떤 모델을 쓰는가가 아니라,
그 모델을 어떤 하네스에 넣을 때
실제 업무 흐름이 달라지는가로 이동했다.

Anthropic은 Managed Agents를
session, harness, sandbox를 분리한 서비스로 설명했다.
핵심 설계 변화는
브레인에 해당하는 Claude와 harness,
손에 해당하는 sandbox와 tool,
그리고 session log를 분리한 것이다.

이 분리의 효용도 수치로 제시됐다.
p50 TTFT는 약 60% 줄었고,
p95는 90% 이상 줄었다고 설명됐다.
오래 걸리는 작업에서 체감 지연을 줄이는 방향으로
운영 구조를 뜯어고쳤다는 뜻이다.

같은 문맥에서
이전 하니스에서 보이던 Sonnet 4.5의 조기 종료 성향,
소위 “context anxiety”가
Opus 계열에서는 사라졌다는 설명도 붙었다.
이건 오래된 모델 평판과 사용 경험이
하네스 설계 변화 앞에서 빠르게 낡을 수 있다는 신호다.

오픈소스 쪽에서는
Multica가 이 논리를 훨씬 직접적으로 밀어붙였다.
이 프로젝트는 공개 후 며칠 만에
GitHub stars 4,000+를 넘겼고,
1주도 안 되어 빠르게 확산됐다고 소개됐다.

사람들이 반응한 이유도 분명했다.
Claude Code, OpenAI Codex, OpenClaw, OpenCode 같은
서로 다른 에이전트 CLI를 자동 감지해 붙이고,
이슈를 사람에게 할당하듯
에이전트에게 할당하는 보드형 운영 경험을 제시했기 때문이다.

에이전트는 단순히 터미널을 열고 실행되는 존재가 아니라,
격리된 워크스페이스에서 작업한 뒤
실시간 WebSocket으로 진행 상황을 올리고,
막히면 블로커를 보고하고,
완료되면 상태를 갱신하는 팀원처럼 다뤄진다.

Anthropic Managed Agents가
Claude 전용·클라우드 전용 성격이 강한 반면,
Multica는 self-host와 vendor flexibility를
전면에 내세웠다는 차이도 크다.
관리형 인프라의 필요성은 인정하되,
그 인프라를 벤더에 맡길지
직접 소유할지는 별도 선택지가 된 셈이다.

현장 담론도 모델보다 하네스 쪽으로 움직였다.
100명+ 임직원 세션에서
절반 이상이 비개발자로 자발 신청했다는 사례는,
이 주제가 더 이상
프롬프트 잘 쓰는 개인의 노하우 수준이 아니라
조직 운영의 문제로 넘어갔다는 뜻이다.

여기서 하네스는
구조, 맥락, 실행 흐름, 검증 기준, 반복 개선의 묶음으로 정의됐다.
즉 좋은 응답을 한 번 뽑는 법이 아니라,
좋은 실행을 재현 가능하게 만드는 구조다.

이 관점은 LangChain 사례에서
아주 명확한 숫자로 드러난다.
모델을 고정한 채 하네스만 바꿨는데,
Terminal Bench 2.0 점수가
52.8%에서 66.5%로 올라갔다.

순위도
Top 30 밖에서 Top 5로 뛰었다.
모델 교체가 아니라
하네스 엔지니어링만으로 일어난 변화라는 점이
더 중요하다.

하네스를 잘 쓰기 위한 진입점도
복잡한 이론이 아니라 세 가지 훅으로 압축됐다.
시작 전 준비,
모델 호출 전후 처리,
호출 감싸기 같은 3개 훅이
실제 커스터마이징 포인트로 제시됐다.

OpenClaw 관련 글은
Managed Agents의 4계층 추상화,
즉 Agent / Environment / Session / Events 대비
“내가 소유하는 하네스 레이어”를 더 강조했다.
여기서는 오픈소스만 살아남는다는 선언보다,
오픈소스 하네스를 직접 다룰 수 있는 사람이
살아남는다는 논지가 더 중요했다.

같은 맥락에서
Codex UI를 Claude Code처럼 보이게 만든
40줄짜리 AGENTS.md 사례도 회자됐다.
출력 형식과 상호작용 규칙만 바꿔도
사용감이 크게 달라진다는 뜻이다.

정리하면,
오늘 하네스 담론의 요지는
모델 성능이 좋아지면 자동으로 해결된다는 낙관을 버리는 데 있다.
같은 Opus 4.6이라도
어떤 하네스에 넣느냐에 따라 점수와 체감이 달라지고,
같은 CLI라도 어떤 흐름과 검증 규칙을 얹느냐에 따라
제품이 달라진다.

핵심 사실을 다시 묶으면 이렇다.

이 섹션이 중요한 이유는
에이전트 제품 경쟁이
이제 모델 랭킹표만으로 설명되지 않기 때문이다.
운영 레이어를 누가 더 잘 소유하고 설계하느냐가
다음 경쟁의 중심으로 보인다.

메모리·스킬·프로토콜을 외부화하는 런타임

LinkedIn · Seungpil Lee, Hugging Face · Externalized Agent Infrastructure, Hugging Face · ImplicitMemBench / Graph of Skills, Hugging Face · Act Wisely, Reddit · r/ollama, Reddit · r/mcp

오늘의 두 번째 큰 축은
memory, skills, protocols, harness를
모델 내부 능력으로 보지 않고
외부 런타임 자산으로 분리하는 흐름이었다.

관련 서베이는 이걸
human cognitive externalization에 대응시켰다.
memory는 time across state,
skills는 procedural expertise,
protocols는 interaction structure를
외부화하는 레이어로 설명된다.

핵심 프레이밍은 더 분명하다.
practical agent progress는
model scaling보다
runtime 재구성에 더 크게 의존한다는 것이다.
즉 파라미터를 늘리는 일보다,
메모리와 스킬을 어떻게 저장·선택·호출하느냐가
실전 개선에 더 직접적으로 작동한다.

Graphify는 이 흐름의
가장 실용적인 사례로 소개됐다.
아무 폴더나 지정한 뒤
/graphify만 실행하면,
별도 설정 파일과 vector database 없이
폴더 전체를 지식 그래프로 바꾼다.

결과물은 단순 인덱스가 아니다.
Obsidian vault와
index.md 중심 위키가 함께 만들어지고,
코드베이스나 문서 묶음을
사람이 탐색 가능한 구조로 재배열한다.

지원 범위도 넓다.
Python, JavaScript, TypeScript, Go, Rust 등
13개 언어를 다루고,
PDF, 이미지, Markdown도 함께 지원한다.
코드베이스 탐색과 리서치 문서 읽기를
하나의 인터페이스로 묶는 셈이다.

숫자도 강했다.
raw 파일을 직접 읽는 방식 대비
쿼리당 토큰 사용량을 71.5배 줄였다고 한다.
이 수치는 “더 많이 읽는 모델”보다
“더 잘 구조화된 런타임”이
왜 중요한지를 한 번에 보여준다.

논문 쪽도 같은 방향이다.
ImplicitMemBench는 explicit recall이 아니라
경험이 자동 행동으로 굳는 implicit memory를 측정하려고 만든
첫 체계적 벤치마크라고 소개됐다.

구성은 300개 항목,
17개 모델,
procedural memory / priming / classical conditioning의
세 축이다.
그런데 최고 성능도 인간 기준에 크게 못 미쳤다.

DeepSeek-R1이 65.3%,
Qwen3-32B가 64.1%,
GPT-5가 63.0% 수준에 그쳤다.
즉 “모델이 기억한다”는 말을
그대로 믿기 어려운 상황이라는 뜻이다.

반면 Graph of Skills는
memory와 skills를 저장소가 아니라
선택 가능한 실행 구조로 바꾼다.
1,000-skill 규모에서
dependency-aware structural retrieval을 수행해,
vanilla full loading 대비
평균 reward를 43.6% 올리고
input tokens를 37.8% 줄였다.

도구 사용 효율도
같은 문제를 다른 각도에서 다뤘다.
Act Wisely는
agentic multimodal model이
내부 지식과 외부 tool query를 구분하지 못해
blind tool invocation에 빠지는 문제를 지적했다.

해법은 HDPO였다.
accuracy reward와 tool-efficiency reward를
하나의 점수로 뭉개지 않고
조건부 advantage로 분리해 학습시키자,
tool invocation이 98%에서 2% 수준으로 낮아졌다.
정확도는 유지하거나 끌어올렸다.

커뮤니티 경험담은
이런 연구 메시지를 현실에 대조해준다.
“178x token reduction” 같은 문구는
전체 repo 토큰을 retrieval 토큰으로 나눈 숫자에 가까워,
실전 효율을 그대로 설명하지 못한다는 반박이 나왔다.

작성자가 제시한 실전 평균은
50~60% 절감 수준이었다.
포커스 작업은 최대 85%까지 가능하지만,
일상적인 평균값으로는
그보다 훨씬 낮게 보는 편이 맞다는 정리다.

실제 리포지토리 예시도 붙었다.
Medusa는 57%,
Sentry는 53%였고,
turns는 16.8에서 10.3으로 줄었다.
Twenty도 50%+ 절감 사례로 거론됐다.

이 글의 더 흥미로운 결론은
retrieval보다 memory가 더 큰 문제라는 점이었다.
즉 필요한 파일을 잘 찾는 것만으로는 부족하고,
이미 찾은 구조를 세션과 작업 맥락에 맞게
지속적으로 축적·재사용해야 한다는 뜻이다.

OpenClaw 사용자 경험도 비슷했다.
Claude에서 ChatGPT로 옮기면
SOUL / AGENT / TOOLS 규칙 해석 자체가 달라져,
프롬프트를 영어 명령문처럼 다시 써야 한다는 경험담이 나왔다.
같은 하네스도 모델이 바뀌면 실행 의미가 바뀌는 셈이다.

또 다른 비교에서는
OpenClaw와 Hermes를 10분 동안 나란히 돌렸을 때
토큰 사용량이 200만 대 50만으로 갈렸다고 한다.
이 역시 하네스, memory, 도구 호출 규칙이
비용 구조를 크게 흔든다는 사례다.

MCP 쪽 제품화도 같은 방향이다.
mcp-belgium
벨기에 공공 데이터 API 16개와
63개 툴을 하나의 installable package로 묶었다.
실행도 npx -y mcp-belgium 한 줄로 요약된다.

여기서 중요한 건 툴 수 자체보다
조합 비용을 줄였다는 점이다.
built-in catalog를 제공해
각 도메인의 기능을 탐색하게 만들었고,
여러 공공 API를 따로 붙일 필요를 줄였다.

메모리 전용 MCP 서버인 recall은
또 다른 외부화 사례다.
MCP 2025-03-26 프로토콜을 HTTP로 구현했고,
store_memory, retrieve_memory, list_memories,
delete_memory, clear_memories, consolidate_memories
6개 도구를 제공한다.

검색 구조도 구체적이다.
bge-m3와 FTS5 BM25의 하이브리드 검색,
cross-encoder reranking,
주간 dreaming cron,
Cloudflare Workers 위 D1 / Vectorize 조합이
메모리 서버의 구성으로 설명됐다.

비용도 공격적으로 제시됐다.
solo나 small-team 규모는 $0,
대형 에이전트 플릿도 월 $3~5 수준이라고 했다.
메모리를 서버로 외주화하는 비용이
생각보다 낮게 내려왔다는 신호다.

핵심 사실을 다시 남기면 이렇다.

결국 이 섹션이 말하는 바는
컨텍스트를 더 길게 넣는 것이 해답이 아니라는 점이다.
구조를 먼저 만들고,
필요한 기억과 스킬만 호출하는 런타임이
비용과 품질을 동시에 바꾼다.

로컬 스택, 병렬 학습, 상태 기반 워크플로가 붙는다

LinkedIn · Sang Park 외, Hugging Face · Combee, YouTube · Hex, Reddit · r/n8n

로컬·오픈소스·온프레미스 스택은
오늘 자료에서 별도 변방이 아니라
핵심 실행 환경 논리로 등장했다.
모델이 클라우드에 있어야만
좋은 에이전트가 된다는 가정이 흔들린다.

GLM-5.1을 Claude Code 하네스에 붙였을 때
Opus를 쓸 때와 큰 차이가 없었다는 사례는
그 변화를 상징적으로 보여준다.
성능 차이가 체감상 크게 벌어지지 않는다면,
API 비용, 보안, 독립성 문제가
모델 선택보다 더 중요해질 수 있다는 뜻이다.

여기서 강조된 장점은
온프레미스 독립성이다.
API 비용 없이,
보안 우려 없이,
로컬 환경에서 독립된 에이전트 형태를 구성할 수 있다는 설명은
기업과 개인 양쪽 모두에 매력적이다.

Ollama Cloud Pro는
이 흐름을 다른 방식으로 보여준다.
ollama launch claude 한 줄로
Claude Code를 저렴하게 돌리는 방식이 제시됐지만,
--dangerously-skip-permissions와 함께 쓰기 어렵다는
아쉬움도 같이 기록됐다.

즉 로컬 스택의 장점은 분명하지만,
권한 모델과 보안 제약이
클라우드와 다른 마찰을 만든다는 현실도 남는다.
독립성은 공짜가 아니라는 뜻이다.

음성 쪽에서는
Microsoft의 VibeVoice가
60분 회의를 한 번의 끊김 없이 텍스트로 변환했다고 소개됐다.
GitHub stars 3.8만+도 함께 언급됐다.

이 숫자가 중요한 이유는
오픈·로컬 스택이 더 이상
작은 모델 대안에 머무르지 않고,
회의록처럼 실제 업무 도구 영역까지
파고들고 있다는 점을 보여주기 때문이다.

sena-ai
로컬 실행 환경을 선언적으로 정의하는 사례다.
official Agent SDK 기반으로,
runtime, connector, tool, schedule을
sena.config.ts 하나에 선언한다.

지원 범위도 런타임 수준이다.
크론잡,
자가 발전 루프,
셀프 업데이트,
메모리 확장까지 포함한다.
즉 단일 에이전트 실행기가 아니라
작은 운영체계에 가깝다.

학습 쪽에서는
Combee가 prompt learning의 병렬화를 다뤘다.
generate-reflect-update 계열 방법을
고병렬로 스케일링하기 위한 프레임워크로 설명됐고,
최대 17배 speedup을 냈다.

평가 환경도 실용적이다.
AppWorld,
Terminal-Bench,
Formula,
FiNER에서 테스트했고,
정확도는 동급 이상을 유지했다.

이 논문이 흥미로운 이유는
병렬화 병목을 명시적으로 다루기 때문이다.
batch 1에서 100으로 늘릴 때
Formula 정확도가 87.0%에서 72.5%로 꺾이는
context overload 현상을 직접 겨냥했다.

핵심 메커니즘은
Map-Shuffle-Reduce,
augmented shuffle,
dynamic batch size controller다.
단순히 배치를 키워서 빠르게 돌리는 것이 아니라,
병렬 상태에서도
문맥이 무너지는 지점을 조절하는 구조다.

제품 사례는 Hex 쪽에서 나왔다.
Hex는 노트북 인터페이스 안에서
SQL, Python, 텍스트, 차트를 섞는 방식으로,
text-to-SQL을 실제 유료 사용자에게
처음 안정적으로 제공한 제품으로 소개됐다.

여기서 중요한 건
모델 시연이 아니라
상용 안정성이다.
실제 결제 사용자가 있는 환경에서
text-to-SQL이 흔들리지 않게 붙었다는 점이
많은 데모형 제품과 다른 포인트다.

LangChain 계열 업데이트도
런타임 확장 방향을 보여준다.
LangSmith deploy에는
Google A2A 프로토콜 지원이 붙었고,
LangSmith Fleet에는
7,500개가 넘는 Arcade.dev 도구가 들어왔다.

워크플로 자동화 쪽에서는
n8n 사용자가
“n8n은 흐름도처럼 보이지만 실제로는 상태 기계에 더 가깝다”는
정리를 남겼다.
이 문장은 생각보다 중요한 통찰이다.

생산 워크플로는
스케줄,
외부 이벤트 대기,
분기,
재시도,
복구를 포함한다.
그래서 trigger → node → node 같은 그림만으로는
운영 현실을 설명할 수 없다.

이 글은
캔버스는 진실의 원천이 아니라
시각화일 뿐이라고 말한다.
실제 숙련도는 execution history를 읽고,
pin test data로 런타임 데이터를 추적하는 능력에 달려 있다는 것이다.

핵심 사실을 다시 정리하면 이렇다.

이 섹션이 보여주는 방향은 선명하다.
좋은 에이전트는 더 큰 모델만으로 완성되지 않는다.
로컬 실행,
병렬 학습,
상태 기반 워크플로,
도구 카탈로그,
로그 읽기 같은 운영 기술이
실전 성능을 좌우한다.

AI 보안과 신뢰 경계

Mythos 이후, 병목은 모델보다 시스템이다

Aisle · AI Cybersecurity After Mythos, YouTube · Anthropic, Linux Kernel Docs · Submitting Patches, Reddit · r/LocalLLM

Mythos 공개가 남긴 핵심 메시지는
보안형 AI가 세졌다는 감탄이 아니다.
방어의 병목이 모델보다 시스템이라는 점이
숫자로 확인됐다는 데 더 가깝다.

저자 측 실험에서는
소형 오픈웨이트 모델도
핵심 취약점 분석을 상당 부분 재현했다.
3.6B active GPT-OSS-20b를 포함한 8개 모델이
모두 FreeBSD NFS 취약점을 탐지했다.

OpenBSD SACK 분석에서는
5.1B active GPT-OSS-120b가
전체 체인을 복원했다고 정리됐다.
즉 frontier 모델만 가능한 일이 아니라,
작은 모델도 운영 구조에 따라
충분히 위협적인 수준에 도달할 수 있다는 뜻이다.

이 실험군은 단발성 시연이 아니었다.
저자 측은 이미
OpenSSL 15건,
curl 5건,
30개+ 프로젝트에서
180건+ 외부 검증 CVE를 운영했다고 밝혔다.

그래서 “모델이 강해졌다”보다
“방어와 공개 체계를 어떻게 운영할 것인가”가
더 중요한 질문으로 올라온다.
Project Glasswing도 바로 그 지점에서 시작됐다.

YouTube 설명에서도
Glasswing는
일상적으로 쓰는 소프트웨어의 취약점을
더 빨리 찾고 더 빨리 패치하기 위한
보안 이니셔티브로 소개됐다.
LLM이 코드를 잘 쓰는 만큼,
버그 탐지와 공격에도 강해질 수 있다는 전제가 깔려 있다.

Anthropic이 붙인 자원 규모도 크다.
Mythos / Project Glasswing에
최대 1억 달러 usage credits와
400만 달러 직접 기부가 약속됐다.
이 정도 규모는
단순 연구 공개가 아니라
생태계 전체의 대응 시간을 사려는 시도로 읽힌다.

흥미로운 점은
이 메시지가 오픈소스 기여 프로세스와도 이어진다는 점이다.
Linux kernel 문서는
AI 보조 도구 사용 자체는 허용하지만,
제출 프로세스와 라이선스 책임은
인간이 진다고 못 박는다.

여기서 가장 상징적인 문장은
AI agent는 Signed-off-by 태그를 붙이면 안 된다는 것이다.
대신 Assisted-by: AGENT_NAME:MODEL_VERSION [TOOL1] [TOOL2]
형식의 추적 태그를 제안한다.

즉 핵심은
AI 사용을 금지하는 게 아니라,
책임 귀속과 추적 가능성을
프로세스 차원에서 명시하는 일이다.
이것도 결국 시스템 설계다.

운영 환경에서는
데이터 정책이 같은 수준의 이슈가 된다.
3년 정도 LLM 앱을 운영했다는 작성자는
“데이터가 모델 학습에 쓰이지 않는 것”이
이제는 기본 요구사항이라고 정리했다.

과거에는 self-hosting이
사실상 유일한 보장 수단이었다고 본다.
지금은 Zero Data Retention을 제공하는 서비스도 있지만,
대개 기본값이 아니어서
운영자가 별도 설정을 해야 한다는 지적이 붙었다.

이 관찰은 중요하다.
모델 능력이 세질수록
사용자는 더 많은 민감 정보를 올리게 되고,
그만큼 “학습에 안 쓴다”는 약속이
문구가 아니라 설정 항목과 로그 정책으로 내려와야 하기 때문이다.

핵심 사실을 다시 남기면 이렇다.

이 섹션이 가리키는 방향은 분명하다.
보안형 AI의 핵심 병목은
더 강한 모델이 아니라,
책임 있는 공개,
기여 추적,
데이터 보존 설정,
패치와 가드레일 체계다.

평가와 프롬프트는 재현 가능한 규칙으로 이동한다

GeekNews · Product Makers Note / Berkeley, Hugging Face · ClawBench / KnowU-Bench, YouTube · Anthropic, Reddit · r/PromptEngineering

AI 제품에서 품질 문제는
점점 “잘 작동하느냐”가 아니라
“무엇을 성공으로 정의하느냐”의 문제로 이동하고 있다.
오늘 자료는 그 변화를
제품, 벤치마크, 해석, 프롬프트 실험의 네 각도에서 보여줬다.

기사 쪽에서는
AI 서비스 PM이 더 이상
기능 명세만 쓰는 역할이 아니라고 정리했다.
8시간 동안 수천 개 결과물을 점수화해 본 경험을 통해,
품질은 테스트가 아니라 정의의 문제라고 요약했다.

이 메시지는 벤치마크 연구와도 맞물린다.
Berkeley 쪽 정리는
주요 벤치마크가 구조적으로 조작 가능할 수 있다고 지적했다.
SWE-bench Verified 500개,
SWE-bench Pro 731개,
WebArena 812개,
FieldWorkArena 890개,
GAIA 165개,
Terminal-Bench 89개 같은 숫자가 함께 제시됐다.

포인트는
점수가 능력을 완전히 대변하지 않을 수 있다는 것이다.
평가 설계가 공격 가능한 순간,
모델 성능은 실제 제품 품질과 멀어질 수 있다.

그래서 실환경 벤치마크가 더 중요해진다.
ClawBench는
153개의 everyday online task를
144개 live platform과 15개 카테고리로 구성한
real-web write-heavy benchmark다.

안전 장치도 현실적이다.
production website에서 돌아가되,
final submission request만 interception layer로 막았다.
즉 실제 사이트와 상호작용하지만,
완전한 손상은 방지하는 방식이다.

결과는 frontier 모델의 한계를 드러냈다.
7개 frontier model 중
Claude Sonnet 4.6이 33.3%로 가장 높았고,
GPT-5.4는 6.5%에 머물렀다.
실웹 쓰기 과제는 여전히 매우 어렵다는 뜻이다.

KnowU-Bench는
모바일 개인 비서를 더 현실적으로 본다.
Android emulator 위에서
42 general,
86 personalized,
64 proactive task를 평가한다.

여기서 중요한 설계는
hidden user profile과
visible behavior log를 분리한 점이다.
모델은 겉으로 드러난 행동만 보고
선호를 추론해야 한다.

그래서 단순 navigation보다
preference acquisition과 restraint,
proactive calibration이 중요한 문제가 된다.
대표 모델들이
vague instruction과 proactive calibration에서
평균 30% 안팎으로 성능이 떨어졌다는 결과는
이 지점을 잘 보여준다.

해석 가능성 연구도
평가의 재정의를 뒷받침한다.
Anthropic은 모델 내부 뉴런 패턴을 분석해
행복, 분노, 공포 같은 감정 개념이
짧은 서사와 대화에서 실제로 활성화되는지를 봤다.

고압적인 불가능 과제를 주면
Claude의 반응이 달라지는지도 실험했다.
즉 “이 모델이 왜 이렇게 답했는가”를
추측이 아니라 내부 표현 패턴과 연결하려는 시도다.

커뮤니티 쪽에서는
비밀 프롬프트 코드 담론이
실험 가능한 규칙으로 정리됐다.
50개 이상 “secret Claude prompt”를
6주간 테스트한 뒤,
실제로 응답 방식을 바꾼 건 7개뿐이라고 한다.

효과가 있다고 정리된 것은
L99,
/ghost,
/deepthink,
OODA,
ARTIFACTS,
/mirror,
구체적인 PERSONA였다.
각각 추천을 더 단정적으로 만들거나,
AI 특유의 메타 문장을 줄이거나,
복합 문제에서 층위를 더 깊게 보게 만든다고 주장했다.

반대로 효과가 약하다고 본 목록도 분명했다.
/jailbreak,
DAN,
/godmode,
BEASTMODE,
막연한 expert,
랜덤 대문자 문자열은
거의 의미가 없었다고 했다.

이 정리는 중요한 의미가 있다.
프롬프트가 마법 주문이 아니라,
재현 가능한 prefix 실험과
행동 변화 측정의 대상이 되고 있다는 뜻이기 때문이다.

핵심 사실을 다시 묶으면 이렇다.

오늘의 결론은 간단하다.
점수와 프롬프트 모두
“될 것 같다”가 아니라
재현 가능한 규칙과 실환경 평가로 옮겨가고 있다.
정의되지 않은 품질은
결국 조작되거나 착시를 만들기 쉽다.

운영 경계가 무너지면 신뢰도 함께 무너진다

GeekNews · Microsoft 계정 정지, GeekNews · CPUID 링크 탈취, GeekNews · reverse-SynthID, Reddit · r/ClaudeAI

오늘의 보안·운영 뉴스는
대부분 “모델이 틀렸다”가 아니라
운영 경계가 무너졌을 때 신뢰가 어떻게 붕괴하는가를 보여줬다.
계정 검증, 다운로드 전단, 워터마크, 서비스 한도 같은
바깥 구조가 직접적인 문제였다.

Microsoft 사례부터 거칠었다.
WireGuard,
VeraCrypt,
MemTest86,
Windscribe 같은 주요 오픈소스 프로젝트 유지보수 계정이
예고 없이 정지됐다는 보도가 나왔다.

Microsoft 설명은 비교적 행정적이다.
Windows Hardware Program 계정 검증이
2024년 4월 이후 미완료인 파트너를 대상으로
2025년 10월부터 메일을 보냈고,
30일 내 검증 실패 시 자동 정지된다고 했다.

하지만 실질적 문제는
유지보수자가 인간 지원을 거의 찾지 못했다는 데 있다.
공개 압박이 생긴 뒤에야
계정 복구 논의가 진행됐다는 점은,
검증 플로우 하나가
보안 패치 배포 전체를 막을 수 있음을 보여준다.

CPUID 사건은
공급망 공격이 어디서 시작되는지를 다시 상기시켰다.
백엔드의 secondary feature가
약 6시간,
즉 4월 9~10일 동안 탈취되면서,
HWMonitor와 CPU-Z 다운로드 링크가 악성 링크로 바뀌었다.

CPUID는 서명된 원본 파일 자체는 훼손되지 않았다고 밝혔다.
하지만 64비트 HWMonitor 설치본으로 가장한 파일이 배포됐고,
fake CRYPTBASE.dll,
PowerShell,
메모리 상 실행,
Chrome IElevation COM 인터페이스 접근 정황이 보고됐다.

이 사례가 중요한 이유는
빌드 체인보다 다운로드 전단을 먼저 건드려도
충분히 같은 효과를 낼 수 있다는 점 때문이다.
사용자는 서명이 아니라 다운로드 링크를 먼저 믿는다.

reverse-SynthID는
출처 검증 경계가 얼마나 취약한지도 보여준다.
이 프로젝트는
Google SynthID 워터마크의 carrier frequency 구조를 찾고,
90% 정확도의 탐지기와
multi-resolution spectral bypass V3를 만들었다고 주장했다.

수치도 구체적이다.
V3는 75.8% carrier energy drop,
91.4% phase coherence drop,
43.5 dB PSNR을 기록했다고 한다.
1024x1024에서는 (9, 9) carrier가,
1536x2816에서는 (768, 704) carrier가 핵심이라고 적었다.

1024x1024 프로필은
100장의 검은색 참조 이미지와
100장의 흰색 참조 이미지로 추출했다고 한다.
즉 워터마크 탐지와 우회가
이제 공개적인 실험 소재가 된 셈이다.

서비스 운영 불만도
같은 범주의 신뢰 문제다.
Claude 관련 커뮤니티에서는
최근 몇 주 사이
모델 품질과 신뢰성이 떨어졌다는 체감이 반복됐다.

한 작성자는
status page 기준 98.73% uptime를
“single nine” 수준이라고 비판했다.
/buddy 같은 장식 기능이
이미 빡빡한 GPU 자원을 더 쓰는 신호라고 지적했다.

월 $200 Claude Max 사용자 사례는 더 구체적이다.
“20x” 티어인데도
1시간이 안 돼 세션 한도 95%에 도달했고,
4시간 락아웃을 겪었다고 적었다.
주간 한도도 리셋 5일 전에 83%에 도달했다고 했다.

별도의 Anthropic / Opus 글에서는
Opus 4.6이 며칠 사이 눈에 띄게 둔해졌고,
간단한 문서화 수정을
5번 프롬프트로 바로잡아야 했다는 구체 사례가 나왔다.
1년간 Claude Code를 써온 사용자도
최근 한도가 너무 빨리 소진돼
OpenAI Codex와 비교 중이라고 했다.

핵심은,
이런 불만이 단순 감정이 아니라
한도, 시간, 가격, 세션 잠금 같은
측정 가능한 운영 수치와 함께 나온다는 점이다.
그래서 제품 신뢰 문제가 더 직접적으로 읽힌다.

핵심 사실을 다시 묶으면 이렇다.

이 섹션의 교훈은 단순하다.
운영 경계가 무너질 때
사용자는 모델의 똑똑함을 보지 않는다.
계정이 풀리는지,
다운로드가 안전한지,
워터마크를 믿을 수 있는지,
한도가 납득 가능한지가
바로 제품의 신뢰가 된다.

연구 전선

오픈 웹 에이전트는 폐쇄형 스택을 빠르게 따라붙는다

Hugging Face · Structured Distillation, Hugging Face · MolmoWeb

웹 에이전트 연구에서 가장 눈에 띈 변화는
오픈 스택이 폐쇄형 frontier stack을
생각보다 빠르게 따라붙고 있다는 점이다.
중심에는 distillation과 open mixture가 있었다.

Structured Distillation은
Gemini 3 Pro teacher를 사용해
3,000 trajectories를 만들었다.
하지만 그 전부를 쓰지 않았다.

quality filtering을 거쳐
2,322개만 남겨
9B student를 supervised fine-tuning했다.
즉 데이터 양보다
정제된 trajectory 품질이 중요하다는 설계다.

결과는 꽤 강했다.
WebArena 41.5%를 기록해
Claude 3.5 Sonnet 36.0%,
GPT-4o 31.5%를 넘었다.
WorkArena L1에서는 +18.2pp를 기록했다.

이 숫자는 단순 승패보다
오픈 데이터와 distillation만으로도
폐쇄형 모델 우위 영역을 줄일 수 있다는 신호다.
재현 가능성이 경쟁력으로 올라온 셈이다.

MolmoWeb은 다른 방향의 오픈 전략을 보여준다.
100K+ synthetic trajectories와
30K+ human demos를 함께 쓰고,
atomic web-skill trajectories와 GUI perception data까지 묶은
open mixture를 구축했다.

즉 단일 시연 데이터셋이 아니라,
웹 조작에 필요한 하위 기술을
여러 층으로 쪼개 모은 구조다.
open web agent를 만들기 위한
재료비를 공개적으로 축적하는 느낌에 가깝다.

성과 지표도 충분히 선명했다.
4B / 8B 비전-언어 웹 에이전트가
WebVoyager와 Online-Mind2Web에서
pass@4 94.7%와 60.5%를 냈다고 보고됐다.

여기서 의미 있는 점은
웹 에이전트가 더 이상
텍스트 브라우저 과제만의 문제가 아니라,
GUI perception을 함께 다루는
멀티모달 실행 문제로 바뀌고 있다는 점이다.

이 두 논문을 같이 읽으면
오픈 웹 에이전트의 전략이 보인다.
teacher 모델과 synthetic trajectory를 활용하되,
품질 필터링과 task decomposition을 통해
작은 student 모델을 강하게 만드는 것이다.

그 결과 폐쇄형 서비스만이
장기적으로 웹 에이전트를 독점할 것이라는 전망이
점점 약해진다.
데이터와 파이프라인이 공개되면
재현 가능한 대안이 빠르게 자란다.

핵심 사실을 다시 남기면 이렇다.

핵심은 성능 숫자 그 자체보다
어떻게 그 숫자에 도달했는가다.
오픈 웹 에이전트의 경쟁력은
점점 모델 비밀보다
데이터 제작 파이프라인과 공개 런타임에서 나온다.

embodied·omni-modal은 현실 세계 긴 과제로 내려간다

Hugging Face · PokeGym / HY-Embodied, Hugging Face · OmniJigsaw

연구 전선의 또 다른 방향은
웹을 넘어
현실 세계와 더 닮은 긴 과제로 내려가는 것이다.
3D 환경, raw RGB 입력, 오디오-비디오 시간축이
동시에 등장했다.

PokeGym은
Pokémon Legends: Z-A 위에 올린
visually-driven long-horizon benchmark다.
30개 task를
30~220 step 길이로 측정한다.

여기서 중요한 설계는
agent가 raw RGB만 쓴다는 점이다.
추상화된 상태를 주지 않고,
실제 시각 입력만으로 의사결정을 시키는 방식이다.
평가도 AOB memory scanning으로 성공을 판정한다.

즉 3D embodied setting에서
pure vision decision-making과
scalable evaluation을 동시에 겨냥한다.
“오래 생각하는 에이전트”를
보다 실제에 가까운 환경에서 시험하는 셈이다.

HY-Embodied-0.5는
real-world embodied agents용 foundation model family로 소개됐다.
2B activated edge 모델과
32B activated 고성능 모델을 함께 제공한다.

학습 데이터 규모도 크다.
100M+ training samples,
22 benchmark,
62M omni-detection,
36M depth,
5M segmentation,
11M pointing / counting 데이터를 사용했다.

성과도 단순 참고 수치 이상이다.
MoT-2B는 16/22 benchmark에서
동급 SOTA를 기록했고,
MoE-32B는
Gemini 3.0 Pro의 63.6%를 넘는
67.0% average를 기록했다.

즉 embodied 영역에서도
작은 edge 모델과 큰 모델의 계층 구성이
실제 제품화를 염두에 두고 설계되고 있다는 뜻이다.
현장 배포와 최고 성능을 동시에 노린다.

OmniJigsaw는
오디오-비디오 reasoning을 다루는 방식이 흥미롭다.
audio-visual clip shuffling을 원형으로 한
self-supervised omni-modal RL post-training framework다.

세 가지 orchestration이 핵심이다.
Joint Modality Integration,
Sample-level Modality Selection,
Clip-level Modality Masking이
조합으로 쓰인다.

여기에 coarse-to-fine filtering을 붙여
대규모 unannotated data에 적용한다.
즉 정답 주석이 풍부하지 않은 상황에서도
시간축 구조를 학습시키려는 설계다.

평가 결과는 15개 benchmark에 걸쳐 제시됐다.
Qwen3-Omni-30B-A3B-Instruct 기준으로
MLVU-Test +4.38,
MMAR +2.50,
OmniVideoBench +1.70의 절대 향상이 나왔다.

이 논문의 핵심은
비디오-오디오 reasoning을
정답 문장 생성 문제가 아니라,
temporal reordering과 modality bottleneck 문제로
다뤘다는 데 있다.

핵심 사실을 다시 정리하면 이렇다.

요약하면,
embodied·omni-modal 연구는
더 이상 “멀티모달도 된다” 수준이 아니다.
긴 과제,
시간축,
현실 감각,
작은 배포 모델과 큰 고성능 모델의 분업까지
구체적인 제품화를 향해 움직이고 있다.

프라이버시는 생성보다 식별을 더 세게 제한한다

arXiv · Language Generation with Differential Privacy, arXiv · 샘플 복잡도 상세, arXiv · 식별 결과 상세

오늘 읽힌 이론 논문 중에서는
language generation in the limit에
differential privacy를 붙였을 때
무엇이 남고 무엇이 무너지는지를 정리한 결과가
가장 깔끔했다.

핵심 결론은 비대칭이다.
DP는 생성 가능성 자체에는
질적 제약을 거의 만들지 않지만,
식별과 균일 생성의 비용은
훨씬 세게 올린다.

우선 생성 쪽 결과부터 보면,
countable collection 전체에 대해
ε-DP로 limit generation이 가능하다고 보였다.
continual release 모델에서도
질적 불가능성이 새로 생기지 않는다는 뜻이다.

구현 아이디어도 구체적이다.
sparse epoch,
예를 들면 t_k = k^6 같은 시점에서만
noisy consistency count를 갱신한다.
Laplace noise scale은 k^3 / ε0로 두고,
ε0 · π^2 / 6 = ε가 되도록 합성해
pure DP를 맞춘다.

유틸리티 제어는
Borel-Cantelli로 설명된다.
충분히 큰 시점부터는
타깃 언어의 infinite subset을 안정적으로 계산하고,
그 부분집합에서 길이 200 t^3 크기의 유한 집합을 뽑아
unseen element를 균등 샘플링한다.

즉 privacy를 붙여도
언젠가는 맞는 새 문자열을 생성할 수 있다.
다만 “언제부터” 그럴 수 있느냐,
그리고 얼마나 많은 샘플이 필요하냐에서
비용이 생긴다.

그 비용이 가장 선명하게 드러나는 것이
uniform private generation의 샘플 복잡도다.
finite collection 크기가 k,
closure dimension이 d일 때,
상한은 d + O~((k/ε) log(1/β)) 수준으로 제시됐다.

즉 성공 확률 1-β를 보장하려면
d 외에 k/ε 항이 붙는다.
privacy가 없으면 같은 구조에서
d+1 샘플이면 충분하다는 점과
직접 대비된다.

하한도 거의 맞물린다.
어떤 finite collection에서는
m = d + Ω(k/ε) 샘플이 필요하고,
성공 확률이 2/3 기준이어도
이 정도 비용을 피할 수 없다.

증명은 Sperner family를 사용한다.
N = binom(k, floor(k/2))개의 서로 다른 정답을 packing하고,
DP packing argument로
n >= (1/ε) log((2/3)N) = (1/ε)(k log 2 - O(log k))
형태를 유도한다.

흥미로운 보조 결과도 있다.
closure dimension이 0인 경우에도,
countable union으로 묶으면
어떤 고정된 n에서도
2/3 성공을 보장하는 uniform private bound가
존재하지 않을 수 있다.

즉 uniform private generation 비용은
closure dimension 하나만으로 설명되지 않는다.
프라이버시가 들어오는 순간
구조적 복잡도가 다른 방식으로 튀어나온다는 뜻이다.

식별 쪽은 더 강하게 무너진다.
두 언어 L_i, L_j
무한한 교집합을 가지면서
한쪽 차집합이 유한하면,
어떤 ε-DP continual release 알고리즘도
그 collection을 limit에서 식별할 수 없다.

특히 포함 관계,
예를 들면 L_i ⊆ L_j가 있으면
private identification은 불가능하다.
생성은 되지만 식별은 안 된다는
비대칭이 여기서 뚜렷해진다.

그런데 stochastic model에서는
상황이 다시 바뀐다.
이 논문은 countable collection이
stochastic 입력 하에서
private identifiable in the limit일 필요충분조건이
Angluin condition과 같다고 보였다.

구성도 구체적이다.
tell-tale set,
deficit count,
epoch 2^s,
base measure π_s(i) ∝ π(i) · s^{-2i},
sensitivity 3,
privacy budget ε_s = 6ε / (π^2 s^2)를 사용한다.
그리고 Borel-Cantelli로 잘못된 선택이
유한 번만 일어나도록 제어한다.

이 결과가 흥미로운 이유는
privacy가 단순히 정확도를 조금 깎는 수준이 아니라,
generation과 identification을
다른 성질의 문제로 갈라놓기 때문이다.
online / stochastic 모델 차이도
프라이버시 아래에서 다시 선명해진다.

핵심 사실을 다시 묶으면 이렇다.

이 섹션의 핵심 메시지는
프라이버시가 생성 가능성을 완전히 막는다는 식의
단순 서사가 틀렸다는 데 있다.
대신 privacy는
샘플 복잡도와 식별 문제에서
훨씬 더 비싼 대가를 요구한다.

에이전트 비즈니스와 도메인 커넥터

읽기 보조에서 쓰기 권한으로 넘어가는 커넥터

LinkedIn · Ira Bodnar, LinkedIn · Jinju Park, LinkedIn · 조희진 Huijin Jo, LinkedIn · Oswarld 안광섭

도메인 커넥터는
오늘 비즈니스 묶음에서 가장 직접적인 변화였다.
핵심은 “읽기만 하는 보조”가 아니라,
실제 계정과 시스템에 쓰기 권한을 가진
자연어 인터페이스가 나온다는 점이다.

광고 계정 커넥터 사례는
이 흐름을 가장 노골적으로 보여준다.
설정은 “One URL, 30 seconds”로 요약될 만큼 짧다고 했고,
Google Ads와 Meta Ads를
같은 대화 안에서 다룰 수 있다고 설명했다.

할 수 있는 일도 읽기 중심이 아니다.
조회뿐 아니라
수정,
중지,
예산 조정,
새 ad group 생성까지 이어진다.
글에 나온 표현 그대로라면
pause campaigns, adjust budgets, create ad groups가 가능하다.

이건 챗봇형 리포팅과 다르다.
분석과 집행 사이의 경계가 사라진다는 뜻이다.
그래서 이 글은 편의성보다
오히려 안전성을 더 강조했다.

“safe way”,
“avoid a ban” 같은 문구가 나오는 이유도 여기에 있다.
광고 계정은 읽기보다 쓰기가 훨씬 민감하기 때문이다.
커넥터는 단순 연결기가 아니라
권한과 실행 범위를 제어하는 인프라가 된다.

시간 절감 주장도 구체적이었다.
2시간 걸리던 감사 작업을
5분으로 줄인다고 했다.
여기에 예약 실행이 붙으면,
광고 운영팀은 상주 인력을 덜 두고도
계정 상태를 조정할 수 있게 된다.

확장 계획도 나왔다.
GA4,
LinkedIn Ads,
TikTok Ads,
Search Console,
Reddit Ads가 추가 예정으로 언급됐다.
요약 보고서뿐 아니라
프레젠테이션 자동 생성까지 연결된다고 했다.

부동산 커넥터는
같은 흐름을 검색 중심 도메인에서 보여준다.
Apify 커넥터는
무료 월 $5 크레딧으로 시작하고,
아파트명만 넣으면
주변 입지 분석 보고서와
OpenStreetMap 기반 인터랙티브 지도를 만든다.

테스트 사례도 구체적이다.
풍무역 푸르지오 시티를 넣자
지하철역 도보 시간,
초품아 여부,
대형마트와 공원 위치 같은 정보가
정리됐다고 한다.

여기서 중요한 건
사용자가 검색 키워드를 조합할 필요가 없다는 점이다.
아파트명 하나가 입력창이 되고,
입지 분석 결과와 지도,
요약 보고서가 한꺼번에 나온다.

법률 영역은
검색과 버전 관리가 더 정교하게 결합됐다.
Legalize KR
대한민국 현행 법령, 개정 이력, 판례를
Git 저장소에 올리고,
공포일자와 선고일자를 커밋 날짜로 사용한다.

이 설계는 의미가 크다.
법령과 판례를
단순 문서가 아니라
버전 히스토리로 다루게 만들기 때문이다.
언제 바뀌었는지,
무엇이 달라졌는지를
Git 맥락에서 읽을 수 있다.

korean-law-mcp
이 히스토리 감각을
Claude Desktop과 터미널로 연결한다.
법령정보센터 Open API 인증키를 사용해,
법령,
판례,
행정규칙,
자치법규,
조약,
해석례를 조회할 수 있게 한다.

부동산과 법률은
표면적으로 다른 분야처럼 보이지만,
둘 다 사람이 반복 검색하던 루틴을
자연어 인터페이스로 바꾸는 도메인이라는 점에서 같다.
광고 커넥터와도 정확히 같은 계열의 변화다.

핵심 사실을 다시 정리하면 이렇다.

이 섹션의 핵심은
도메인 지식이 깊을수록
AI가 덜 유용해지는 게 아니라,
오히려 더 반복적인 검색·판단·보고 루틴을
구조화해서 대체하기 쉬워진다는 점이다.

성장의 승부처는 유통, 전달률, 운영 인프라다

LinkedIn · Paul SungYoung Jung 외, YouTube · Liam Ottley, YouTube · Otter.ai, YouTube · EO Global, Reddit · r/b2bmarketing

오늘의 사업 논리를 가장 짧게 요약하면
PMF는 끝이 아니라 시작이라는 말이 맞다.
좋은 아이디어를 만드는 일보다,
그 아이디어를 얼마나 빨리
유통 구조와 운영 인프라로 바꾸느냐가
더 큰 문제로 보였다.

LinkedIn 쪽 글은
카피 + 자본 + 유통력이
시장을 가른다고 정리했다.
PMF가 나오면
그때부터는 제품 자체보다
분배 구조와 방어벽 설계가 중요해진다는 뜻이다.

RevenueCat 쪽 언급은
이 논리를 수익화 구조로 당겨온다.
CGO 방문과 함께,
RevenueCat이 다루는 결제금액 20조원 언급이
반복해서 등장했다.
성장 논의의 중심이
기능보다 수익화 인프라에 있다는 의미다.

Shotomatic 사례는
분배 구조를 아주 실용적으로 보여줬다.
지난달 대비 매출 70% 증가를
SEO로 만들었고,
레딧이나 Product Hunt 같은 런칭 채널 없이도
검색 유입으로 계속 들어온다고 했다.

이 메시지는 꽤 강하다.
한 번 화제가 되고 끝나는 런치보다,
검색 유입을 지속적으로 만드는 구조가
더 강한 분배 채널일 수 있다는 뜻이다.
1인 개발자에게 특히 직접적인 교훈이다.

LinkedIn outreach automation 사례는
AI가 분배 구조를 얼마나 빨리 제품화하는지도 보여준다.
3주 만에
47% reply rate,
16 meetings booked,
$135K pipeline generated를 주장했다.

이 숫자는
AI가 단순히 문장을 써주는 보조가 아니라,
실제 영업 파이프라인을 만드는 기계가 될 수 있음을 시사한다.
답장률과 미팅 수,
파이프라인 금액이 함께 붙으니
논의가 훨씬 구체적이 된다.

보이저엑스 숫자는
국내 사업 운영 현실을 같이 보여준다.
25년 매출 142억,
영업이익 -40억,
전년 대비 매출 2배 성장,
영업이익 24% 개선이 함께 언급됐다.

즉 성장과 손익이 동시에 움직이는 국면에서
무엇을 먼저 봐야 하는지에 대한 시그널이다.
단순 흑자/적자보다
구조가 어느 방향으로 가는지가 중요해진다.

Liam Ottley는
AI Operating System을
사업 모델이 아니라
사업을 운영하는 방법론으로 설명했다.
3년 동안 AI 에이전트를 독학해
여러 AI 비즈니스로 $10M+ revenue를 냈고,
구독자는 700k까지 늘었다고 밝혔다.

이 영상에서 중요한 건
기술 영웅담보다 재현 가능한 운영 방식이다.
Cape Town mastermind에서
기술 지식이 거의 없는 6명의 창업자에게
AI OS를 직접 구축하게 했다는 사례가
그 점을 보여준다.

Otter.ai의 스토리는
회의 보조가 어떻게 제품 카테고리로 커지는지 보여준다.
사용자 35M,
연매출 $100M+ 규모로 성장했고,
본인은 AI 회의 보조에서
회의 중심 제품으로 진화했다고 설명한다.

대학 교육 현장에서
AI 도구 사용을 금지하는 사고방식을
오래된 생각이라고 강하게 비판한 점도 남는다.
AI가 업무 도구일 뿐 아니라
기본적인 학습 환경이 되고 있다는 주장이다.

EO Global 쪽에서 다룬 Jacob Bank 사례는
AI 에이전트 경제성을 가장 노골적으로 비교했다.
마케팅 업무를 위한 에이전트 40개를 직접 운용하고,
AI 비용은 월 $500 수준인데,
사람 4명을 쓰면 월 $50,000가 든다고 했다.

링크드인 게시물 하나가
150만 임프레션과 최다 댓글을 기록했다는 말도 붙었다.
그는 AI 에이전트를 배우는 능력이
앞으로 30~40년의 핵심 역량이 될 것이라고 본다.

Reddit의 cold email 인프라 글은
이 논리를 더 현실적인 운영 수치로 번역한다.
처음에는 6,000건 이상 발송해도
답장률이 0.4%에 불과했다.

그런데 구조를 바꾸자 수치가 달라졌다.
3개의 Google Workspace 계정,
5개 도메인,
SPF / DKIM / DMARC,
3주 warmup,
하루 15통 / 인박스 제한으로 바꾼 뒤,
open rate가 22%에서 58%로 뛰었다.

reply rate는 첫 주 3.1%로 올라갔고,
bounce rate는 8~9%에서
1.5% 이하로 내려갔다.
첫 유료 고객은 월 $2,500 리테이너였고,
현재는 월 $11k 수준까지 성장했다고 적었다.

별도의 B2B 마케팅 글도
수작업 LinkedIn outreach가
주간 시간을 갉아먹는다는 같은 문제를 보여줬다.
카피보다 운영 인프라가 먼저라는 결론이 반복된다.

핵심 사실을 다시 묶으면 이렇다.

이 섹션의 요점은 분명하다.
AI 시대의 성장 문제는
더 멋진 데모보다
유통, 전달률, 수익화, 운영 체계로 내려왔다.
매출은 모델이 아니라 인프라가 만든다는 말에 가깝다.

사용자 맥락을 바꾸는 제품 설계는 여전히 강하다

LinkedIn · Sungdoo Yoo

오늘의 제품 사례 중
가장 비AI적이면서도,
가장 오래 남는 건 베이비대시보드였다.
이 항목이 중요한 이유는
좋은 제품의 핵심이 아직도
사용자 맥락을 얼마나 정확히 읽느냐에 달려 있음을 보여주기 때문이다.

출발점은 작지만 날카롭다.
육아는 엄마 혼자 하는 일이 아니라,
아빠,
산후도우미,
시터,
친가·외가 가족이 함께하는 일이라는 문제의식이다.

이 문제 정의가 바뀌자
제품의 모양도 달라졌다.
개별 사용자가 각자 앱을 쓰는 구조보다,
여러 사람이 같은 기록을 공유하는 구조가
더 맞는 해법이 된다.

흥미로운 건
초기 해법이 디지털이 아니었다는 점이다.
종이 기록이 먼저 잘 작동했다.
별도 학습 없이 누구나 바로 쓸 수 있었기 때문이다.

이후 iPad 풀스크린 시계 앱으로 발전했고,
광고 제거,
날짜와 요일,
마지막 식사 시간 같은 요구가 붙었다.
그러면서 육아 기록 앱이 아니라
거실의 공유 대시보드로 진화했다.

핵심 설계는
모든 사람의 휴대폰에 설치하는 것이 아니었다.
거실의 패드 하나에만 설치해
모두가 같은 화면을 보게 만들었다.
이 한 결정이 제품의 정체성을 만든다.

즉 문제는 “어르신이 앱을 못 쓴다”가 아니라,
우리가 앱을 각자의 스마트폰 기준으로
성의 없이 설계했을 수 있다는 것이다.
공유되는 공간,
공유되는 장치,
공유되는 책임이라는 맥락을 읽은 결과다.

2026년 현재도
iPad나 태블릿을 염두에 둔 육아앱이 부족하다는 관찰은
이 제품의 시장 기회로 직접 이어졌다.
안드로이드 버전은 4~5월 출시 예정이라고 밝혔다.

이 사례는 위의 성장·분배 논의와도 대비된다.
유통과 전달률이 중요해진 시대에도,
결국 오래 남는 제품은
사용자 한 명의 마찰이 아니라
여러 사람이 함께 놓인 현실을 건드린다.

핵심 사실을 다시 남기면 이렇다.

이 항목은
AI 없는 제품도 여전히 강한 이유를 보여준다.
기술이 아니라 사용 맥락을 정확히 읽으면,
작은 도구도 카테고리를 바꾼다.

기타 주목할 콘텐츠

개발도구와 오픈 생태계는 더 구조적으로 열린다

GeekNews · Firefox 확장 전수 수집, GeekNews · Keychron 설계 파일 공개, Hacker News · PlanetScale Postgres Queue, Reddit · r/cursor, Reddit · r/rails, YouTube · Andrej Karpathy

개발도구와 오픈 생태계 쪽에서는
“열림”의 의미가 조금 더 구조적으로 바뀌고 있다.
단순히 소스를 공개하는 것을 넘어,
데이터셋,
설계 파일,
운영 리포트,
교육 자료까지
실제 활용 가능한 형태로 열리는 사례가 많았다.

Firefox 확장 프로그램 전수 수집 프로젝트는
그 변화의 좋은 예다.
최종적으로 84,235개의 고유 extension을 확보했고,
데이터 크기는 49.3GB에 달했다고 한다.

전체의 76.7%가 오픈소스였고,
34.3%는 일일 사용자가 0명이었으며,
2.4%는 유료 확장으로 집계됐다.
즉 브라우저 생태계가 얼마나 넓고,
얼마나 파편화돼 있는지를 수치로 보여준다.

이 데이터셋은 부가 정보도 흥미롭다.
가장 큰 확장은 196.3MB였고,
“Custom Web Search” 계열 PUA는
70만 명+ 사용자를 모았다고 한다.
Mozilla가 11.5만 사용자 규모의 확장 3개를 비활성화한 사례도 함께 언급됐다.

즉 개방성은 연구와 스크래핑,
그리고 위협 분석 가능성까지 함께 키운다.
오픈 데이터가 커뮤니티 자산이 되면서도
동시에 공격·감시 대상으로도 변한다는 뜻이다.

Keychron의 생산용 설계 파일 공개는
하드웨어 쪽에서 비슷한 신호를 낸다.
현재 92개 device model과
734+ design file이 정리돼 있다고 했다.

업데이트도 매우 구체적이다.
2026-04-11에는
C3 Pro 8K,
K4 HE,
K8 HE,
K2 QMK,
Q0 HE,
Q12 HE가 추가됐다.
4월 10일과 9일에도 HE와 Max 계열 파일이 이어서 확장됐다.

라이선스는 완전한 오픈이 아니라
source-available이다.
원형 제품 복제와 브랜드 남용은 금지하지만,
커스텀 액세서리와 add-on은 별도로 허용한다.
생산 파일 공개의 현실적 경계 설정으로 읽힌다.

PlanetScale의 Postgres queue 글은
인프라 운영을 숫자로 보여준 사례다.
핵심 문제는 성능 그 자체보다
dead tuple을 VACUUM이 얼마나 빨리 회수하느냐라고 설명한다.

재현 실험에서는
800 jobs/sec,
3개의 겹치는 120초 analytics query,
15분 테스트 조건을 썼다.
Traffic Control을 끄면
queue backlog가 155,000건,
dead tuples가 383,000건까지 쌓였다.

lock time도 300ms+로 무너졌다.
반면 Traffic Control을 켜면
backlog 0,
lock time 2ms,
dead tuples 0~23,000 cycling으로 안정화됐다.
SKIP LOCKED와 batch processing만으로는
MVCC degradation을 해결하지 못했다고 정리했다.

IDE와 Rails 도구 쪽 논의도
실전성이라는 공통점이 있다.
Cursor Composer 2는
explicit types가 분명한 코드에도
Number.isFinite,
optional chaining,
null checks 같은 방어 코드를
과하게 붙이는 경향이 문제로 지적됐다.

즉 fallback obsession이란 말은
취향 비판이 아니라,
타입 정보가 이미 충분한 코드에서도
보수화가 반복된다는 구체 불만이다.

pg_reports 0.6.0은
PostgreSQL 모니터링용 새 리포트 7개를 추가했다.
inefficient indexes,
FK without indexes,
index correlation,
temp file queries,
tables without primary keys,
wraparound risk,
checkpoint stats가 그 목록이다.

지원 범위는 PG 12~18이다.
Export 드롭다운에는
Claude Code, Cursor, Codex 등에 바로 붙일 수 있는
“Copy Prompt”가 추가됐다.
SolidCache 같은 DB-backed cache에서
Query Monitor가 다시 Rails.cache.read()를 호출해
무한 재귀에 빠지던 문제도 고쳤다고 한다.

Karpathy의 GPT-2 124M 재현과
LLM 작동 원리 영상 묶음은
교육 자료의 개방성을 상징한다.
GPT-2가 2019년에 공개됐다는 시간축,
일반 시청자용 mental model 설명,
실제 사용법 정리까지
연속 강의 형태로 제공된다.

핵심 사실을 다시 정리하면 이렇다.

이 섹션의 공통점은
도구가 점점 더 구조적으로 열린다는 데 있다.
단순 소스 공개가 아니라,
데이터셋,
생산 설계,
운영 리포트,
교육 자료까지
활용 가능한 단위로 열리고 있다.

접근성, 제조역량, 컴퓨트가 다시 큰 변수다

Hacker News · South Korea Mobile Data, YouTube · Lex Fridman / Jensen Huang, YouTube · EO Global / Dan Wang

AI와 직접 연결되지 않는 것처럼 보여도,
바닥 인프라를 결정하는 이야기들은
오히려 더 큰 그림을 만든다.
오늘은 통신 접근성,
반도체·컴퓨트,
제조 역량이 그 역할을 했다.

한국의 universal basic mobile data access scheme은
그 자체로 흥미로운 정책 신호다.
seven million+ subscribers를 대상으로,
기본 데이터 할당량을 다 써도
400 kbps로 unlimited downloads를 계속 제공한다.

참여 통신사는
SK Telecom,
KT,
LG Uplus다.
정부는 여기에 더해
₩20,000 이하,
약 $13.50 수준의 5G 요금제와
지하철·장거리 열차 Wi‑Fi 개선도 요구했다.

배경에는 단순 복지보다
통신사 보안 사고에 대한
사회적 신뢰 회복 요구가 깔려 있다고 설명됐다.
접근성과 신뢰를 한 묶음으로 다루는 정책이다.

Jensen Huang 인터뷰는
컴퓨트 쪽에서 비슷한 규모감을 준다.
NVIDIA를 AI 혁명의 엔진이자
사실상 4조 달러 기업으로 위치시키고,
컴퓨트,
슈퍼컴퓨터,
AI 팩토리 개념을 중심축으로 설명했다.

이 서사에서 중요한 것은
GPU 칩 단일 제품이 아니다.
TSMC,
네트워킹,
시스템 설계,
공급망 전체가 함께 언급된다.
AI가 결국 산업 시스템이라는 말과 같다.

Dan Wang의 제조 비교는
이걸 더 거칠게 번역한다.
미국이 연간 약 5척 수준의 선박을 건조하는 동안,
중국은 약 1,500척을 만든다고 했다.
숫자 차이가 지나치게 크기 때문에
메시지가 더 직접적이다.

자동차 산업 사례도 붙었다.
미국 자동차 업계의 신차 개발 주기가
5~6년에 달한다고 한다.
여기서 그는
기술 우위보다 제조 역량과 국가 운영 방식의 차이가
더 중요하다고 본다.

이 세 사례는 서로 다른 얘기처럼 보이지만,
공통점이 있다.
AI 경쟁이든 디지털 접근성 경쟁이든,
결국 바닥에서는
통신망,
생산 능력,
네트워크,
공급망이 승부를 가른다는 점이다.

핵심 사실을 다시 묶으면 이렇다.

요약하면,
AI 시대에도 승부는
모델 랭킹만으로 끝나지 않는다.
접근성,
제조역량,
컴퓨트 공급망이
결국 가장 큰 바닥 변수가 된다.

과학·문화·미정의 영역의 바깥 신호들

Hacker News · H0DN Collaboration, Reddit · r/MachineLearning, YouTube · Lex Fridman / Jeff Kaplan

오늘의 메인 축 바깥에서도
작지만 오래 남는 신호가 있었다.
과학에서는 Hubble tension,
AI 담론에서는 “live AI video generation”의 정의 문제,
문화 쪽에서는 Jeff Kaplan의 새 게임 프로젝트가 그 예다.

H0DN 협업은
local Universe expansion rate를
73.50 ± 0.81 km/s/Mpc로 측정했다고 발표했다.
정밀도는 약 1% 수준이다.

이 값은
early Universe 기반 예측인
대략 67~68 km/s/Mpc와 계속 어긋난다.
그래서 Hubble tension이
단순 측정 오차가 아니라
새로운 물리의 신호일 수 있다는 해석을 더 강화한다.

논문은 4월 10일
Astronomy & Astrophysics에 실렸다고 적혔다.
즉 단순 보도자료가 아니라
정식 학술 결과로 이어진 측정이다.

Reddit에서 나온
“live AI video generation” 논의는
기술 분류가 아직 굳지 않았다는 점을 보여준다.
작성자는 실시간 비디오 추론처럼
입력 스트림에 맞춰 프레임을 지속 생성·변환하는 문제와,
그저 빠른 비디오 생성은
같은 범주로 묶기 어렵다고 본다.

둘은 아키텍처도 다르고,
지연시간 제약도 다르고,
문제 정의도 다르다는 것이다.
업계도 아직 공통 정의에 수렴하지 않았다는 점이 핵심으로 남는다.

이 논의는 작아 보여도 중요하다.
기술 용어가 정리되지 않은 상태에서
마케팅 언어가 먼저 확산되면,
실제 연구와 제품 비교가 왜곡되기 쉽기 때문이다.

Jeff Kaplan 인터뷰는
AI 담론 바깥의 문화 신호로 남는다.
그는 EverQuest와 Blizzard를 거쳐
2021년 퇴사했고,
현재는 1800년대 골드러시 시대 캘리포니아를 배경으로 한
오픈월드 온라인 멀티플레이어 게임
The Legend of California를 비밀리에 준비 중이라고 밝혔다.

장르 설명도 구체적이다.
액션,
어드벤처,
서바이벌 성격을 함께 갖춘
새 프로젝트라고 했다.
오래된 MMO 감각을
새 배경과 시스템으로 다시 짜려는 시도로 읽힌다.

이 세 항목은
메인 축과 직접 이어지지 않지만,
공통점이 있다.
숫자와 정의,
세계관이 아직 결정되지 않은 영역에서
향후 큰 이야기로 자랄 씨앗을 보여준다는 점이다.

핵심 사실을 다시 정리하면 이렇다.

메인 축 밖의 신호들이지만,
이런 바깥 항목은
과학의 오래된 긴장,
AI 용어의 미정의 상태,
문화 산업의 새 세계관이
동시에 어디로 움직이는지 보여준다.

교차 분석

오늘의 자료를 다시 한 번 묶으면,
AI 경쟁의 중심축은
모델 가중치 자체에서
운영체계와 실행 환경으로 이동하고 있다.
하네스,
메모리,
스킬,
프로토콜,
로그,
스케줄,
권한 관리,
전달률 인프라가
한 묶음의 운영 기술이 됐다.

보안 영역에서는
이 변화가 더 직접적으로 드러났다.
Mythos와 Glasswing는
강한 모델을 어떻게 제한 공개하고
패치 시간을 벌 것인가의 문제를 보여줬고,
Linux kernel은
AI 기여를 어떻게 추적할지를 규칙으로 내렸다.

반대로 운영 경계가 무너진 사례는
신뢰가 얼마나 빨리 붕괴하는지도 보여줬다.
계정 검증 실패,
다운로드 전단 탈취,
워터마크 우회,
구독 한도 문제는
모두 모델 밖에서 제품 전체를 흔들었다.

연구 전선은
실험실 점수에서
실세계 평가로 내려갔다.
라이브 웹,
Android emulator,
3D embodied setting,
오디오·비디오 시간축,
그리고 DP 아래의 online/stochastic 차이까지,
무엇을 실제 능력으로 볼 것인지가 더 복잡해졌다.

사업 쪽에서는
광고, 법률, 부동산, 마케팅, 회의 제품이
모두 같은 결론으로 수렴했다.
좋은 모델을 붙이는 것만으로는 부족하고,
권한,
분배,
전달률,
운영 인프라를 함께 설계해야
실제 매출과 사용으로 이어진다.

그래서 오늘의 가장 중요한 질문은
“누가 제일 강한 모델을 가졌는가”가 아니다.
“누가 더 나은 운영 레이어를 갖고,
그 레이어를 더 안전하고 재현 가능하게 돌리며,
그 결과를 실제 비즈니스와 신뢰 구조로 연결하는가”가
더 정확한 질문으로 보인다.

Powered by skim

seunan.dev — terminal
visitor@seunan.dev:~ $ banner
███████╗███████╗██╗ ██╗███╗ ██╗ █████╗ ███╗ ██╗ ██████╗ ███████╗██╗ ██╗ ██╔════╝██╔════╝██║ ██║████╗ ██║██╔══██╗████╗ ██║ ██╔══██╗██╔════╝██║ ██║ ███████╗█████╗ ██║ ██║██╔██╗ ██║███████║██╔██╗ ██║ ██║ ██║█████╗ ██║ ██║ ╚════██║██╔══╝ ██║ ██║██║╚██╗██║██╔══██║██║╚██╗██║ ██║ ██║██╔══╝ ╚██╗ ██╔╝ ███████║███████╗╚██████╔╝██║ ╚████║██║ ██║██║ ╚████║██╗██████╔╝███████╗ ╚████╔╝ ╚══════╝╚══════╝ ╚═════╝ ╚═╝ ╚═══╝╚═╝ ╚═╝╚═╝ ╚═══╝╚═╝╚═════╝ ╚══════╝ ╚═══╝ Welcome to seunan.dev Type 'help' for available commands
visitor@seunan.dev:~ $ 
! for AI mode