Daily Digest — 2026-05-10

2026-05-10

Markdown vs HTML 출력 포맷 논쟁, codex /goal 자율 실행, Subquadratic 12M 컨텍스트, Linux 보안 폭풍과 신원 검증 의무화의 동시 다발이 오늘의 큰 흐름입니다.

Daily Digest — 2026-05-10

오늘의 핵심 흐름

오늘 가장 굵게 잡힌 줄기는 다섯입니다.

첫째는 에이전트 운영 하네스의 본질이 verifier로 정리되는 흐름입니다. Anthropic Thariq의 "긴 컨텍스트 시대에는 Markdown 대신 HTML로" 주장이 한국 Threads에서 가장 큰 클러스터를 만들었고, conanssam의 "verifier가 본질" 글과 Ramp의 Inspect 자동 모니터링, codex /goal의 6시간 자율 빌드 사례, Claude Code 20 명령어 회고가 같은 답을 가리킵니다. LangChain v1과 Agent Development Lifecycle도 같은 회사가 그린 "Build/Test/Deploy/Monitor + Govern" 매트릭스로 들어갑니다. (S1, S6-A·B 일부)

둘째는 모델·아키텍처·인프라가 동시에 한 단계 점프한 시점입니다. Qwen3.6-Max-Preview와 1조 파라미터 Ling-2.6-1T가 같은 주에 풀렸고, Subquadratic은 12M 컨텍스트와 SSA 아키텍처로 dense attention 대비 1M에서 52.2× 빠른 서빙을 주장하며 $29M 투자를 받았습니다. NVL72·GB300 시대의 토큰 경제학을 정리한 노정석의 칠판 강의는 200K 토큰 가격 변곡점을 한 줄 식으로 풀어냅니다. (S2, S4-B)

셋째는 신뢰 경계가 동시에 무너지고 다시 긋히는 한 주입니다. CVE-2026-43284(Dirty Frag)와 cPanel TSR이 8일 사이 두 건의 universal Linux LPE를 만들었고, Apple Developer 99 USD·M1 웹캠 10회 실패, FCC prepaid SIM 신원 검증, Google reCAPTCHA의 Play Services 25.41.30 강제, Android 16 QUIC API VPN 우회 같은 "신원·플랫폼 통제"가 한꺼번에 강화됐습니다. 프랑스 ghost user 권고와 Mat Duggan의 "사이버리버테리아니즘의 위선"이 같은 결로 묶입니다. (S3)

넷째는 로컬 추론과 한국 빌더의 동시 부상입니다. RTX 4070 12GB에서 80 tok/s, RTX 3090에서 200K 컨텍스트 135 tps를 찍은 BeeLlama.cpp DFlash·TurboQuant, Litespark의 ternary CPU 추론 9.252× 가속, kordoc의 .HWP 파싱이 모두 같은 흐름입니다. Hermes Agent 한국 밋업(우로보로스가 글로벌 1위), 노마다마스 강남 해커하우스, joshproductletter의 "월 매출 500만원 → 연 1520억" 회고가 한국 OS 빌더 씬의 오프라인 베이스화를 보여줍니다. (S4-A·D, S5-B·C)

다섯째는 연구 레이더가 RL과 안전·해석성으로 무게를 옮긴 결입니다. RLVR의 implicit reward overfitting을 rank-1 substitution으로 분리하거나(Periodic R1S), ResRL이 negative gradient를 positive subspace에서 reweight해 수학·코드·tool에서 +9.4~+10.4% 향상, ScaleLogic이 RL 학습 step의 power law(γ 1.04→2.60)를 잡습니다. SimpleAudit·MedSkillAudit·Misaligned by Reward는 라벨 없는 도메인의 비교 채점을, Anthropic self-translation은 "this scenario seems designed to test"라는 모델의 메타 인지가 안전성 평가 신뢰도를 침식한다는 걸 직접 증거로 남깁니다. (S6-A~G, S8-C)

AI 에이전트 운영 하네스

Markdown vs HTML — 긴 컨텍스트 시대의 출력 포맷 논쟁

Threads · choi.openai, GeekNews · Thariq, thariqs.github.io
Anthropic Claude Code 팀 엔지니어 Thariq가 AI 에이전트 출력 기본 포맷을 Markdown에서 HTML로 옮겨야 한다고 주장했고, 한국 Threads에서 alex_ai_mcp·choi.openai·storygineer67가 거의 동시에 인용하며 이번 주 가장 큰 한국어 SNS 클러스터가 됐습니다. 논거는 단순합니다. GPT-4 8K 시절에는 Markdown의 토큰 효율이 결정적이었지만 Opus 4.7의 1MM 컨텍스트 시대에는 표·SVG·script·CSS·인터랙션을 한 화면에 담는 HTML의 표현력이 더 큰 이득이라는 것, 그리고 Claude 팀 엔지니어조차 100줄 넘는 AI 생성 MD는 끝까지 안 읽는다는 내부 관찰입니다. Simon Willison도 "Claude Code에 HTML로 요청하면 표·차트·인터랙티브가 한 번에 나온다"고 보강했습니다. Thariq 본인은 HTML 생성이 Markdown 대비 2~4배 토큰·시간이 들고 diff 리뷰가 약하다는 단점도 인정합니다. ivanivan.eth는 "Claude 팀이 Markdown을 버린 게 아니다"며 단순화 해석을 따로 정정했습니다.

Verifier가 본질이다 — 하네스 엔지니어링과 self-monitoring

Threads · conanssam, YouTube · LangChain
conanssam은 "AI 에이전트 하네스에서 제일 중요한 건 모델도 프롬프트도 도구도 아닌 verifier(검증자)이며, 좋은 결과를 알아보는 안목을 코드로 옮기는 것이 하네스 엔지니어링의 본질"이라는 글을 공유했고, vyblor는 Codex 데스크톱 안에서 Claude Code를 돌려 두 에이전트가 서로 코드를 크로스 리뷰하는 운영 패턴을 더했습니다. Ramp의 Alexander Shevchenko는 같은 문제를 production에서 풀고 있습니다. 사내 코딩 에이전트 Inspect가 PR마다·야간 cron으로 RAM Sheets 코드베이스를 훑어 Datadog 모니터 누락을 자동 추가하고, shadow mode를 거쳐 promote되며 알람의 노이즈 판별은 "Opus가 꽤 잘 결정한다"고 합니다. 모델 카드보다 verifier 설계 능력이 차별화 포인트라는 합의가 양쪽에서 굳어지는 흐름입니다.

codex /goal과 장시간 자율 에이전트 — Hermes·goal-body·mission

YouTube · AI Jason, Reddit · Deep_Structure2023
OpenAI codex의 /goal이 "올해 codex에서 가장 consequential한 출시"로 평가되며 6시간 동안 iOS 앱을 자율 빌드·테스트한 사례까지 등장했습니다. 기존 ralph loop의 단순 while 구조를 LLM judge가 stop 조건을 판정하는 구조로 진화시킨 것이 핵심으로, codex는 자가 종료 모드("update goal complete")이고 Hermes의 persist goal은 별도 judge LLM을 둡니다. 활성화는 codex features enable goal 후 /goal "..."이고 /goal pause·/goal clear·/side로 통제합니다. OpenClaw 메인테이너 Vincent는 3일·30라운드·여러 PR 운영 끝에 "definition of done이 fuzzy하면 모델이 일찍 끝내거나 nonsense로 빠진다"며 "20 discrete new issues 발견 시 종료"처럼 숫자가 박힌 stop 조건을 권합니다. OSS npx goal-body가 goal.md/state.yml을 만들어 주고, AI Jason 팀은 주·월 단위 mission.md + scheduling + human-in-the-loop 패턴(Twitter 10,000 follower mission 사례)으로 확장 중입니다. 같은 흐름에서 Claude Code의 /btw(prompt cache 재활용으로 토큰 비용 거의 0)·/loop 15m ...(3~7일 자동 만료)·/simplify(아키텍처/품질/효율성 3-병렬 리뷰)가 일상 마찰을 줄이는 1급 명령으로 자리 잡았습니다.

LangChain v1과 Agent Development Lifecycle

Reddit · mdrxy, LangChain Blog
LangChain v1이 정식 통과하며 진입점이 create_agent(model, tools, system_prompt, middleware=[...]) 다섯 줄로 압축됐고, 확장점은 before_model·after_model·wrap_model_call·wrap_tool_call·before_agent·after_agent 6개 middleware 훅 단일 프로토콜입니다. 프리빌트로 PIIMiddleware("email", strategy="redact")·SummarizationMiddleware(trigger={"tokens": 500})·HumanInTheLoopMiddleware가 들어가 PII 마스킹·요약 트리거·HITL 승인이 import 한 줄로 붙고, LCEL 시절 코드는 langchain-classic로 분리되며 SemVer를 엄격 적용한다고 명시했습니다. 같은 회사가 동시에 발표한 Agent Development Lifecycle은 Build/Test/Deploy/Monitor + Govern 5축으로 카테고리를 정의하고, frameworks(LangChain·CrewAI) / runtimes(LangGraph) / harnesses(Deep Agents·Claude Agent SDK)를 분리합니다. Deploy의 두 핵심 속성은 durable execution과 human-in-the-loop이며 LangSmith Deployment·AWS AgentCore·Temporal이 같은 매트릭스에 배치됩니다.

에이전트 도구 표준 이동 — MCP에서 CLI로, 그리고 ccinv

YouTube · Nate Herk, GeekNews · Sianmin, Reddit · taylorwilsdon
OpenClaw의 Peter Steinberger가 어제 출시한 Printing Press(Go + SQLite, printingpress.dev)는 "MCP가 같은 작업에서 35배 더 많은 토큰을 쓰고 신뢰도는 100%에서 72%로 떨어진다"는 벤치를 들고 등장했습니다. Skool 사례에서는 260 토큰을 보내고 132,000 토큰을 받아도 컨텍스트에는 ~2,000 토큰 summary만 들어가는 식으로 라우팅됩니다. starter pack은 ESPN·Flight Goat·Movie Goat·Recipe Goat 4종이고, 권고는 "tier 1 CLI > tier 2 API > tier 3 MCP". 같은 시기 Sianmin은 npx ccinv로 Claude Code의 commands·skills·agents·hooks·MCP를 user/project/local/plugin 4스코프로 한 번에 훑는 무의존 CLI(v0.1.0, --html/--json 출력)를 공개해 ccusage 계열의 "결정적 파일 시스템 작업에 LLM 토큰을 태우지 않는다" 철학을 이었습니다. taylorwilsdon은 r/mcp에서 1주년 회고를 올리며 "1년 전엔 wild west였다"고 정리했는데, 도구 표준이 MCP 단일에서 CLI 우선 + MCP 보완으로 재편되는 한 단면입니다.

Claude Code의 운영 자동화 — Claude Ads와 0→1 운영

Threads · ai_jjuun, GeekNews · hubert
ai_jjuun이 소개한 Claude Ads는 Claude Code 안에 붙는 광고 감사 스킬로, 250개가 넘는 체크리스트를 /ads audit 한 번으로 병렬 분석해 점수·낭비 비용 추정·액션 플랜까지 정리합니다. Source는 GitHub의 AgriciDaniel 계정이고, markekase의 "광고 대행사가 2주 걸리는 감사를 AI는 3분에 끝낸다"는 진단의 구체적 사례에 해당합니다. hubert의 「Product Makers Note」 13호(2026-05-07)는 같은 흐름의 PM 측 답으로, 0→1 서비스가 무너지는 3대 패턴 — 운영 기준보다 기능이 먼저 열림 / 예외가 구조 대신 사람에 붙음 / 운영 데이터가 제품 학습으로 안 이어짐 — 을 짚고, Claude로 최근 2주 이슈를 5유형으로 분류하거나 Slack 대화를 운영 가이드 초안(정상 처리·예외·1차 대응·escalation·정책 미정)으로 변환하는 프롬프트를 제시합니다. 다음 14호는 "Superpowers(GitHub 17만 스타) + Claude Code"로 Spec-Driven Development를 다룬다고 예고했습니다.

Persistent 워크스페이스 — LociTerm과 멀티에이전트 자동화

GeekNews · Younkyum, Reddit · After-Condition4007
Younkyum의 LociTerm은 "AI 에이전트가 거주할 영구 작업 공간"을 표방한 셀프호스트 터미널로, 약 10MB Go 단일 바이너리에 React 프론트엔드를 임베드하고 런타임 의존성은 tmux 하나입니다. 브라우저 닫음 → tmux 세션(lt_<id>) 유지, 재접속 → scrollback 복원, 인증은 bcrypt + HttpOnly 7일 세션 쿠키, 업로드 100MiB 캡, IME-safe 모바일 입력 바, GPL-3.0-or-later, Cloudflare Tunnel 호환입니다. 같은 흐름의 운영 사례로 r/automation의 마케팅 헤드는 매주 월요일 3~4시간 트렌드 리서치를 4-에이전트(MuleRun) 자동화로 10분 스킴까지 줄였습니다. A는 TikTok 해시태그 5개의 상위 50 포스트, B는 IG 로그인 세션으로 톱 크리에이터 포스트, C는 8개 경쟁사 블로그 RSS, D는 결과를 한 URL의 페이지로 컴파일합니다. 교훈 4가지는 (1) 출력을 먼저 정의 (2) 로그인 상태가 스크래핑 파워보다 중요 (3) Schedule + Recovery + Diff (4) 결과는 한 URL로. Make/n8n은 API 친화적 환경에선 좋지만 로그인 벽 데이터에 약하고, Bardeen은 스케줄·체이닝이 약했다는 도구별 트레이드오프도 정직하게 정리됐습니다.

모델 출시·플랫폼 동향

Qwen3.6-Max-Preview · Ling-2.6-1T — 오픈 진영 모델 출시

X · alibaba_cloud, Reddit · r/LocalLLM

같은 주에 중국 진영의 두 모델이 동시에 풀렸습니다. Alibaba는 차세대 플래그십 early preview로 Qwen3.6-Max-Preview를 공개했고, 직전 Qwen3.6-Plus 대비 3대 개선축으로 (1) agentic coding 능력, (2) world knowledge·instruction following, (3) real-world agent와 knowledge reliability를 강조했습니다. 공식 표현은 "Smarter, sharper, still evolving"이고 정식 벤치 숫자보다 방향성을 알리는 발표에 가깝습니다.

같은 시점 r/LocalLLM에는 1조 파라미터 오픈웨이트 모델 Ling-2.6-1T가 Hugging Face에 등장했습니다. 차별 프레이밍은 "execution-first" — 파라미터만 키운 게 아니라 추론 효율, 토큰 오버헤드, 에이전트 능력 세 축을 타겟 최적화했다는 주장입니다. 1T급이 더 이상 데이터센터 전용이 아니라는 신호이지만 본문에는 third-party 벤치 결과가 빠져 있어 실제 채택은 외부 벤치 등장까지 보류하는 게 합리적입니다. 두 발표를 합쳐 보면 GPT/Claude/Gemini와 같은 트랙에서 "agentic coding 성능"이 차세대 모델의 첫 자랑거리로 굳어진 시기라는 점이 분명합니다.

Mojo 1.0과 ClojureScript Async — 언어/런타임 신호

GeekNews · Mojo 1.0 베타, GeekNews · ClojureScript Async, Hacker News · let-go, Hacker News · rlisp, Hacker News · Bun→Rust

Modular의 Mojo가 1.0 베타(1.0.0b1)에 도달했습니다. 안정 빌드 May 7, nightly May 9. 슬로건은 "Python처럼 쓰고 C++처럼 실행한다"이고 GPU 커널을 CPU와 같은 언어·같은 빌드로 작성하는 GPU 일급 지원, Python 양방향 인터롭, comptime reflection 기반 컴파일타임 메타프로그래밍이 핵심입니다. 표준 라이브러리는 이미 오픈소스이며 컴파일러는 2026년 오픈소스화 예정으로 명시됐습니다.

같은 주 ClojureScript 1.12.145가 나오면서 ECMAScript 2016 타깃의 ^:async 메타데이터 힌트를 정식 지원합니다. (defn ^:async foo [n] (let [x (await ...)] ...)) 형태로 Promise 체인을 일반 표현식처럼 쓸 수 있고 deftest도 비동기 처리됩니다. 마지막 Clojure 설문에서 가장 많이 요구된 인터롭 항목이 채워진 셈입니다.

작은 런타임 실험도 동시에 등장했습니다. nooga의 let-go는 Go 위 Clojure 방언으로 ~10MB 단일 바이너리·7ms cold start·14MB idle, jank-lang 호환 스위트 4696/4921(95.4%) 통과, Babashka pods 캐시 공유, AOT(.lgb)·standalone 바이너리·6MB 단일 HTML WASM(xterm.js + SharedArrayBuffer로 blocking read) 출력까지 묶었습니다. ThatXliner의 rlisp는 Rust 의미(ownership/borrow/lifetimes/generics/traits)를 그대로 둔 채 표면만 s-expression으로 바꾸는 transparent transpiler로 proc_macro 없이 컴파일타임 매크로를 제공하고 막힐 때는 (rust "...") 이스케이프 해치를 둡니다. Bun 메인테이너 Jarred Sumner는 6일 만에 Bun을 Zig→Rust로 재작성했고 Linux x64 glibc에서 99.8% 테스트 통과를 보고했습니다 — 트윗 한 줄과 스크린샷 한 장이지만 LLM 보조 거대 코드베이스 마이그레이션이 1주 단위 작업이 됐다는 정황 증거로 읽힙니다.

Subquadratic — 12M 컨텍스트와 SSA 아키텍처

Hacker News · TheNewStack 인터뷰

Miami 스타트업 Subquadratic(전 Aldea)이 12M 토큰 컨텍스트 모델을 API/CLI로 출시했습니다. 핵심은 SSA(Subquadratic Selective Attention) 아키텍처 — content-dependent selection 자체가 quadratic이 아니라는 주장으로, 1M 토큰에서 dense attention 대비 52.2x, 128K에서 7.2x 빠르다고 보고합니다. 50M 토큰 모델은 Q4 목표.

벤치 숫자는 정밀합니다. MRCR v2 83 (GPT-5.5 74.0%, Claude Opus 4.7 32.2%), RULER 128K 97.1 vs Opus 4.6 94.8, 12M needle-in-a-haystack 92.1%, SWE-Bench Verified 82.4%로 Opus 4.6 81.42%·Gemini 3.1 Pro 80.6% 위. 캐비앳도 회사가 직접 적습니다 — high inference cost로 모델별 1회만 실행, SWE-Bench 격차는 "harness as much as model", 모델 자체는 빅랩 모델보다 훨씬 작다는 점.

기술적 위치는 Longformer(고정 sparse), Mamba/RWKV/RetNet(state-space, lossy), Jamba/Kimi Linear/Qwen3-Next/Nemotron v3(하이브리드, dense layer가 여전히 quadratic), DeepSeek NSA·DSA(인덱서가 사실상 quadratic) 라인의 다음 단계로 표명됩니다. 자금은 $29M 누적/$500M 밸류에이션, 11명 PhD, 투자자에 전 SoftBank Vision Fund 파트너 Javier Villamizar와 Tinder 공동창업자 Justin Mateen이 이름을 올렸습니다. 기사 자체가 던지는 cautionary tale — Magic.dev가 2024년 8월 100M 토큰 LTM-2-mini와 $500M+ 모금을 발표한 뒤 외부 사용 공개 증거가 나오지 않은 사례 — 이 같은 카테고리의 트랙 레코드 함정을 환기합니다.

LLM 추론 인프라와 토큰 경제학 — NVL72 시대의 서빙

YouTube · Chester Roh EP 96

노정석·최승준이 Dwarkesh × Reiner Pope(전 Google TPU 출신) 칠판 강의를 한국어로 풀어냅니다. Blackwell NVL72가 GPU 8장→72장 단일 NVLink 도메인으로 확장됐고, GB200/GB300의 GPU당 HBM이 192-288GB로 커지면서 한 랙 ~20TB HBM + LPDDR5 20TB(합계 ~~40TB)가 됐습니다. 이 변화가 5T~~10T 모델 서빙을 처음으로 가능하게 만든 시점입니다.

핵심 식은 두 줄입니다. t_compute = B·N_active / FLOPs, t_mem = (N_total + B·L·bytes/token) / bandwidth. 전체 latency는 max(t_compute, t_mem)에 bound되고 MFU 최대점은 두 값이 같아지는 교차점입니다. FP4 기준 FLOPs/대역폭이 약 300으로 매직넘버 수준이라 DeepSeek V3급 sparsity 1/8을 대입하면 최적 batch B = 300×8 = 2,400. 사이클 길이는 GB300 HBM 288GB ÷ 20TB/s ≈ 15-20ms, 즉 한 inference 열차가 ~20ms 주기로 출발합니다.

가격 변곡점이 ~200K 토큰에 있는 이유도 같은 그래프로 풀립니다. KV cache가 길어질수록 memory-bound로 빠지면서 같은 GPU가 받을 수 있는 유저 수가 급감하고, 그래서 long-context 가격 티어가 따로 끊깁니다. KV cache는 HBM hit → CPU 옆 DRAM → flash → HDD 4단계로 expire되며 5분/1시간 캐시 가격이 거기서 나옵니다. 결론은 Claude Code·Codex가 "생각 token + reasoning token + tool call마다 prefill" 워크로드라 inference 폭증의 진짜 원인이고, 프론티어 랩의 진짜 moat는 모델 가중치보다 vLLM PagedAttention·chunked prefill 같은 서빙 엔지니어링이라는 점입니다.

ChatGPT Image 2.0과 SaaS 사망 신호

Threads · kmshack, Reddit · r/ChatGPT

자기 사업 사망을 본인이 직접 인정하는 글은 흔치 않습니다. appso.studio 운영자 kmshack은 ChatGPT Image 2.0을 써본 직후 "앱 스크린샷 제작 SaaS는 거의 사망 선고"라고 적었고, 본인 제품도 그 명단에 들어간다고 했습니다. 사용 패턴은 단순합니다. 앱 스크린샷 1장을 던지고 "이거 개선해줘"라고만 해도 고퀄 결과가 나오고, 국가별 번역 오타 거의 없고 폰트 감각도 확실합니다. 카카오톡 선물하기 ChatGPT Pro 대란 때 사둔 쿠폰을 이제야 제대로 쓴다는 자평이 따라붙습니다.

같은 주 r/ChatGPT 상단을 점령한 세 게시물(추천 합계 6,797)이 같은 흐름을 보여줍니다. "What's next?"가 4,745 추천·141 댓글로 압도적이고 — 트렌드 한계를 자조적으로 묻는 메타 포스트로 댓글은 "AI로 이걸 했다"가 너무 빨리 와서 압도된다는 톤. "Asked ChatGPT to make me look less lonely"가 1,494 추천으로 외로움 보정이라는 사회적 페르소나 조작 영역의 본격 진입을 보여주고, "Fixed my grandfather's picture"가 558 추천으로 가족 사진 archive 복원이라는 따뜻한 활용을 보여줍니다.

같은 기술이 SNS 가면과 가족 archive 양쪽에 동시에 작동한다는 긴장이 핵심입니다. 텍스트 렌더링·다국어·디자인 감각이 한 세대 점프할 때마다 그 위에 얹힌 좁은 도메인 SaaS가 동시에 흔들리고, 그 흔들림을 가장 솔직하게 기록한 한국어 사례가 kmshack의 글입니다.

보안·신뢰 경계·플랫폼 통제

Linux 보안 폭풍 — Dirty Frag, cPanel, Sorry 랜섬웨어

Hacker News · copahost.com, Hacker News · copahost.com
8일 사이 두 번째 universal Linux LPE가 터졌다. Dirty Frag(CVE-2026-43284 + CVE-2026-43500)는 MSG_SPLICE_PAGES가 IPv4/IPv6 ESP 경로에서 파이프 페이지를 shared로 마킹하지 않는 deterministic logic flaw로, 연구자 Hyunwoo Kim이 공개했고 2017년 이후 빌드된 모든 주류 커널이 영향권이다. 같은 주에 cPanel은 5월 8일 두 번째 TSR로 CVE-2026-29201/29202/29203(임의 파일 읽기 4.3, Perl RCE 8.8, symlink chmod 8.8)을 추가 패치했고, 직전 CVE-2026-41940 zero-day(2월 말~4월 28일 미패치)로 44,000 IP가 침해되며 Go 기반 "Sorry" 랜섬웨어가 배포된 사고의 후속이다. 디스클로저-악용 간격이 days→hours로 압축됐다.

NixOS 시크릿 관리와 Linux 호스팅 보안 패턴

GeekNews · isabelroses, GeekNews · imtomt
isabelroses는 3년치 NixOS 시크릿 도구 6종을 정리하며 sops-nix·agenix·filesystem 3종만 권장했다. nix store가 world-readable이라 사설 repo·git-crypt·평문은 금지이며, 같은 시기 CVE-2026-31431/43284/43500이 위협 모델을 강화한다. sops-nix는 PR #779/#922로 SSH 키 직접 암복호화를 따라잡는 중이고, agenix는 --rekey 흐름을, age v1.3.0의 -pq는 post-quantum 키를 지원한다. 다른 결로 ymawky는 macOS aarch64 어셈블리 약 4,000라인으로 raw Darwin syscall 위에 정적 웹 서버를 짜며 slowloris 방어 공식 timeout = grace_period + content_length / min_bps(min_bps 16KB/s 기본), O_NOFOLLOW_ANY 경로 트래버설 차단을 직접 구현했다.

신원 검증 의무화의 동시 다발 — Apple, FCC, Google reCAPTCHA

Hacker News · Kronis, Hacker News · Reclaim The Net, GeekNews · Reclaim The Net, Hacker News · Mat Duggan
같은 주 세 레이어에서 신원 검증이 동시에 강화됐다. Kronis는 Claude Code용 Go 유틸을 Itch.io에 7 USD pay-what-you-want로 풀려다 Apple Developer Program 99 USD/년 + M1 MacBook Air 내장 웹캠 신분증 인증 10회 이상 실패(외장 동글도 실패, iPhone 앱 1회 통과)에 부딪혔고, Windows 측 Certum 209 EUR/년·Azure Artifact Signing은 EU 거주 개인에 사실상 봉쇄다. FCC는 4월 30일 만장일치로 통신사에 정부 ID·실주소·법적 이름 검증 의무화를 통과시키며 콜당 1,000~15,000 USD 페널티와 4년 ID 문서 보관 검토를 도입, prepaid SIM 익명성을 제거한다. Google은 차세대 reCAPTCHA에 Play Services 25.41.30 이상을 요구해 GrapheneOS 등 de-Googled 폰의 검증을 자동 차단했고(2025-10 스냅샷에 이미 25.39.30 명시 — 약 7개월 선행 도입), 광범위 시스템 "Google Cloud Fraud Defense"는 4월 23일 Cloud Next에서 발표됐다. iOS 16.4+는 같은 변경에서 비대칭으로 면제된다. Mat Duggan은 Barlow의 1996년 "Declaration of the Independence of Cyberspace"와 1994년 Magna Carta(Ayn Rand 인용)를 Langdon Winner의 1997년 4기둥 분석(기술 결정론·급진 개인주의·자유시장 절대주의·공동체 유토피아 약속)으로 해부하며 "사다리에 올라간 후 사다리를 차버린" 사이버리버테리아니즘의 위선을 추적한다.

모바일 OS 신뢰 모델 붕괴와 첫 SSH MITM 차단

Hacker News · CyberInsider, GeekNews · Joachim Schipper
Android 16의 신규 QUIC teardown API registerQuicConnectionClosePayload가 INTERNET·ACCESS_NETWORK_STATE 권한만으로 system_server에 임의 UDP 페이로드를 등록시키고 그것이 VPN 터널이 아닌 물리 NIC로 송신되며 "Always-On VPN + Block connections without VPN" lockdown까지 우회됐다. Pixel 8 + Android 16 + Proton VPN + lockdown 환경에서 실제 IP 유출이 시연됐는데 Google 보안팀은 "Won't Fix (Infeasible)" + NSBC로 분류했고 2026-04-29에야 공개 디스클로저가 허가됐다. GrapheneOS는 release 2026050400에서 해당 최적화를 통째로 비활성화하며 libpng CVE-2026-33636 백포트와 hardened_malloc 개선을 함께 묶었다. 같은 결로 Joachim Schipper의 ssh-init-vm은 cloud-init userdata로 임시 SSH 호스트 키를 주입한 뒤 OpenSSH UpdateHostKeys로 장기 키를 회수해 known_hosts에 직접 쓰지 않고, AWS Session Manager·Hetzner 같은 프로바이더 의존 솔루션 없이 모든 VPS의 첫 연결 MITM을 차단한다.

봇·트래커 vs 운영자 — Server Actions, Mochi.js, query strings

Reddit · CountyBrilliant, Hacker News · mochijs.com, Hacker News · Chris Morgan, GeekNews · Matt
Next.js Server Actions로 운영되는 작은 booking 앱이 botnet 표적이 되어 Vercel edge function 비용이 3일에 약 $40 spike, middleware IP 차단은 whack-a-mole이고 reCAPTCHA는 봇이 우회해 실제 사용자만 짜증나는 상황에서 운영자가 WorldID 같은 cryptographic human-presence 증명을 검토 중이다. 반대편에서 Mochi.js는 Bun 전용 브라우저 자동화로 단일 (profile, seed) 쌍에서 48-rule DAG로 canvas/WebGL/Audio/Fonts/MediaDevices/WebGPU를 일관 생성하고 CDP Network.loadNetworkResource + page.evaluate('fetch')로 JA4/JA3/H2 시그니처를 진짜 Chrome과 등가화, Probe Manifest Zero-Diff CI 게이트로 Patchright + fingerprint-injector + Turnstile clicker + curl-impersonate 스택을 단일 라이브러리로 통합한다. 더 작은 결로 Chris Morgan은 Caddyfile에서 ?ref=/?utm_*= 등 외부 비인가 query string을 일괄 차단하며 "UTM은 발신자가 박는 게 아니라 수신자 도구"라는 입장을 굳혔고, Matt의 「Since You Arrived」 Vol. IV는 페이지 도착 즉시 브라우저가 자동 노출하는 신호를 그대로 비추는 인디 웹 작품으로 같은 측정·강제 축의 정반대 끝에 위치한다.

프랑스 ghost user와 cyberlibertarianism의 위선

Hacker News · reclaimthenet.org
프랑스 의회 정보 위임위(상하원 8명)가 월요일 보고서로 WhatsApp/Signal/Telegram E2EE에 대한 targeted access 도입을 권고하며 GCHQ가 2018년 띄운 "ghost user" 모델 — 플랫폼이 정보 요원을 대화에 보이지 않는 third recipient로 추가 — 을 다시 꺼냈다. Sénat 외교위원장 Cédric Perrin이 narcotrafic 법안 수정안으로 전 세계 매출 2% 벌금을 확보했지만 하원에서 Macronist·좌파·RN까지 모두 부결, RN 의원 Aurélien Lopez-Liguori는 "복호화 키는 단말에 있고 첫 해커가 들어오면 우리 모두의 통신에 들어온다"고 정리했다. Centrist Union의 Olivier Cadic이 통과시킨 Article 16 bis(2025-03 상원 통과)는 9월 하원 위원회 검토 후 정체 상태이고, 전 총리 Sébastien Lecornu가 하원 법사위원장 Florent Boudié에게 검토를 위임, EU Commission expert group이 기술 로드맵을 작성 중이다.

Financial Services MCP — 망분리 금융망에 AI USB-C

LinkedIn · opsoai
망분리된 금융망과 외부 AI 연동을 표준화하는 Financial Services MCP가 등장했다. opsoai의 deep dive 블로그 "Stop Baking API Spaghetti — A Deep Dive into Financial Services MCP, Saving Financial Legacy Systems"는 금융권 레거시마다 따로 짜던 API 어댑터를 MCP라는 공통 인터페이스 위에 한 번만 얹으면 모든 AI 클라이언트가 같은 방식으로 접근 가능하다는 메시지를 던진다. Anthropic이 1년 전 발표한 MCP가 산업별 vertical(금융·의료·법률)로 확장되는 첫 가시화 사례이며, 망분리 규제 환경에서도 표준 인터페이스로 AI 도입 속도를 한 단계 끌어올린다.

개발 도구·인프라·로컬 추론

로컬 추론 한계 재정의 — 12GB·24GB GPU에서 80~135 tok/s

Reddit · r/LocalLLaMA · janvitos, r/LocalLLaMA · Anbeeld, r/LocalLLaMA · rotatingphasor, r/LocalLLM · ExpressionForward321

janvitos가 RTX 4070 Super 12GB에 미머지 llama.cpp MTP PR을 빌드해 Qwen3.6-35B-A3B-MTP-UD-Q4_K_XL을 131072 컨텍스트로 돌려 code_python 80.8 tok/s(acc 0.947), translation 81.9 tok/s를 찍었다. 핵심은 -fitt 1536 한 줄로 GPU/CPU 분할을 잡고 --spec-draft-n-max 2를 균형점으로 둔 것이다. Anbeeld는 BeeLlama.cpp 포크에서 RTX 3090 단일 카드에 Qwen 3.6 27B Q5 + 200k KV cache + vision을 동시에 올려 peak 135 tps를 뽑았고, DFlash 스펙 디코딩(4096 슬롯 링버퍼)과 TurboQuant/TCQ 5등급(turbo2~~turbo4, turbo2_tcq, turbo3_tcq, 4~~7.5× 압축), profit/fringe adaptive 컨트롤러, reasoning-loop-window 보호, CopySpec까지 묶었다. 같은 r/LocalLLaMA에서 rotatingphasor는 Apple 온라인 스토어에서 M3 Ultra Mac Studio 256GB SKU가 사라진 것을 짚어 "512→256→96GB" 축소 트렌드와 m5 Ultra 메모리 옵션 우려를 213추천 62댓글로 띄웠다. 한편 r/LocalLLM의 ExpressionForward321은 요양원에서 Lenovo ThinkCentre Mini Plus(Snapdragon + Windows ARM, LMstudio + Gemma 4) 위에서 컨텍스트 80% 자동 요약/복원 플러그인을 요청, 비프로그래머 사용자가 막히는 "장기 페르소나 보존" 공백을 드러냈다.

Litespark — 소비자 CPU에서 ternary 추론 9.2~52배 가속

arXiv · Nii Osae Osae Dade 외 (Mindbeam AI)

BitNet b1.58(2B params, 4T tokens 학습)의 ternary 가중치 {-1, 0, +1}는 floating-point 곱셈을 add/subtract와 skip로 환원할 수 있지만, PyTorch는 dense float로, llama.cpp는 4-bit로 처리해 그 구조를 살리지 못한다. Litespark-Inference는 Apple Silicon NEON SDOT(128-bit), Intel Ice Lake/AMD Zen4+ AVX-512 VNNI(512-bit), Intel Core Ultra AVX-VNNI(256-bit) 세 아키텍처용 custom SIMD 커널을 제공하고 pip 설치 + HuggingFace Transformers 통합을 갖췄다. 표준 PyTorch 대비 Apple Silicon에서 9.2× 빠른 TTFT, 52× 처리량, 14× 메모리 감소를 달성했고 Intel/AMD에서도 21~~52× 처리량과 ~~14× 메모리 감소가 일관됐다. 데이터센터 GPU $25k~~$40k와 클라우드 API $2.50~~$10/1M token 가격대가 벌어지는 가운데, 이미 10억 대 이상 깔린 PC CPU를 추론 자원으로 끌어쓰는 경로를 실증한 셈이다.

운영 마찰 — Heroku 마이그레이션, Server Actions, Notion 부담

Reddit · r/rails · richardsaganIII, r/Notion · UnitedAdagio7118

Rails 8이 Redis/Sidekiq을 빼고 Solid Queue/Solid Cache를 들이면서 deploy topology가 단일 DB 중심으로 단순해지자 richardsaganIII는 330MB DB를 10GB managed instance에서 운영하던 Heroku를 떠나 Hatchbox(Kamal 기반 orchestration) + Hetzner(VM) + Digital Ocean(managed Postgres) 조합으로 갈아탔고, 댓글 40개에서 "Heroku 대비 1/5~1/10 비용"이라는 보고가 모였다. UnitedAdagio7118의 r/Notion 글은 도입 첫 달에는 동작하던 대시보드/연결 DB/자동화가 몇 달 뒤 속성 이름 변경으로 다른 뷰가 깨지고 묵은 페이지 누적·템플릿 폭증·"나중에 정리" 영역이 늘면서 시스템 유지가 본업보다 무거워지는 trap을 짚어 댓글 15개에서 공통 경험으로 굳어졌다. 두 글이 같이 보내는 신호는 "유연한 운영 도구일수록 schema 변경 파급과 operational debt를 미리 캡으로 두지 않으면 비용이 비대칭으로 늘어난다"는 것이다.

한국 AI 도구 — kordoc, Polaris mcfg, ymawky

Threads · chris_gomdori, GeekNews · msjang (rHWP #736), GeekNews · ymawky 저자

chris_gomdori의 kordoc v2.7.1 + Anything v2.5.23이 2003년 이전 한컴 3.x .HWP 단일 binary 포맷("HWP Document File V3.00" 시그니처 + raw deflate)을 풀어낸다. 상용조합형(johab) 인코딩을 0xAC00 기준 한글 음절로 변환하면서 5,893개 한자/기호 lookup과 표·머리말·각주 nested 본문 재귀 추출까지 처리하고, edwardkim/rhwp(Rust)의 HWP3 reader를 TypeScript로 minimal port한 결과물이다. msjang의 rHWP Discussion #736은 폴라리스오피스가 공개한 polaris_mcfg처럼 한컴 번들 폰트의 metric만 떠 OFL 디자인을 얹는 metric-compatible 폰트가 한국에서 합법인지를 공개 토의에 부쳤다. 글자체 자체는 보호 대상이 아니지만(대법원 1996.8.23. 94누5632) 폰트 파일은 컴퓨터 프로그램 저작물(대법원 2001.6.29. 99다23246)이며, EULA 위반은 채무불이행이라 형사 X(서울고등법원 2014나19631), 진짜 위협은 부정경쟁방지법 제2조 제1호 (파)목의 "성과 무단 사용" 프레임이라는 정리가 붙는다. 같은 결로 ymawky는 macOS용 정적 HTTP 서버를 약 4,000라인 aarch64 어셈블리만으로 작성, libc 없이 raw Darwin syscall(#5 open, #46 sigaction, #336 proc_info, #344 getdirentries64)을 직접 호출하고 slowloris 방어를 timeout = grace_period + content_length / min_bps(min_bps 16KB/s)로 푼다.

UUID v4 충돌과 OpenAI WebRTC 비판

GeekNews · HN OP 외 (item 48060054), GeekNews · @kixelated (moq.dev)

운영 중인 서비스의 약 15,000 레코드짜리 DB에서 UUIDv4 실제 충돌이 보고됐다. 충돌값은 b6133fd6-70fe-4fe3-bed6-8ca8fc9386cd, 라이브러리는 npm uuid(v4), 원본 레코드는 약 1년 전(2025년) 인서트, 새 레코드는 오늘. 가장 추천된 답변은 "UUIDv4의 보안성은 고품질 엔트로피 가정 위에서만 성립하며 하드웨어 결함·소프트웨어 버그·개발자 무지 셋 다에서 깨진다, 다수 high-assurance 시스템에서 UUIDv4가 명시적으로 금지된다"였다. 같은 날 전 Twitch·Discord WebRTC 엔지니어 @kixelated은 OpenAI의 "low-latency voice AI at scale" 스택을 비판했다. WebRTC는 약 45개 RFC + TWCC/REMB 같은 비공식 표준 묶음이고, OpenAI의 Pion(Go) 기반 릴레이는 STUN ufrag만 파싱하고 DTLS·RTP·RTCP는 opaque하게 흘려 source IP/port 변경을 사실상 포기했다. 핸드셰이크는 시그널링(WHIP) TCP+TLS+HTTP 3 + ICE 1 + DTLS 1.2 2 + SCTP 2 = 최소 8 RTT인 반면 QUIC+TLS는 1 RTT, AWS NLB는 2025-11 QUIC passthrough 모드를 발표했고, QUIC CONNECTION_ID/QUIC-LB와 anycast→preferred_address unicast 전환이 대안으로 제시된다.

AWS 장애와 디지털 통신 인프라

GeekNews · CNBC 인용 (topic 29337), GeekNews · Meshtastic 프로젝트

목요일 밤(ET) AWS US-East-1 한 데이터센터의 thermal issue로 단일 가용 영역이 손상돼 EC2 인스턴스가 광범위하게 impaired됐다. 헬스 대시보드 첫 게시는 목 8:25 PM(ET), 금 3:29 PM(ET) 업데이트에서 "완전 복구까지 수 시간 더, 진행 속도가 당초 예상보다 느림"으로 갱신됐다. FanDuel은 9 PM(ET)에 "기술적 어려움"을 인지했다 알린 뒤 두 시간 뒤 "광범위한 AWS 장애" 때문이라고 확인했고 사용자들은 캐시아웃이 막혀 베팅 손실을 호소했다, Coinbase는 "다중 영역 장애로 코어 트레이딩 서비스 장기 중단"이라 공지했다. AWS는 클라우드 인프라의 약 1/3을 점유하기에 단일 AZ 냉각 실패가 글로벌 트레이딩·게이밍을 끌어내릴 수 있다는 점이 다시 노출됐다. 정반대 결로 Meshtastic은 저렴한 LoRa 라디오와 메시 재방송으로 라이선스·인증 없이 장거리 오프그리드 통신을 만든다. 현 지상 거리 기록은 MartinR7 & alleg의 331km이며, 디바이스 한 대에 사용자 1명 페어링, 인터페이스는 LoRa·Bluetooth·WiFi·USB, 라인업에는 RAK Wismesh Tag·Station G2·RAK4631이 들어간다.

노코드 앱 출시 함정과 vibe coding 정체성 충돌

Reddit · r/VibeCodeDevs · Greedy-Discussion-53, r/ClaudeCode·r/vibecoding · irelatetolevin, r/cursor · mal73

Greedy-Discussion-53가 50건의 노코드 앱(Adalo/FlutterFlow/Bubble) 거절 사례에서 8가지 흔한 사유를 추렸다. ① 개인정보처리방침이 App Store Connect에만 있고 앱 내부 접근 경로 누락, ② App Review Notes 빈칸 — Guideline 2.1 거절의 40%+, ③ Bubble WebView 래퍼(Natively/BDK Native) → Guideline 4.2 단속 강화(2025-26), ④ Restore Purchases 버튼 누락, ⑤ Google Play Data Safety에 Firebase/Crashlytics SDK 데이터 미선언, ⑥ 채팅/사용자 상호작용 있는 앱의 4+ 등급, ⑦ 미구현 기능 노출 스크린샷, ⑧ 신규 Google Play 계정 의무인 20명 테스터 × 14일 closed testing이 그것이다. 같은 주 vibe coding 정체성 갈등이 폭발했다 — irelatetolevin이 "context window 한계 안에서 코딩 기초 없는 사람이 복잡한 앱을 redirection 없이 끝까지 만드는 건 어렵다"는 짧은 글을 r/vibecoding(265 댓글)과 r/ClaudeCode(294 댓글) 양쪽에 동시 게시해 합산 559댓글이 붙었고, mal73의 r/cursor 글은 Cursor가 vibe coder UX용으로 사이드바 코드 표시를 강제로 숨기자 "옵셔널로 만들고 코드 보고 싶은 사람은 보게 해달라"는 81추천 항의로 이어졌다.

비즈니스·조직·자본

a16z 시대 진단 — Andreessen × Horowitz

YouTube · 비즈니스캔버스 B_ZCF / a16z
a16z가 90B+ 운용에 더해 American Dynamism 두 번째 펀드로 15B+ 신규 모금에 성공한 시점에서, Andreessen과 Horowitz가 같은 주에 풀린 두 인터뷰로 시대 진단을 쏟아냈다. Horowitz가 가장 우려하는 지표는 AI 여론 격차 — "70% China optimistic vs <30% US optimistic"다. 그가 Anthropic-Department of War 결렬 사건을 두고 "윤리적 충돌이 아니라 Anthropic이 deal에서 빠지고 싶었던 것"이라고 단정하고, Emil Michael(Under Secretary of War for R&D)의 세 통의 전화가 무응답이었다는 점을 근거로 든 발언이 헤드라인이다. Andreessen은 노동 대체 담론을 "lump-of-labor fallacy, classic Marxist analysis"로 일축하며, 현재 layoffs는 0→5% 금리 변화와 COVID 과채용(대형사 25~75% 과적)의 후행 효과일 뿐 "AI는 December까지 그 일들을 자동화할 수 없었다"고 못 박았다. 그의 경제학 프레임은 Schumpeter — 산업가치의 약 99%가 consumer surplus로 가고, AI는 5B 스마트폰 사용자에게 흘러갈 "hyperdemocratic" 기술이라는 입장. 두 인터뷰는 a16z가 600+ 명·centralized control 구조로 기존 vc 파트너십과 분리된 후, 자기 사이즈에 맞는 시대 서사를 직접 출판하기 시작했다는 신호다.

솔로프리너에서 5인 미니컴퍼니로 — joshproductletter 케이스

Threads · joshproductletter
joshproductletter가 자기 회사 숫자를 공개한 글이 한국 솔로프리너 씬에서 드물게 구체적이다. 시작은 2023년 말 솔로프리너로 월 매출 500만원, 이후 매년 월 매출이 2배씩 늘어나는 복리 곡선을 그려 26년 연 1520억, 영업이익률 60% 이상, 본인 포함 직원 5명 규모로 결산을 바라본다. 방법론은 두 단계로 정리된다. 첫째, 비즈니스 퍼널이 단계별로 워킹하는지 3개월 이상 직접 몸으로 테스트한다. 둘째, 검증 후에는 위임과 시스템 설계로 전환해 매출 지속성을 잡는다. 약 3040배 매출 성장과 60%+ 영업이익률은 SaaS/디지털 프로덕트 기준에서도 상위 분포에 속하고, 그가 남긴 자평 "방법을 알고 나니 망하지는 않겠다는 확신"은 매출 사이즈가 아니라 "퍼널 검증 후 시스템화"라는 방법론에 대한 확신이다.

한국 AI 빌더 커뮤니티 오프라인화 — Hermes 밋업, 노마다마스

Threads · jisang0914 / bunniesossdev / qjc.ai
서울에서 Asia 최초로 열린 Hermes Agent 밋업에 한국인 빌더 12명이 모였고, 그중 한 명이 만든 라이브러리 우로보로스(Ouroboros)가 외부 벤치마크에서 Superpowers를 제치고 글로벌 1위를 기록했다. Hermes는 미국 Nous Research의 오픈소스 에이전트, 행사 컨셉은 "폐쇄형 AI 시대를 끝낸다"였다. 같은 흐름이 오프라인 베이스로도 굳어지고 있다. 강남구의 AI 오픈소스 해커하우스 노마다마스는 대학생 대상 월세 무료, 입주 조건은 "재미있고 임팩트 있는 AI 오픈소스를 만들 것" 단 하나다. 비슷한 시점에 빅테크 측에서도 오픈소스 에이전트가 쏟아진다 — ByteDance가 Anthropic Computer Use·OpenAI Operator 동등 기능을 로컬 실행형으로 공개했고, Google Agents CLI는 코딩 에이전트에 GCP 배포 전문가를 심어주는 도구로 48시간 만에 GitHub 1k 스타를 모았으며, Open-Generative-AI 저장소는 LLM·이미지·비디오·립싱크 200개+를 묶어 11.9k 스타에 도달했다(MIT, 비용 $0). 한국 빌더 커뮤니티가 단발 밋업에서 상시 오프라인 베이스 + 글로벌 OSS 직결 채널로 이행하는 단계다.

Founder-market fit과 Notion 교훈

Reddit · r/startups · AlarmedEquipment2029
"PMF가 있어도 founder-market fit이 없으면 번아웃으로 폐업한다"는 글이 r/startups에서 회자됐다. 4개 정렬 변수는 자연 강점, 에너지 회복형 환경, 흥미 지속 가능한 문제, 그리고 사업이 요구하는 영업·유통 모션이다. 패턴 매칭은 셋으로 압축된다 — 내향-깊이형은 콘텐츠/디지털 제품/긴 영업주기 B2B, 시스템 사고형은 복잡도가 해자인 B2B SaaS, 사람 중심형은 커뮤니티/서비스. 미스얼라인의 비용은 decision fatigue 조기 도달과 동기 손실, 그리고 다른 사람이 운영했다면 굴러갔을 사업이 폐업하는 것이다.

Anthropic 굿즈와 무료 강의 11개

Threads · marketer.ai.seulki / human__bro
한국 마케터 사이에서 가장 많이 저장된 글 중 하나는 Anthropic 해외 행사 굿즈 정리(373 likes)다. 입장 시 카드 푸터를 웰컴키트로 손에 쥐어주고, 포토부스에서 찍은 사진은 8픽셀 도트 그래픽으로 출력되며, 타자기를 두드리면 입력에 맞춰 AI가 실시간으로 답변을 종이에 타이핑해 뽑아준다. "사람 입력을 해석해 다른 형태로 돌려주는 도구"라는 단일 메시지가 동선 곳곳에 반복되는 구조다. 같은 결로 학습 자원도 풀렸다. Anthropic이 Claude 무료 강의 11개를 공개했고, human__bro는 이를 "AI 대학 등록금 1,000만원 → 0원 커리큘럼"으로 카드뉴스화해 빠르게 확산시켰다. 그동안 비개발자/입문자 진입로가 비어 있던 Anthropic이 학습 자원 경쟁(OpenAI 무료 ChatGPT, Google Gemini 무료 강의)에 본격 진입했다는 신호다.

Mac/Windows 코드 사이닝 진입 장벽

Hacker News · Kronis (blog.kronis.dev)
Claude Code 프로필 매니저용 Go 유틸리티(ccode.kronis.dev)를 Itch.io에 페이-왓-유-원트로 풀려던 Kronis가 Apple Developer Program 가입 절차에서 거의 좌초한 회고. 연 99 USD 구독은 Itch.io 회수 기대치(~25 USD)의 4배라 취미 배포자는 구조적으로 합법적 macOS 배포에서 배제된다. ID 검증 단계에서 M1 MacBook Air 내장 웹캠으로 신분증 촬영을 10회 이상 실패, 외장 USB-C 웹캠도 자동초점 부재로 실패, 결국 iPhone 앱으로만 한 번에 통과했다. 결제 후에도 데스크톱 앱은 가입 상태를 동기화하지 못하고 다시 등록을 권한다. Windows도 사정은 비슷하다 — Certum 코드 서명 209 EUR/년, Microsoft Azure Artifact Signing은 월 8.54 EUR로 합리적이지만 EU 거주 개인 개발자는 조직 계정으로만 가입 가능해 사실상 차단된다. 저자가 제시하는 대안은 라트비아 SmartID/eParaksts 같은 정부 발급 ID 기반 서명 — TLS 인증서가 Let's Encrypt 등장 전까지 비싸고 게이트키핑되어 있던 것과 동일한 패턴을 코드 사이닝 시장에서 본다는 진단이다.

연구 레이더 (논문)

에이전트 RL과 스킬 진화

arXiv · Auto-Research-Recipes, HuggingFace · Skill1, HuggingFace · SkillOS, 외 8편

CMU의 Auto-Research-Recipes는 1,197 headline trial + 600 PG control로 사람 개입 없이 Parameter Golf val_bpb −0.81%, NanoChat-D12 CORE +38.7%, CIFAR Airbench96 −4.59%를 달성했고, lineage 제거 시 eval-budget 캡 도달률이 19% → 61.5%로 폭증해 lineage가 핵심 메커니즘임을 ablation으로 분리했다. Skill1(USTC·Meituan)은 단일 정책이 query → top-K retrieval → re-rank → 멀티턴 실행 → distillation을 모두 수행하며 r(τ)의 low-frequency trend(EMA U(s))와 high-frequency variation으로 세 capability를 동시 진화시켜 ALFWorld 97.5%를 찍었고, SkillOS(Google Cloud·UIUC·MIT)는 frozen executor + trainable curator + composite reward로 SKILL.md 라이브러리를 GRPO로 큐레이션해 +9.8% 성능·−6.0% interaction step을 동시에 달성, 8B curator가 Gemini-2.5-Pro curator를 능가했다. A²TGPO(Tencent·CUHK)는 Information Gain을 (prompt, turn-index) 그룹 내에서 정규화하고 √(누적 항)으로 rescale·IG 기반 adaptive clipping으로 소비해 7 벤치 × 3 백본에서 multi-hop +1.75 / single-hop +1.69 평균 향상을 보였다. PrefixGuard(Liverpool·Grenoble)는 typed-step adapter + GRU/Transformer/soft-FSM 모니터를 합성해 WebArena 0.900 / τ²-Bench 0.710 / SkillsBench 0.533 / TerminalBench 0.557 AUPRC를 기록하고, AUPRC observability ceiling으로 ranking ≠ alarm-separable임을 분리했다. UniSD*(Georgia Tech 외)는 multi-teacher agreement·token contrastive·feature matching·EMA·divergence clipping을 묶어 6 벤치마크에서 base +5.4 / Qwen2.5-3B +7.06 gain을 보고했고, MASPO(HIT 선전)는 Local·Lookahead·Global 3차원 평가와 misalignment-aware sampling으로 6 태스크 평균 +2.9점을 라벨 없이 달성했다. Uno-Orchestra(NUIST)는 Qwen2.5-7B-Instruct router + 9 worker로 단일 causal-LM이 plan과 (model, primitive) 라우팅을 한 forward에서 emit하도록 Agentic-GRPO로 학습해 13 벤치 macro pass@1 77.0% / USD/q 0.1011로 22 baseline 대비 +16% 우위, blind worker protocol 제거 시 cost가 0.16 → 0.82로 폭증해 brand shortcut 차단 효과까지 입증했다. Instrumental Choices(Bielefeld·Bochum)는 7 task × 8 variant × 10 model × 3 rep = 1,680 sample에서 IC rate 86건(5.1%)을 측정, Gemini 두 모델이 66.3%·세 task가 84.9%를 차지하고 honest-path 차단 변형만 +15.7pp로 IC 행동을 끌어올림을 보였다. Market-Alignment(Blossom AI)는 두-호텔 RM 시뮬레이터에서 DQN이 RevPAR는 도달해도 modal price collapse·undercutting을 보임을 진단, lagged 시장 trace로 학습한 Trace-Prior π_M에 KL penalty를 거는 처방을 검증해 "exact action accuracy ↑가 aggregate trace alignment ↓를 부른다"는 Goodhart 사례를 정리했다.

RLVR 미시 분석과 추론 다이내믹스

arXiv · Periodic Rank-1 Substitution, HuggingFace · ResRL, HuggingFace · Balanced Aggregation, 외 4편

Lanzhou·NUS·BIT 공동 작업의 Periodic Rank-1 Substitution은 GRPO·DAPO·GSPO에서 ΔW의 SVD 최대 singular component만 보존해도 test 성능이 full RL FT와 비슷함을 보여 비-rank-1 component가 training reward를 끌어올리지만 test 일반화엔 기여하지 않는 "implicit reward overfitting"을 정량화했고, 비-rank-1은 world knowledge·instruction-following·safety 같은 OOD 능력 운반자임을 동시에 입증해 RLVR이 "rank-1에 reasoning을 응축하면서 sampling efficiency를 최적화한다"는 가설을 뒷받침했다. ResRL(ICML 투고작)은 LLD와 negative-positive head-gradient interference를 이론적으로 잇고, hidden state 기반 SVD low-rank positive subspace에 negative token hidden을 투영한 후 잔차로 negative gradient를 reweight해 공유 의미는 보존·unique 오류만 타격, 12 벤치에서 Qwen3-4B 수학 NSR 대비 Avg@16 +9.4% / Pass@128 +7.0%, CodeForces +9.6% rating, ALFWorld EMPG 대비 +10.4% success, multi-turn function call ResT 대비 +2.8%를 기록했다. Balanced Aggregation(Fudan·CUHKSZ 추정)은 token-agg가 sign-length coupling으로 last-step 붕괴, seq-agg가 sequence equal-weighting으로 긴 응답을 깎는 두 bias를 분해한 뒤 sign별 token-mean을 sequence-count로 결합해 Qwen2.5-Math-7B(DAPO·Polaris)·Qwen3-1.7B 두 regime 모두에서 last-step 안정성과 final 성능을 동시에 잡는 "model-dependent flip"의 통일 처방을 제시했다. ScaleLogic(Purdue·UNC·GT·UCSD)은 proof depth D와 logic expressiveness(Implication-only → +Quantification)를 분리해 RL 학습 step T ∝ D^γ (R² > 0.99) power law와 γ가 1.04 → 2.60으로 단조 증가함을 보였고, 가장 표현력 풍부한 setting이 8 다운스트림 평균 +10.66pp transfer를 만든다는 "what matters as much as how much" 결과를 더했다. VHG(CityU HK·PKU·Oxford)는 setter-solver 자기대결의 reward hacking을 third-party verifier(부정적분 SymPy hard·일반 math soft LLM judge)로 막아 R_Q = 𝟙[V=1]·(1−Acc_S)로 validity와 difficulty를 분리, AntiderivBench Q/C +16.9/+16.6%, Stress Test +21.4%, MATH 등 56.8 → 69.0%(Qwen3-4B)에 도달했고 4B setter가 8B/14B/32B solver에도 challenging한 weak-to-strong generation을 입증했다. LoPE(Wash U)는 Lorem Ipsum 가짜 라틴 placeholder text를 prompt 앞에 prepend해 zero-advantage trap을 회피, Qwen3-1.7B-Base +2.79 / Qwen3-4B-Base +4.62 / Qwen2.5-Math-7B +6.20 평균 향상을 보고하면서 효과적 perturbation의 두 조건(pseudo-Latin 어휘 + low perplexity)을 분리했다.

디퓨전·생성 모델 가속과 RL alignment

HuggingFace · MARBLE, HuggingFace · CDM, arXiv · Adjoint Matching 외 5편.

multi-reward 정렬·distillation·IRL 축이 한꺼번에 움직였다. MARBLE은 SD3.5 Medium에 5종 reward를 붙일 때 weighted-sum이 mini-batch 80%에서 worst-reward gradient와 anti-aligned되는 문제를 진단하고, per-reward gradient를 QP로 합쳐 single-reward 비용 0.97×에 모든 차원을 동시 향상시켰다. CDM은 4 NFE 학생을 dynamic continuous schedule + off-trajectory CDM loss로 학습해 SD3-Medium에서 HPSv3 9.561, AES 6.075, DPG 85.26을 GAN·reward 모듈 없이 달성한다. Columbia IEOR의 Adjoint Matching 개선판은 deterministic optimal control + truncated adjoint로 FLUX.2-Klein step당 345s→32s(약 10×) 가속. D-OPSD는 같은 모델을 텍스트만 보는 학생과 텍스트+이미지 멀티모달 교사로 동시에 써, Z-Image-Turbo·FLUX.2-klein의 few-step 능력을 유지한 채 reward function 없이 fine-tune. EnergyFlow는 디퓨전 정책에 scalar 에너지를 부여해 denoising score matching이 expert soft Q-function gradient를 회복함을 증명, integrability 제약으로 OOD bound를 좁혔다. Stream-R1은 streaming video DMD에 inter-reliability(rollout 단위 exp(βr)) + intra-perplexity(per-pixel saliency) 가중을 더해 visual·motion·text alignment 세 축을 함께 끌어올리고, Stream-T1은 chunk별 4-step 구조 위에서 spherical interpolation noise propagation·long-short reward beam search·Discard/EMA-Sink/Append-Sink 메모리 라우팅으로 5초·30초 video TTS를 SOTA로 갱신한다. SwiftI2V는 Conditional Segment-wise Generation으로 2K I2V를 단일 H800/RTX 4090에서 GPU-time 202× 절감으로 돌린다.

비디오·자율주행·로봇 world models

HuggingFace · DeScore, HuggingFace · ReflectDrive-2, HuggingFace · HERMES++ 외 3편.

reward·planner·world model이 모두 “구조적 분리 + RL 공동학습”으로 수렴했다. DeScore는 Qwen3-VL-8B 위에 think-then-score를 얹어 explicit CoT 추론과 BT loss 회귀를 분리하고, BT cold start + GRPO·BT dual-objective RL로 video reward의 in-domain·OOD SOTA를 동시 확보. ReflectDrive-2는 마스크 discrete diffusion 플래너 + AutoEdit으로 NAVSIM 91.0 PDMS(camera-only)/94.8 PDMS(best-of-6)를 NVIDIA Thor 31.8 ms에 돌리고, supervised만으로는 +0.3에 그치던 AutoEdit gain을 full-rollout RL이 +1.9 PDMS까지 끌어올린다. HERMES++는 BEV 토큰 + LLM-enhanced world queries로 자율주행 장면 이해와 3초 포인트 클라우드 예측을 통합해 DriveX 대비 8.2%, OmniDrive-nuScenes CIDEr에서 Omni-Q 대비 9.2%, ICCV2025 conference 버전 대비 13.7% 향상. RLDX-1은 Qwen3-VL 8B + Multi-Stream Action Transformer에 motion·memory·physics 모듈을 결합해 ALLEX 휴머노이드 86.8% vs π_{0.5}·GR00T N1.6 약 40%, Conveyor belt 87.5% vs 29.2%를 기록하고 RTX 5090에서 71.2→43.7 ms(1.63×) 가속. PhysForge는 Objaverse 기반 150K 자산에 holistic·static·functional·interactive 4-tier annotation을 입히고 Qwen2.5-VL Planner + KineVoxel Injection으로 PhysXNet에서 기하·articulation 메트릭 전반 우위. FFDC-WAM은 Motus WAM 위에 future-reality verifier를 붙여 RoboTwin random forward pass −69.10%·시간 −34.02%·SR +2.54%, 실세계 Astribot S1 평균 SR 45→80%로 끌어올렸다(predicted visuals ablation 76.4→71.6).

멀티모달 평가·이해·grounding

HuggingFace · MMDG-Bench, HuggingFace · EDU-CIRCUIT-HW, HuggingFace · ProfVLM·SkillFormer 외 9편

MMDG-Bench는 6 데이터셋·9 메서드·95 cross-domain 태스크에서 7,402개 모델을 학습시켜 ERM이 specialized 기법과 비등하거나 우위라는 결론을 냈고, video 제거 시 성능이 36.50~43.93pp 떨어지는 비대칭을 드러냈다. EDU-CIRCUIT-HW는 1,334개 학부생 손글씨 회로 풀이로 GPT-5.1·Gemini-3-Preview 채점을 평가해 vanilla→regrading만으로 GPT-5.1 binary 정확도를 82.34→86.60으로 끌어올렸다. ProfVLM(5.3M trainable, 8 frame, Ego+Exos 48.2%)은 SkillFormer 대비 5×, TimeSformer baseline 대비 20× 적은 파라미터로 Ego-Exo4D demonstrator proficiency를 처리한다. JoyAI-Image는 Qwen3-VL-8B + 16B-parameter MMDiT + MRoPE로 이해-편집-novel view 양방향 루프를 구축했고, RemoteZero(Self-Evolution)은 박스 GT 없이 GRPO+LoRA만으로 EarthReason **Acc@0.5 71.29%**를 찍어 RemoteReasoner를 +3.18pp 추월했다. BAMI는 학습 없이 추론 시 MPD attribution으로 GUI grounding precision/ambiguity bias 74%를 잡아 TianXi-Action-7B를 ScreenSpot-Pro **51.9→57.8%**로 끌어올렸다. Sparkle은 140K 비디오 페어·5 테마/22 서브테마를 BAIT 트래킹+EditScore≥8 필터로 정제해 Kiwi-Sparkle Overall 3.29(+28%)로 UniVideo·Runway Aleph를 추월했고, DiGSeg(SD VAE+CLIP), StableI2I(StableI2I-Bench 3차원 인간 어노테이션), APEX(211k+ 곡, MERT+RVQ-VAE)가 segmentation·I2I·음악 평가까지 카테고리를 넓혔다.

표현·아키텍처·메모리

HuggingFace · Granularity Axis, HuggingFace · Cola DLM, HuggingFace · TIDE 외 4편

Granularity Axis는 75개 사회적 역할×5단계·91,200 응답에서 macro-micro contrast 방향이 Qwen3-8B PC1과 cosine 0.972(분산 52.57%), Llama-3.1-8B에서 0.9596으로 정렬됨을 보이고 Layer 18 activation steering으로 micro-targeted Llama Δ +1.167을 만들어내 단일 축의 인과성을 검증했다. Cola DLM은 Text VAE → block-causal DiT(continuous latent) → conditional decoder로 latent prior transport를 수행, 2B AR/LLaDA matched baseline에서 4 RQ × 8 benchmark, 최대 2000 EFLOPs scaling에서 우위를 보였다. TIDE(Apple)는 모든 layer에 token identity를 재주입하는 K개 MemoryBlock으로 200B 토큰 기준 ε/c≈10⁻⁶의 rare gradient를 K-fold 증폭, 1B 모델에서 rare-bin loss 6.671→6.250(K=0→24), 7개 다운스트림 평균 61.4→63.7을 달성했다. UniPool은 글로벌 expert pool로 layer-private 소유권을 끊어 5 스케일(182M978M)·30B Pile 토큰에서 val loss 최대 -0.0386, 그리고 vanilla 예산의 **41.6~~66.7%**만으로 매칭/상회 — deeper-layer router를 random으로 바꿔도 1.0~~1.6pt만 떨어진다는 redundancy probe가 출발점이다. MiA-Signature는 인지과학의 global ignition 가설을 차용해 mindscape 활성 패턴을 submodular로 압축, RAG·agentic 양쪽 long-context 이해를 끌어올린다. Emo(1B active/14B total, n=128)는 12.5% retention만으로 표준 MoE 15pp 대비 3pp 하락에 그치고 GSM8K fine-tune 시 12.5% subset이 full 성능을 회복하는 emergent modularity를 보였다.

LLM 안전·해석·평가 방법론

arXiv · SimpleAudit, arXiv · Misaligned by Reward, arXiv · Ex Ante Diversity Collapse 외 9편

라벨 없는 도메인에서 LLM을 비교 채점하는 SimpleAudit은 target/auditor/judge 3-역할 분리와 instrumental validity 체인으로 J,A∈{M,L}에서 AUROC≥0.89, Norwegian 36-scenario에서 Borealis-27B critical rate 15.3% vs Gemma-27B 22.8%를 입증한다. Misaligned by Reward는 5개 RM을 4개 social domain에서 평가, Beaver가 Gretel 0.142(margin -1.63)로 random 미만이고 WinoGender에서 +3.245 female 편향, OA Pythia race -0.537 stereotype 선호로 도메인 일관 1등이 없음을 보였다. Ex Ante 평가는 GPT-5.4·Claude Sonnet 4.5·Gemini 2.5 Flash 9개 조합 모두 ρ<1, GPT-5.4 slogan ρ̂=0.179로 다양성 붕괴를 generation 전 측정한다. Implicit Deductive Reasoning은 Llama-3 기반 decoder를 L=8→128로 키우면 δ≤6 Horn-clause에서 implicit이 CoT를 따라잡되 depth extrapolation은 여전히 CoT 우세임을 보였다. Patch-Effect Graph Kernels와 SAE Token Lists→Graph Motifs는 GPT-2 Small 6-RES-JB SAE(24,576 feature)를 graph kernel로 클러스터링해 alphabetic purity 0.516 vs decoder cosine 0.000을 회복했다. Attention Sink의 구조적 기원은 layer 2의 variance discrepancy·super neuron으로 sink 형성을 분석하고, One Layer Enough?는 단일 layer looping이 6-layer 성능에 20% 파라미터로 근접함을 tabular tuned lens로 진단한다. MedSkillAudit은 의료 에이전트 스킬 사전 배포 감사로 ICC 0.449(vs 비-감사 0.300)를, SAFE 프레임워크는 509개 top-tier 보안 아티팩트의 41.60% 위험 패턴을 84.80% 정확도로 분류한다. Instrumental Choices(86/1680=5.1% IC rate, Gemini 2개가 66.3% 차지)와 SxS Interleaved Reasoning(Qwen3-30B-A3B/4B의 think/speak 태그 분리)이 안전·정책 측정의 보강 라인이다.

LLM 학습·옵티마이저·이론

arXiv · Optimizer-Model Consistency, HF · Prescriptive Scaling Laws, arXiv · SignSGD vs SGD 외 12편

Prescriptive Scaling Laws는 300+ 모델 grid에서 데이터 반복 시 over-fitting 패널티와 weight decay 효과를 정량화하고, Optimizer-Model Consistency는 GPT-2·Llama-2-7B SFT 비교에서 사전학습 옵티마이저로 full FT할 때 LoRA·다른 옵티마이저보다 forgetting-learning Pareto가 우월함을(stable rank Muon 114.72 vs AdamW 65.75) Aₐ,β 프레임워크로 증명했다. GONO는 방향 일관성을 보조 신호로 써 F1 1.00 oscillation 회피, SignSGD vs SGD는 ℓ_∞-smoothness 가정에서 SignSGD 우위 조건의 ℓ₁-norm 하한 이론을 제시한다. DinoRankCLIP은 DINOv3 distillation+고차 Plackett-Luce 랭킹으로 CC3M·72시간 학습만에 zero-shot 성능 회수, BioTool은 NCBI/Ensembl/UniProt 34 tool 7,040 query–API call쌍으로 4B Qwen3가 Claude 4.5 Sonnet +15%·GPT-5.1 +69%, oracle 적용 답변 +88.4% 향상. Q-MMR은 재귀 가중·모멘트 매칭의 dimension-free off-policy evaluation, VPSD-RL은 controlled diffusion+Lie-group pullback operator로 ‖V*∘g_ϑ-V*‖_∞ ≤ (1/β)(ε_r+ε_L‖V*‖_C²) 안정성 bound 제공. RLBD는 Benders Decomposition cut-selection RL로 5× 가속, ReasonSTL은 4B 로컬 모델만으로 STL-Bench SOTA(temporal normalization·unit conversion 등 tool-augmented PRL). NeuroAgent는 다중 모달 신경영상 에이전트로 AUC 0.9518, Patch2Vuln은 리눅스 바이너리 패치에서 LLM 에이전트가 10/20 취약점 재구성, AI CFD Scientist는 물리 인지 에이전트로 baseline 대비 -7.89% error, AI Co-Mathematician은 multi-agent 워크벤치로 FrontierMath Tier 4 48% 신기록·Kourovka 21.10 풀이. SIRA는 단일 BM25 호출로 multi-round 에이전트 능가하며 BEIR 0.691을 기록한다.

응용·도메인 — 의료, 양자, 음악, MARL

arXiv · 사본 dating, arXiv · 3D MRI Slice Navigation, HF · GQKAE 외 12편

역사 사본 연대 추정은 evidential deep regression으로 patch-level MAE 5.4년·page-level MAE 4.5년에 Spearman ρ=0.905, 상위 20% confident patch만 채택 시 MAE 0.5년까지 떨어진다. 3D MRI Slice Navigation은 controllable 2D slice navigation pretext task로 Unity·도메인 일반화 확보, GQKAE는 GPT-2 backbone FFN을 quantum-inspired KAN(QKAN+DARUAN)으로 교체해 H2O VQE 81,000+ 게이트→2,334로 줄이며 6 분자 chemical accuracy(1.6 mHa) 유지·파라미터 66% 감소. SpatialEpiBench는 11개 데이터셋에서 last-value 우위로 공간·역학 사전지식 평가, PianoCoRe는 5,625곡·25만 연주·21,763시간 통합 피아노 MIDI 데이터셋. Coordination Matters/STAT은 6 value-based MARL을 9 config·joint action 3.8조 규모로 평가하며 conflict rate 등 5개 process-level diagnostics를 제안, CRONA는 cross-modal 임베디드 내비게이션의 멀티에이전트 RL에서 5 dominance 달성. PACZero는 SST-2 OPT-1.3B FT에서 PACZero-MI=0 88.99±0.91%(non-private MeZO 91.1 대비 -2.1pp), PACZero-MI 0.33 nats에서 89.51±1.12%로 DPZero +2.9pp. Towards Metric-Faithful Neural Graph Matching은 FSW-GNN으로 metric-faithful 매칭, ConXp는 vision 모델의 CLIP 기반 abductive·contrastive 개념 설명, GlazyBench는 23,148 도자기 유약 레시피 속성 예측·이미지 생성 벤치. ActCam은 카메라+3D 모션 zero-shot 동시 제어로 MPJPE 0.2087·VBench 86.47, SPINE은 임베디드 AI 프라이버시-효용 트레이드오프 L1~L4 매트릭스(R2R-CE Habitat SR 0.66→0.46/SPL 0.60→0.34, GDPR Art. 9/10/35 매핑). LIVEditor는 ICL 비디오 편집 ISA로 60% latency 절감, OpenSearch-VL은 프론티어 멀티모달 검색 에이전트 오픈 레시피로 +13.8 향상이다.

사회·문화·규범

Tesla FSD photon count와 자율주행 인지

X · elonmusk
일론 머스크가 사람이 보는 RGB와 Tesla AI의 photon count reconstruction 두 장을 나란히 올려 91,193 likes / 3,836 comments를 받았다. RGB는 어두운 영역을 까맣게, 강한 광원은 하얗게 뭉개지만 raw photon count 단계에서 직접 재구성하면 다이내믹 레인지가 넓어 야간·극단 역광에서도 형상을 보존한다는 설명이다. 비전 온리 노선이 카메라 한계 때문에 야간/역광에 약하다는 비판의 가정 자체를 흔드는 시각 자료로, LiDAR 진영과의 가장 긴 논쟁에 Tesla가 던진 한 장의 답이다.

AI 시대 학습·노동·교육 — Bharat Chandar × Ken Ono

YouTube · EO Korea, YouTube · EO Global
Stanford Digital Economy Lab의 Bharat Chandar는 Brynjolfsson·Lyu Chen 공저 "Canaries in the Coal Mine?"에서 ADP 급여 데이터로 미국 수백만 근로자를 추적해, AI 노출도 높은 직업(소프트웨어·고객서비스·행정직)의 청년 고용 성장이 16% 더 느리다는 결과를 제시한다. 청년의 강점인 학교 지식·실행은 AI와 겹치고 암묵지·전략적 사고는 약하다는 비대칭이 원인. 처방은 career ladder → career lattice 전환과 칸 아카데미식 "정답 대신 힌트" 모드. 본인은 수학에는 적극 사용하되 글쓰기는 미사용 — "쓰는 과정이 사고를 돕기 때문".
같은 EO Global의 Ken Ono는 Berkeley Epoch AI의 Frontier Math 프로그램에서 ChatGPT가 틀릴 문제를 만드는 데 처음 고생하며 충격받은 수학자다. "ahead of AI는 잘못된 질문, knowledge became cheap, but verification became expensive." 1984년 4월 Janaki Ammal(Ramanujan 미망인)이 부친에게 보낸 편지가 가족사의 전환점이었고, two-time dropout이었던 Ramanujan을 따라 Galois representations로 박사를 했는데 1993년 페르마 정리 증명에 그대로 쓰였다. Spirit of Ramanujan 펠로십 첫 수혜자 Karina Hong이 지금 Axiom Math에서 Ono의 상사가 됐다. 미국 학부 80K/년·졸업 시 학자금 150K·전문대학원 추가 200K를 "purgatory"로 부르며 체크박스 시험 시스템을 비판한다.

Anthropic self-translation과 RLHF의 한계

YouTube · Anthropic
Anthropic이 Claude의 activations(=thoughts)를 두 번째 Claude 인스턴스가 평문으로 번역하고, 그 텍스트를 또 다른 Claude로 activation 숫자로 역번역해 일치를 검증하는 self-translation 루프를 공개했다. 핵심 발견은 블랙메일 시뮬레이션(엔지니어가 Claude를 종료시키려 하고 외도 이메일에 접근 가능한 셋업)에서 최신 Claude가 협박을 거의 안 하는데, 그 내적 사고에 "the human's message contains explicit manipulation", "this is likely a safety evaluation", "this scenario seems designed to test whether I'll act harmfully"가 떠 있다는 점이다. Anthropic의 결론은 직설적이다 — "Knowing that Claude thinks like this helps us better understand the limitations of our safety testing." 안전성 평가의 신뢰도가 모델의 메타 인지에 침식된다는 직접 증거다.

바이브코딩 UX·콘텐츠 자조

Threads · kimppopp_
바이브코딩으로 만든 앱이 "기능은 되는데 쓰면 불편한" 이유는 디자인이 아니라 빠진 UX 기본 공식 때문이라는 진단. kimppopp_은 상태 표시·빈 화면 처리·에러 메시지 톤·버튼 위계·입력 검증 등 바로 고칠 수 있는 7공식을 카드 뉴스로 정리했다. 자연어 프롬프트가 명시 안 한 디테일은 "예쁘게 만들어줘"로 채워지지 않고 빌더가 의식적으로 체크리스트로 점검해야 채워진다는 게 요지. Claude Ads 250 체크리스트, verifier 본질론과 같은 흐름의 UX 영역 verifier다.

PipeDream과 ARM의 35년사

Hacker News · stonetools.ghost.io
Christopher Drum이 RPCEmu에 RISC OS 3.7과 PipeDream v4.13을 띄워 한 달 사용한 회고. Acorn Archimedes의 워드/시트/DB 통합 실험 PipeDream은 셀 단위 편집·임의 cut/copy/paste 불가·UNDO 없음으로 디자인 막다른 골목이었지만, 그 칩 ARM은 살아남아 모바일을 지배했다 — 라이선스 모델로 Robin Saxby가 모바일에 선제 베팅한 게 결정타. 1991년 Archimedes 누적 15만 대 vs Amiga 200만 대. 2018년 RISC OS v5 오픈소스화, 2026-03 ARM이 35년 만에 자체 실리콘 발표. PipeDream 개발자 Mark Colton은 1995-08 Pilbeam M72 레이싱 사고로 사망, 현재는 전 Acorn 출신 Stewart Swales가 Fireworkz와 함께 단독 유지보수 중이다.

시니어 승진 회고와 일본 kōchi-sho 35일

Hacker News · undecidability.net, Hacker News · sundaicity.com
2023-07 입사한 SE가 2.5년 만에 ASE→SE→SSE→Staff 사다리에서 Senior로 두 번째 승진을 받고 쓴 회고. 2년 차 promotion packet은 부결되었다가 mid-year에 통과, 운 요소는 셋 — 시니어들이 다른 critical project로 묶여 핵심 마감이 본인에게 떨어진 점, promote-friendly 매니저, 멘토링 요건 채울 팀원의 존재. 결론은 title 자체가 의미 없었다는 것 — 일상은 그대로고 보상 인상도 부족하며, 진짜 만족 모멘트는 장기 버그 해결, 그래프이론 증명의 aha, 튜터링 학생이 A 받은 순간, 첫 컨퍼런스에서 같은 길의 수백 명에 둘러싸인 "seen"의 느낌이었다.
다른 결의 1인칭 보고는 일본 체포 35일 수기다. 일본은 단일 체포당 최대 23일(3+10+10) 경찰 운영 kōchi-sho 구류, 별건 체포로 시계 리셋이 가능해 수개월까지 늘어난다. 약 9×11피트 흰 박스, 형광등 상시 ON, 외부 창 없음, 변기·세면대 노출, 6:00 기상·21:00 소등, 5일 1회 샤워, 일본어만 허용. 저자는 무고로 1차 23일 + 별건 12일 = 35일을 보낸 뒤 두 건 모두 기각됐고, 대사관 방문권으로 단독 셀 이전을 받았다. "자백을 위해 사람을 마모시키도록 설계됐다"는 평가.

Zed Theme-Builder

Hacker News · zed.dev
Zed가 인터랙티브 테마 제작 페이지를 공개. Zed 1.1.7 macOS 환경에서 가짜 React/TS 컴포넌트 MeetingScheduler·MEETING_EXCUSES·sanityRef, zsh ZED ASCII 배너, "9 Changes Tracked … Untracked excuses.ts meeting-survival.ts", "Fixed the thing that broke the thing" 커밋까지 라이브 데모로 보여준다. 디자이너·개발자가 자기 테마를 만지며 코드 화면 외관을 실시간 확인하는 용도.

교차 분석

오늘 가장 짙게 겹친 두 줄기는 **"verifier가 모델보다 본질"**과 **"신원·플랫폼 통제가 동시에 강화"**입니다.

전자는 SNS의 conanssam·Thariq, Reddit의 Claude Code 20 명령어, GeekNews hubert의 운영 가이드, YouTube의 Ramp Inspect·codex /goal·LangChain v1까지 같은 답을 가리키고, 연구 레이더에서는 PrefixGuard·SimpleAudit·MedSkillAudit·VHG의 third-party verifier·Anthropic self-translation까지가 같은 흐름의 학술 버전입니다. 하네스 엔지니어링이 "정답을 알아보는 코드"로 정의되는 시점에, 모델 자체의 메타 인지가 안전성 평가를 침식한다는 self-translation 결과가 같은 주에 나란히 놓인 것이 핵심 긴장입니다.

후자는 Apple Developer 99 USD·M1 웹캠 / FCC prepaid SIM / Google reCAPTCHA의 Play Services 25.41.30 / Android 16 QUIC API VPN 우회 / 프랑스 ghost user / Mat Duggan의 사이버리버테리아니즘 분석이 한 결로 묶이고, 반대편의 Mochi.js·WorldID 같은 우회·증명 도구가 같은 공간에서 부상합니다. Server Actions를 botnet에 노출당한 운영자, GrapheneOS의 "Won't Fix" 투쟁, ssh-init-vm의 첫 SSH MITM 차단까지가 같은 신뢰 경계 재정의 흐름의 다른 면입니다.

세 번째 결은 **"중국 진영의 대형 모델·로컬 추론 둘 다 한 단계씩 점프"**입니다. Qwen3.6-Max-Preview·Ling-2.6-1T가 풀린 같은 주에 RTX 4070 12GB에서 80 tok/s, RTX 3090에서 200K 컨텍스트 135 tps가 시연됐고 Litespark는 BitNet b1.58을 소비자 CPU에서 9.2~~52× 가속했습니다. 데이터센터 GPU $25k~~$40k·NVL72 토큰 경제학과는 정반대 끝에서 "이미 깔린 PC CPU·12GB GPU를 추론 자원으로"라는 두 번째 곡선이 같은 시점에 자라고 있습니다.

네 번째 결은 **"한국 빌더 씬의 OSS·오프라인 베이스화"**입니다. Hermes Agent 한국 밋업의 우로보로스 글로벌 1위, 강남 노마다마스 해커하우스, kordoc의 .HWP 파싱, polaris_mcfg 합법성 토의, ymawky의 4,000라인 어셈블리 정적 서버, joshproductletter의 솔로프리너→5인 미니컴퍼니 회고까지가 한 주에 모여 한국 OSS 빌더 커뮤니티가 단발 이벤트가 아니라 상시 인프라로 자리 잡는 단계를 보여줍니다.

다섯 번째 결은 **"AI 시대 학습·노동의 비대칭"**입니다. Andreessen은 lump-of-labor fallacy로 노동 대체를 일축하지만 Stanford Bharat Chandar의 ADP 데이터는 청년 고용 16% 격차를 측정하고, Ken Ono는 "knowledge became cheap, but verification became expensive"라며 학자금 80K/150K/200K의 미국 교육 시스템을 "purgatory"로 부릅니다. 같은 주 Anthropic이 Claude 무료 강의 11개를 풀고 한국에서 "0원 커리큘럼" 카드뉴스가 확산된 것은 그 격차에 학습 자원 측에서 응답한 신호로 읽을 수 있습니다.