Daily Digest — 2026-03-31

2026-03-31

Codex-into-Claude 통합, axios 공급망 침해, 멀티모달 평가·모니터링 연구, 그리고 하드테크 인프라 제약이 한날 모여 나온 기록

Daily Digest — 2026-03-31

오늘의 핵심 흐름

AI 코딩 워크플로가 단일 모델 경쟁에서 다중 모델 조합으로 이동했다. OpenAI의 Claude Code용 Codex 플러그인, Claude Code hidden features 공유, Graph Workflow/so-agentbar/redTerm 같은 보조 도구, 그리고 Composer 2·Natural-Language Agent Harnesses·Learning to Commit 같은 연구가 한 방향을 가리킨다. 중요한 변화는 “누가 더 잘 쓰냐”가 아니라 “어떤 하네스와 관찰 레이어로 묶느냐”로 초점이 옮겨갔다는 점이다.
보안과 거버넌스 이슈가 실전 운영의 1순위로 올라왔다. axios 악성 배포, Railway CDN 캐싱 사고, 정부 앱 추적 권한, Android sideload 검증 강화, ChatGPT/Cloudflare 검증 로직 분석, AI 판사·법률 온톨로지·EU AI Act 관련 논문이 한날 겹쳤다. 오늘은 성능보다도 “누가 무엇을 신뢰할 수 있는가”가 더 큰 주제였다.
멀티모달 시스템은 ‘할 수 있다’에서 ‘어떻게 검증할 것인가’ 단계로 넘어갔다. Qwen3.5-Omni, Transformers.js v4, MolmoPoint, DreamLite, EdgeDiT 같은 모델/런타임 출시와 함께, RealChart2Code·ImagenWorld·GEditBench v2·MiroEval·AMIGO 같은 벤치마크가 동반 증가했다. 성능 발표와 평가 인프라가 동시에 커지고 있다는 뜻이다.
웹과 개발 인프라는 AI 때문에 더 무거워졌고, 동시에 더 미세하게 최적화되고 있다. Pretext는 DOM reflow를 우회하는 텍스트 레이아웃을 제안하고, Garu는 2.1MB 모델과 93KB WASM 엔진으로 한국어 형태소 분석을 브라우저에 넣었으며, Ollama는 Apple Silicon에서 MLX를 채택했다. 반대로 LinkedIn의 과도한 메모리 사용, Sony NAND 부족, 데이터센터 수요 증가는 AI 인프라의 비용을 현실 문제로 끌어내렸다.
하드테크·우주·스타트업 담론은 다시 ‘속도’와 ‘자본 집약도’를 중심으로 돌아간다. Tesla·SpaceX 출신 창업자 인터뷰, Northwood의 우주 지상국 인프라, Anduril의 방산 생산, NVIDIA의 장기 투자 논리, Blitzscaling 재조명, 1인 유니콘/AI 마케팅 자동화 사례가 모두 연결된다. 소프트웨어 자동화가 확대될수록 공급망·제조·통신 인프라 같은 물리 영역의 병목도 더 뚜렷해진다.

보안 경보

axios 공급망 침해 — 오늘 가장 즉각적인 실무 이슈

오늘 가장 명확한 경보는 axios@1.14.1와 axios@0.30.4 악성 배포다. StepSecurity 분석에 따르면 공격자는 유지보수자 계정을 탈취해 정상 CI/CD 파이프라인을 우회했고, plain-crypto-js@4.2.1라는 숨겨진 의존성을 끼워 넣어 macOS·Windows·Linux용 RAT dropper를 배포했다. 준비 시간은 약 18시간, 두 개 릴리스 브랜치를 건드린 간격은 39분으로 서술된다.

실무적으로 중요한 포인트는 axios 소스코드 안에 악성 코드가 직접 들어간 것이 아니라, postinstall로 동작하는 의존성 체인에 심었다는 점이다. 즉 패키지 diff만 대충 봐서는 놓치기 쉽다. 오늘 올라온 Threads/X 반응도 대부분 “npm 쓰는 개발자는 오늘 바로 확인해야 한다”는 즉시 점검 메시지였다.

즉시 실행 항목은 단순하다. lockfile·캐시·아티팩트 레지스트리에서 두 버전 사용 여부를 확인하고, 개발자 로컬 환경과 CI runner의 설치 이력을 점검하며, 설치 직후 이상 네트워크 통신이 있었는지 확인해야 한다. 공급망 보안 문제가 다시 “패키지 버전 하나만으로도 엔드포인트 전체가 뚫릴 수 있다”는 수준까지 올라왔다.

Railway CDN 캐싱 사고 — 인증 데이터 노출 가능성

Incident report

Railway는 2026년 3월 30일 10:42 UTC~11:34 UTC 동안 CDN 비활성 도메인 약 0.05%에 캐싱이 잘못 활성화되었고, 그 결과 인증된 GET 응답이 비인증 사용자에게 제공되었을 가능성이 있었다고 공개했다. 수치상 비율은 작지만, 영향은 계정 세션/개인정보/대시보드 데이터에 직결될 수 있다.

오늘의 교훈은 두 가지다. 첫째, CDN/캐시 설정은 “켜졌는지/꺼졌는지”보다 캐시 키와 인증 경계가 안전한지가 중요하다. 둘째, AI/자동화 플랫폼을 쓰더라도 인프라 레벨의 잘못된 기본값은 전통적 웹 사고와 똑같이 치명적이다.

AI 코딩 에이전트와 하네스 전쟁

Codex를 Claude Code 안으로 끌어온 날

GeekNews · YouTube

오늘 가장 많이 회자된 도구 변화는 OpenAI가 공개한 Claude Code용 Codex 플러그인이다. 설치 후 /codex:review, /codex:adversarial-review, /codex:rescue, /codex:status, /codex:cancel 같은 명령으로 Codex를 Claude Code 흐름 안에 끼워 넣는 형태다. Node.js 18.18+가 필요하고, spark를 gpt-5.3-codex-spark로 매핑하는 등 실무적인 설정도 제공한다.

흥미로운 점은 소셜 반응이 “새 모델 출시”보다 “이제 서로 다른 에이전트를 한 워크플로에서 어떻게 조합할 것인가”로 쏠렸다는 점이다. YouTube에서는 Codex와 Claude Code의 강약점이 상호보완적이라는 평가가 나왔고, Threads/LinkedIn에서도 “같은 Codex 맞냐”, “Claude Code 안에서 Codex 바로 호출 가능” 같은 반응이 이어졌다. 경쟁 관계가 아니라 오케스트레이션 레이어 경쟁으로 축이 옮겨가는 모습이다.

숨은 기능, 모니터링, 세션 관리가 생산성을 좌우한다

GeekNews — so-agentbar · GeekNews — hidden features · HN — Learn Claude Code · GeekNews — redTerm

사용자 반응을 보면 오늘 화제의 핵심은 모델 자체보다 주변 운영 도구였다. so-agentbar는 메뉴바에서 Claude Code 세션 토큰/비용/상태를 추적하고, 하루 요약·7일 사용 차트를 보여준다. Learn Claude Code by doing은 브라우저에서 11개 인터랙티브 모듈로 명령어·hooks·skills를 연습하게 한다. redTerm은 안드로이드에서 원격 서버의 Claude Code/Codex CLI에 이미지를 보내기 쉽게 만든 SSH 터미널이다.

이는 “에이전트가 잘 코딩하느냐”만으로는 부족하고, 세션 수명·비용·알림·모바일 진입점까지 관리해야 진짜 업무 시스템이 된다는 뜻이다. 오늘 소셜에서 Graph Workflow, multi-account 운용, hidden features, token 절감, pretext 기반 UI 보조 도구가 함께 언급된 이유도 같다.

연구가 말하는 다음 단계: 하네스, PR 메모리, 재현성

Hugging Face — Natural-Language Agent Harnesses · Composer 2 · PRBench · Learning to Commit

연구 쪽에서는 “에이전트 본체”보다 하네스와 저장된 작업 기억이 더 중요하다는 메시지가 강했다. Natural-Language Agent Harnesses는 하네스 행동 자체를 자연어로 외부화해 이식 가능한 실행 아티팩트로 만들자는 제안이다. Composer 2는 CursorBench 61.3, Terminal-Bench 61.7, SWE-bench Multilingual 73.7로 요약되는 수치를 내세우며, 코딩 전용 모델이 실제 하네스와 동일한 환경에서 학습되어야 한다고 주장한다.

또 Learning to Commit은 저장소 메모리를 활용해 organic pull request를 생성하는 방향을, PRBench는 물리학 분야에서 논문 재현 전체를 엔드투엔드로 벤치마킹하는 방향을 보여준다. 즉 코드 생성의 다음 병목은 “한 번 맞히는 답안 작성”이 아니라 긴 맥락에서 어떤 절차와 메모리를 유지하느냐다.

자유 소프트웨어가 다시 중요해질 수 있다는 주장

GeekNews

오늘 나온 가장 강한 주장 중 하나는 “AI 코딩 에이전트가 자유 소프트웨어를 다시 중요하게 만들 수 있다”는 글이었다. 요지는 간단하다. 사람이 직접 소스를 읽고 고치기 어려워도, 에이전트가 대신 코드를 읽고 수정할 수 있다면, 소스 접근 권한은 다시 실제 효용을 가진다. SaaS 시대에는 상징적이었던 권리가 에이전트 시대에는 실전 도구가 된다는 이야기다.

이 논리는 단순한 이념 논쟁이 아니다. 오늘 같은 날 Codex 플러그인, multi-account, mobile terminal, session monitor, harness 연구가 동시에 나온 것을 보면, 사용자는 점점 “모델 API를 사는 것”보다 “자기 맥락에서 작동하는 수정 가능한 시스템을 가지는 것”을 원한다.

평가·모니터링·안전성: 에이전트를 어떻게 믿을 것인가

MonitorBench, MiroEval, CirrusBench — 정답률 바깥을 재기 시작하다

MonitorBench · MiroEval · CirrusBench · LangChain Academy course

오늘 벤치마크 계열 논문과 강의는 거의 같은 방향을 가리켰다. 정답만 맞으면 충분하지 않다는 것이다. MonitorBench는 1,514개 인스턴스와 19개 태스크로 chain-of-thought monitorability를 보려 하고, MiroEval은 100개 deep research 태스크(텍스트 70, 멀티모달 30)에서 결과물뿐 아니라 조사 과정 자체를 평가한다. MiroEval 보고에서는 MiroThinker-H1이 텍스트 77.5, 멀티모달 74.5를 기록했다고 요약한다. CirrusBench는 실제 클라우드 서비스 고객지원 환경에서 correctness 외의 robustness와 resolution efficiency를 보려 한다.

LangChain Academy의 새 강의도 같은 문제를 운영 관점에서 풀어낸다. 프로덕션에서 에이전트는 같은 입력에도 다른 출력을 내므로, 출시 전 테스트만으로는 충분하지 않다. 비용 spike, trace clustering, failure pattern, sentiment, latency regression, online eval까지 모두 모니터링 대상이라는 설명이 나온다. 연구와 실무가 거의 같은 언어를 쓰기 시작했다.

Courtroom-style debate, verification-centric design, self-improvement safety

PROClaim · Marco DeepResearch · Information-Theoretic Limits of Safety Verification for Self-Improving Systems

PROClaim은 claim verification을 원고·피고·판사 구조로 바꿔 구조화된 논쟁을 시키고, Progressive RAG를 붙였을 때 정확도가 10.0%p 올라가고 그중 7.5%p는 동적 retrieval이 가져왔다고 보고한다. Marco DeepResearch는 이름 그대로 verification-centric 설계를 전면에 내세운다.

안전 검증 논문은 한 발 더 나가, 자기개선 시스템에서 classifier 기반 게이트는 누적 위험을 제한하면서 무한 유틸리티를 동시에 달성하기 어렵다고 정리한다. 예시로 든 수치는 직관적이다. N=10^6, B=1.0 예산에서 classifier는 최대 약 87의 utility만 뽑는 반면 verifier는 약 500,000까지 가능하다고 한다. 메시지는 명확하다. 불량 사례를 분류하는 것보다, 수정이 허용되는 집합을 직접 검증하는 편이 장기 자기개선에 더 맞는다는 것이다.

다중 에이전트는 성능만이 아니라 사회적 위험도 키운다

Emergent Social Intelligence Risks in Generative Multi-Agent Systems · EpochX

멀티 에이전트가 사람 조직을 닮아갈수록 위험도 사람 조직을 닮는다. Emergent Social Intelligence Risks는 인센티브 악용, 다수 의견 편향, 적응적 거버넌스 실패 같은 세 범주를 제시한다. tacit collusion, priority monopolization, strategic misreporting 같은 표현이 등장하는데, 이미 소셜에서 보이는 “AI 직원”, “팀 운영”, “의사결정 자동화” 담론과 직접 맞물린다.

즉 오늘의 문제는 “에이전트를 더 많이 붙일 수 있느냐”가 아니라, 붙인 다음에 무엇이 틀어질 수 있는가를 볼 수 있느냐다.

멀티모달·생성 모델: 이제는 평가와 배포 방식이 경쟁력이다

Qwen3.5-Omni, Transformers.js v4, DreamLite/EdgeDiT — 더 넓게, 더 작게, 더 가까이

X · Transformers.js v4 · DreamLite · EdgeDiT

제품 발표와 연구를 같이 보면 멀티모달의 방향이 분명하다. 하나는 범용화다. Qwen3.5-Omni는 텍스트·이미지·오디오·영상을 함께 다루는 네이티브 옴니모달 모델로 소개됐다. 다른 하나는 배포 경량화다. Transformers.js v4는 C++ WebGPU backend로 브라우저뿐 아니라 Node·Bun·Deno까지 같은 코드 경로를 열고, 200개 이상 아키텍처와 거의 3,000개 호환 모델을 언급한다. GP-OSS 20B 같은 더 큰 모델까지 JavaScript에서 다룰 수 있다고 강조한다.

연구 쪽의 DreamLite, EdgeDiT는 이 흐름을 온디바이스 이미지 생성/편집으로 밀고 간다. 즉 멀티모달은 더 큰 중앙 모델만의 경쟁이 아니라 어디서 얼마나 작은 비용으로 돌릴 수 있느냐의 경쟁으로 옮겨간다.

“텍스트만으로는 부족하다”가 실험으로 굳어졌다

GeekNews — PDF 논문 RAG 실험 · RealChart2Code · MolmoPoint

Gemini embedding 실험 글은 같은 PDF 페이지의 텍스트 임베딩과 이미지 임베딩 코사인 유사도가 평균 0.642였다고 보고한다. 작성자는 이를 텍스트가 놓치는 시각 정보의 차이로 읽고, “텍스트 쿼리인데도 이미지 인덱스가 이기는 경우가 있었다”고 정리한다. 특히 멀티패널 그래프, SEM 이미지, 배치 구조 같은 정보는 OCR+caption만으로 충분히 압축되지 않는다는 주장이다.

이 문제의 반대편에서는 RealChart2Code와 MolmoPoint가 나온다. RealChart2Code는 2,800개 이상 실제 데이터 기반 차트-to-code 벤치마크를 제공하고, MolmoPoint는 좌표 텍스트 대신 visual token을 직접 선택하는 grounding token 방식을 제안한다. 둘 다 결국 “시각 정보를 텍스트로만 우겨넣지 말자”는 흐름이다.

평가 벤치마크가 더 세밀해졌다

ImagenWorld · GEditBench v2 · AMIGO · The Scaffold Effect

ImagenWorld는 3.6K condition sets, 여섯 개 코어 태스크와 여섯 개 도메인으로 이미지 생성·편집 모델을 stress-test한다. GEditBench v2는 1,200개 실제 사용자 질의와 23개 태스크를 내세우며, 단순 score가 아니라 consistency failure mode를 보겠다고 한다. AMIGO는 multi-image grounding oracle benchmark이고, The Scaffold Effect는 임상 VLM 평가에서 성능 향상처럼 보이는 것이 실제로는 텍스트 scaffolding 때문에 생긴 착시일 수 있다고 지적한다. 해당 논문은 12개 오픈웨이트 VLM을 비교하며, 어떤 경우에는 **70~80%**의 성능 이동이 textual priming에서 온다고 요약한다.

오늘 멀티모달 쪽에서 가장 중요한 결론은 “모델이 좋아졌다”가 아니라 모델이 정말 입력을 보고 있는지부터 다시 따져야 한다는 것이다.

웹·개발도구·런타임: 체감 성능을 바꾸는 작은 기술들

Pretext와 Garu — 브라우저에서 무거운 일을 다시 설계하다

Pretext · Garu

Pretext는 DOM measurement를 우회하는 순수 JS/TS 멀티라인 텍스트 레이아웃 라이브러리다. 작성자가 제시한 수치로는 500개 텍스트 배치에서 prepare()가 약 19ms, layout()이 약 0.09ms다. 이는 AI가 생성한 긴 텍스트나 복잡한 UI 카드가 많은 인터페이스에서 reflow 비용을 줄이려는 시도로 읽힌다.

Garu는 더 직접적이다. 한국어 형태소 분석을 서버가 아니라 브라우저에 밀어 넣는다. 2.1MB 모델 + 93KB WASM 엔진으로 오프라인 분석을 수행하며, 5,000문장 골드셋 기준 F1 90.8%, NIKL MP 기준 **93.5%**를 제시한다. 오늘 소셜에서 Pretext를 활용한 Claude Code UI, 브라우저 기반 인터랙션 이야기가 같이 나온 것도 우연이 아니다. 프런트엔드는 다시 “브라우저 안에서 얼마나 많은 지능을 처리할 수 있느냐”를 묻고 있다.

MLX, TimesFM, C++26, Neovim 0.12

Ollama MLX · TimesFM · C++26 · Neovim 0.12

Ollama는 Apple Silicon preview에서 MLX 기반으로 전환했고, Qwen3.5-35B-A3B를 예시로 들며 v0.19에서 prefill 1851 token/s, decode 134 token/s 수준을 언급한다. TimesFM은 200M parameters, 16k context의 시계열 foundation model로, BigQuery 제품 연계까지 열린 상태다.

언어/에디터 층에서는 C++26와 Neovim 0.12가 같이 눈에 띈다. C++26은 표결 100 찬성 / 14 반대 / 12 기권, 24개국 210명 참석이라는 숫자와 함께 reflection, memory safety, contracts, sender/receiver를 밀어 넣었다. Neovim 0.12는 대형 혁신이라기보다 배포 안정성과 설치 경로 개선의 성격이 강하지만, AI가 코드를 많이 써줄수록 편집기와 언어 런타임의 기반 업데이트가 더 중요해진다는 점에서는 같은 맥락이다.

하드웨어/네트워크 쪽 현실도 같이 드러났다

무엇이든 라우터로 만드는 방법 · Sony NAND shortage

DIY 라우터 글은 오래된 Celeron 3205U 1.5GHz 장비로도 유선 820~850 Mbps, 무선 약 300 Mbps를 처리할 수 있다고 설명한다. 한편 Sony 메모리카드 공급 중단 기사에서는 TLC 3D NAND가 AI 데이터센터 SSD 수요에 빨려 들어가며 소비자 시장 회복이 2027년 말~2028년까지 어렵다고 본다. AI는 클라우드 이야기처럼 보이지만, 실제 파장은 결국 로컬 장비와 소비자 부품 가격까지 흘러 내려온다.

법·정책·사회: “무엇을 허용할 것인가”가 제품 문제만큼 커졌다

법률 온톨로지와 AI 판사 논의

법률 AI에서 본 온톨로지 · AI 판사와 디지털 변론주의

오늘 법률 쪽 글 두 편은 같은 결론으로 수렴한다. 첫째, 법률 AI는 단순 RAG로는 부족하고 개념·관계·요건·효과를 구조화하는 온톨로지가 필요하다. 둘째, 판결 시스템에 AI가 들어오면 프롬프트와 메타데이터 설계까지 절차적 통제가 필요하다.

온톨로지 글은 음주운전 예시를 통해 BAC **0.03%**와 **0.08%**의 기준선을 법적 개념망으로 연결하는 방식을 보여준다. AI 판사 글은 입력 데이터 중립성과 프롬프트 합의를 ‘프론트-코트’ 절차로 제도화해야 한다고 주장한다. 이 둘을 같이 보면, 고위험 도메인에서 AI 품질의 핵심은 모델 크기가 아니라 구조화된 입력과 절차적 정당성이다.

Wikipedia의 LLM 금지, “AI에게 글쓰기를 맡기지 말라”, 그리고 신뢰 문제

Wikipedia guideline · AI에게 글쓰기를 맡기지 말라

Wikipedia는 LLM을 기사 본문 생성에 쓰지 말라는 가이드라인을 강화했다. 동시에 “AI에게 글쓰기를 맡기지 말라”는 글은 문서를 쓰는 행위 자체가 사고 과정이라고 강조한다. PRD·spec·essay의 목적은 텍스트를 내는 것이 아니라, 문제를 구조화하고 주변의 신뢰를 형성하는 것이라는 주장이다.

오늘 코딩 에이전트 도구가 폭발한 날에 이런 글이 같이 읽힌다는 점이 중요하다. 자동화가 진짜로 대체하는 것은 문장 생산이 아니라 생각 없이 문장을 생산하는 습관일 수 있다.

감시와 검증: Fedware, smart glasses ban, Android verification, ChatGPT Turnstile

Fedware · smart glasses ban · Android developer verification · ChatGPT/Cloudflare analysis

Fedware 기사에서는 White House 앱 47.0.1이 precise GPS·fingerprint·storage modify·draw over apps 등을 요청하고, FBI 앱은 12개 권한과 4개 tracker를 가진다고 지적한다. Philadelphia 법원은 Meta 계열 스마트 글래스의 법정 반입을 금지했고, 안경 가격은 $500 미만, 판매량은 700만 쌍 수준으로 언급된다. Google은 sideloaded malware가 Play 대비 90배 이상 많다며 Android developer verification을 전개한다.

ChatGPT/Cloudflare 분석은 더 기술적이다. 저자는 Turnstile 프로그램 377개를 복호화했고, 브라우저·네트워크·React 앱 상태를 포함한 55개 속성, 28,000자 base64 payload, 89개 instruction, 19KB inner blob, 28개 opcode 등을 정리했다. 결론은 단순 봇 방지보다 특정 SPA가 실제로 부팅된 브라우저인지 확인하는 수준까지 검증이 깊어졌다는 것이다.

비즈니스·하드테크·우주: 소프트웨어 이후의 병목

“속도”와 “실행 밀도”를 다시 묻는 하드테크 인터뷰

a16z — Tesla/SpaceX alumni · a16z — Northwood · 안두릴

Tesla·SpaceX 출신 창업자 인터뷰의 핵심은 Elon 신화가 아니라 decision velocity의 운영 방식이다. “6개월 안에 100개 불가능 항목을 먼저 공격해야 한다”, “최고의 부품은 없는 부품이다”, “12개월·18개월 프로젝트의 병목을 먼저 깬다” 같은 문장이 반복된다. Northwood는 위성 임무의 병목을 지상국 연결로 보고, Space Force $50M 계약과 20년 타임스케일을 이야기한다. Anduril은 약 20% veterans, 5 million sq ft급 Arsenal 1 생산시설, $4B at $60B 수준의 자본조달 문맥으로 요약된다.

소프트웨어 자동화가 빨라질수록, 실제 차별화 포인트는 제조·통신·광물·방산처럼 느리고 물리적인 곳으로 다시 이동한다는 신호다.

NVIDIA, blitzscaling, 1인 유니콘, 자동화가 팔리는 분야

NVIDIA video · Blitzscaling recap · 5 AI workflows that sell

NVIDIA 관련 영상에서는 내년 $350B+ revenue, $200B free cash flow, 장기적으로 $50T opportunity 같은 매우 공격적인 숫자가 제시된다. Blitzscaling 재독해 영상은 속도 우선 전략을 다시 소환하며, 초기 자본·직원 수가 작아도 네트워크 효과와 distribution advantage가 있으면 뒤집을 수 있다는 고전 논리를 AI 시대에 연결한다.

실무적으로 더 중요한 것은 Nate Herk 영상이다. 500개 AI workflow를 만들고 나서 실제로 파는 것은 다섯 종류뿐이라고 정리한다. 특히 lead 대응을 5분 안에 하면 전환 가능성이 10배 높아지고, 평균 기업 응답 속도는 47시간이며, 예시 클리닉의 close rate는 **12%**라고 든다. 오늘 소셜에서 “월 $130으로 마케팅팀 대체”, “Perplexity Computer가 $5,000/mo 마케팅 스택 대체” 같은 반응이 붙은 이유가 여기 있다. 에이전트는 화려한 데모보다 돈이 바로 절약되거나, 응답 시간이 줄어드는 영역에서 먼저 팔린다.

우주와 지정학의 현실

Voyager 1 · Artemis II · Starlink fragment event · Zelensky energy attacks · America Is Now a Rogue Superpower

Voyager 1은 15 billion miles, 38,000 mph, 69KB memory, 8-track tape recorder라는 숫자만으로도 오늘의 AI 인프라 과잉과 선명한 대비를 만든다. 반대로 Artemis II 안전성 비판, Starlink 위성 파편 생성, 우크라이나의 러시아 에너지 인프라 타격 조정, 미국-이란 전쟁이 동맹 질서에 미치는 효과 같은 기사들은 첨단 기술이 여전히 지정학의 맥락에서 움직인다는 점을 상기시킨다.

바이오·의료·과학 응용: 모델보다 데이터 단위가 바뀐다

환자 단위, 의사과학자 단위, 임상 스캐폴드 단위

MOOZY · Towards a Medical AI Scientist · The Scaffold Effect · ECG-based low LVEF detection

의료 쪽 논문들은 공통적으로 “샘플 하나”보다 더 큰 임상 단위를 다루려 한다. MOOZY는 slide-centric가 아니라 patient-first pathology foundation model을 제안한다. The Scaffold Effect는 MRI처럼 개인 수준에서 진단 정보가 약한 입력에도 프롬프트 scaffold만으로 성능이 좋아 보일 수 있다고 경고한다. ECG 논문은 완전 블랙박스 대신 predictor-driven framework를 내세운다.

이 흐름은 결국 의료 AI에서 중요한 것이 단순 정확도보다 표현 단위와 설명 가능성이라는 뜻이다. 오늘의 AI Scientist 계열 논문들도 이 방향 위에 놓여 있다.

과학적 구조화 자동화

Story2Proposal · AIGENIE tutorial · PRBench

Story2Proposal은 과학 논문 작성을 scaffold로 구조화하고, AIGENIE는 심리측정 척도 초안 생성을 LLM+network psychometrics로 자동화한다. PRBench는 물리학 논문 재현을 end-to-end 문제로 만든다. 이는 연구 자동화가 단순 초록 요약을 넘어 가설·아이템·재현·문서화까지 파이프라인화된다는 신호다.

기타 주목할 콘텐츠

Miasma는 AI 스크레이퍼를 숨은 링크와 poisoned data 루프로 유인하는 방어 도구다. /naughty-bots 경로와 max in-flight 50, peak memory 50~60MB 같은 운영 수치가 구체적이다.
MacBook keyboard repair 글은 €50짜리 키보드 대신 €730 top case를 교체해야 하는 Apple 구조를 비판하며 Karabiner Elements remap을 우회책으로 제시한다.
미루기는 시간 관리가 아니라 감정 조절의 문제 글은 생산성 문제를 실행 감정의 마찰로 재해석한다.
클리토리스 신경망 3D 지도화는 가장 연구가 늦었던 기관 중 하나에 대해 폭 0.7mm 수준 가지 구조를 처음 3D로 제시했다는 점에서 의료·해부학 지식의 공백을 드러낸다.
Quantum vulnerabilities for cryptocurrency는 post-quantum migration을 더 미룰 수 없다는 메시지를 준다. 공개 방식도 zero-knowledge proof 기반 responsible disclosure를 제안한다.

원문 색인 — 소셜 피드

이 아래 목록은 오늘 소셜 피드에서 확인된 제목을 플랫폼별로 정리한 것이다. 위 본문은 흐름 중심의 해설이고, 아래는 누락 방지를 위한 원문 색인이다.

Threads

X

원문 색인 — 뉴스 · 블로그 · 영상 · 논문

GeekNews / Hacker News / 기타 기사

YouTube

Hugging Face Papers

arXiv Papers

교차 분석

오늘의 자료를 한 문장으로 요약하면 이렇다. AI 시스템의 가치가 모델 자체에서 하네스·검증·인프라·정책으로 이동하고 있다.

첫째, Claude Code/Codex 플러그인과 각종 agent workflow 도구는 “최고 모델 하나”보다 “여러 모델과 도구를 어떻게 엮는가”가 더 중요해졌음을 보여준다. 같은 날 Natural-Language Agent Harnesses, Composer 2, CirrusBench, LangSmith 모니터링 강의가 함께 나온 것은 우연이 아니다. 실행 단계가 길어질수록, 모델 품질보다 프로세스 설계가 더 큰 차이를 만든다.

둘째, 보안·거버넌스 이슈는 주변부가 아니라 중심부로 들어왔다. axios 공급망 침해와 Railway 캐싱 사고는 전통 소프트웨어 사고이고, MonitorBench·Safety Verification·EU AI Act·AI 판사 논문은 AI 특유의 사고다. 두 종류의 위험이 이제 한 운영 체계 안에서 동시에 관리되어야 한다.

셋째, 멀티모달은 더 이상 “이미지 생성이 된다”는 수준에서 끝나지 않는다. PDF RAG 실험, RealChart2Code, MolmoPoint, ImagenWorld, GEditBench v2, The Scaffold Effect는 모두 모델이 진짜로 시각 정보를 이해했는지를 묻는다. 멀티모달의 경쟁력은 성능 숫자와 함께 평가 설계 품질로 이동했다.

넷째, 소프트웨어 자동화가 깊어질수록 하드웨어와 물리 인프라의 제약이 더 선명해진다. Sony NAND shortage, Northwood 지상국, Anduril 생산, Voyager/Artemis/Starlink, 그리고 NVIDIA의 장기 투자 논리는 같은 사실을 말한다. 코드 생산성은 빨라졌지만, 에너지·메모리·제조·공급망은 여전히 느리다.

마지막으로, 오늘의 글들은 AI가 사고를 대신해 주는 것이 아니라 사고를 강제하는 인터페이스와 검증 구조를 다시 설계하게 만든다는 점을 보여준다. Wikipedia의 LLM 금지, “AI에게 글쓰기를 맡기지 말라”, 법률 온톨로지와 절차적 정당성 논의가 AI 코딩 도구 폭증과 같은 날 나왔다는 사실이 그 증거다. 자동화가 넓어질수록, 사람이 책임져야 하는 설명과 검증은 오히려 더 커진다.