Daily Digest — 2026-03-31
Codex-into-Claude 통합, axios 공급망 침해, 멀티모달 평가·모니터링 연구, 그리고 하드테크 인프라 제약이 한날 모여 나온 기록
Daily Digest — 2026-03-31
오늘의 핵심 흐름
-
AI 코딩 워크플로가 단일 모델 경쟁에서 다중 모델 조합으로 이동했다. OpenAI의 Claude Code용 Codex 플러그인, Claude Code hidden features 공유, Graph Workflow/so-agentbar/redTerm 같은 보조 도구, 그리고 Composer 2·Natural-Language Agent Harnesses·Learning to Commit 같은 연구가 한 방향을 가리킨다. 중요한 변화는 “누가 더 잘 쓰냐”가 아니라 “어떤 하네스와 관찰 레이어로 묶느냐”로 초점이 옮겨갔다는 점이다.
-
보안과 거버넌스 이슈가 실전 운영의 1순위로 올라왔다. axios 악성 배포, Railway CDN 캐싱 사고, 정부 앱 추적 권한, Android sideload 검증 강화, ChatGPT/Cloudflare 검증 로직 분석, AI 판사·법률 온톨로지·EU AI Act 관련 논문이 한날 겹쳤다. 오늘은 성능보다도 “누가 무엇을 신뢰할 수 있는가”가 더 큰 주제였다.
-
멀티모달 시스템은 ‘할 수 있다’에서 ‘어떻게 검증할 것인가’ 단계로 넘어갔다. Qwen3.5-Omni, Transformers.js v4, MolmoPoint, DreamLite, EdgeDiT 같은 모델/런타임 출시와 함께, RealChart2Code·ImagenWorld·GEditBench v2·MiroEval·AMIGO 같은 벤치마크가 동반 증가했다. 성능 발표와 평가 인프라가 동시에 커지고 있다는 뜻이다.
-
웹과 개발 인프라는 AI 때문에 더 무거워졌고, 동시에 더 미세하게 최적화되고 있다. Pretext는 DOM reflow를 우회하는 텍스트 레이아웃을 제안하고, Garu는 2.1MB 모델과 93KB WASM 엔진으로 한국어 형태소 분석을 브라우저에 넣었으며, Ollama는 Apple Silicon에서 MLX를 채택했다. 반대로 LinkedIn의 과도한 메모리 사용, Sony NAND 부족, 데이터센터 수요 증가는 AI 인프라의 비용을 현실 문제로 끌어내렸다.
-
하드테크·우주·스타트업 담론은 다시 ‘속도’와 ‘자본 집약도’를 중심으로 돌아간다. Tesla·SpaceX 출신 창업자 인터뷰, Northwood의 우주 지상국 인프라, Anduril의 방산 생산, NVIDIA의 장기 투자 논리, Blitzscaling 재조명, 1인 유니콘/AI 마케팅 자동화 사례가 모두 연결된다. 소프트웨어 자동화가 확대될수록 공급망·제조·통신 인프라 같은 물리 영역의 병목도 더 뚜렷해진다.
보안 경보
axios 공급망 침해 — 오늘 가장 즉각적인 실무 이슈
오늘 가장 명확한 경보는 axios@1.14.1와 axios@0.30.4 악성 배포다. StepSecurity 분석에 따르면 공격자는 유지보수자 계정을 탈취해 정상 CI/CD 파이프라인을 우회했고, plain-crypto-js@4.2.1라는 숨겨진 의존성을 끼워 넣어 macOS·Windows·Linux용 RAT dropper를 배포했다. 준비 시간은 약 18시간, 두 개 릴리스 브랜치를 건드린 간격은 39분으로 서술된다.
실무적으로 중요한 포인트는 axios 소스코드 안에 악성 코드가 직접 들어간 것이 아니라, postinstall로 동작하는 의존성 체인에 심었다는 점이다. 즉 패키지 diff만 대충 봐서는 놓치기 쉽다. 오늘 올라온 Threads/X 반응도 대부분 “npm 쓰는 개발자는 오늘 바로 확인해야 한다”는 즉시 점검 메시지였다.
즉시 실행 항목은 단순하다. lockfile·캐시·아티팩트 레지스트리에서 두 버전 사용 여부를 확인하고, 개발자 로컬 환경과 CI runner의 설치 이력을 점검하며, 설치 직후 이상 네트워크 통신이 있었는지 확인해야 한다. 공급망 보안 문제가 다시 “패키지 버전 하나만으로도 엔드포인트 전체가 뚫릴 수 있다”는 수준까지 올라왔다.
Railway CDN 캐싱 사고 — 인증 데이터 노출 가능성
Railway는 2026년 3월 30일 10:42 UTC~11:34 UTC 동안 CDN 비활성 도메인 약 0.05%에 캐싱이 잘못 활성화되었고, 그 결과 인증된 GET 응답이 비인증 사용자에게 제공되었을 가능성이 있었다고 공개했다. 수치상 비율은 작지만, 영향은 계정 세션/개인정보/대시보드 데이터에 직결될 수 있다.
오늘의 교훈은 두 가지다. 첫째, CDN/캐시 설정은 “켜졌는지/꺼졌는지”보다 캐시 키와 인증 경계가 안전한지가 중요하다. 둘째, AI/자동화 플랫폼을 쓰더라도 인프라 레벨의 잘못된 기본값은 전통적 웹 사고와 똑같이 치명적이다.
AI 코딩 에이전트와 하네스 전쟁
Codex를 Claude Code 안으로 끌어온 날
오늘 가장 많이 회자된 도구 변화는 OpenAI가 공개한 Claude Code용 Codex 플러그인이다. 설치 후 /codex:review, /codex:adversarial-review, /codex:rescue, /codex:status, /codex:cancel 같은 명령으로 Codex를 Claude Code 흐름 안에 끼워 넣는 형태다. Node.js 18.18+가 필요하고, spark를 gpt-5.3-codex-spark로 매핑하는 등 실무적인 설정도 제공한다.
흥미로운 점은 소셜 반응이 “새 모델 출시”보다 “이제 서로 다른 에이전트를 한 워크플로에서 어떻게 조합할 것인가”로 쏠렸다는 점이다. YouTube에서는 Codex와 Claude Code의 강약점이 상호보완적이라는 평가가 나왔고, Threads/LinkedIn에서도 “같은 Codex 맞냐”, “Claude Code 안에서 Codex 바로 호출 가능” 같은 반응이 이어졌다. 경쟁 관계가 아니라 오케스트레이션 레이어 경쟁으로 축이 옮겨가는 모습이다.
숨은 기능, 모니터링, 세션 관리가 생산성을 좌우한다
GeekNews — so-agentbar · GeekNews — hidden features · HN — Learn Claude Code · GeekNews — redTerm
사용자 반응을 보면 오늘 화제의 핵심은 모델 자체보다 주변 운영 도구였다. so-agentbar는 메뉴바에서 Claude Code 세션 토큰/비용/상태를 추적하고, 하루 요약·7일 사용 차트를 보여준다. Learn Claude Code by doing은 브라우저에서 11개 인터랙티브 모듈로 명령어·hooks·skills를 연습하게 한다. redTerm은 안드로이드에서 원격 서버의 Claude Code/Codex CLI에 이미지를 보내기 쉽게 만든 SSH 터미널이다.
이는 “에이전트가 잘 코딩하느냐”만으로는 부족하고, 세션 수명·비용·알림·모바일 진입점까지 관리해야 진짜 업무 시스템이 된다는 뜻이다. 오늘 소셜에서 Graph Workflow, multi-account 운용, hidden features, token 절감, pretext 기반 UI 보조 도구가 함께 언급된 이유도 같다.
연구가 말하는 다음 단계: 하네스, PR 메모리, 재현성
Hugging Face — Natural-Language Agent Harnesses · Composer 2 · PRBench · Learning to Commit
연구 쪽에서는 “에이전트 본체”보다 하네스와 저장된 작업 기억이 더 중요하다는 메시지가 강했다. Natural-Language Agent Harnesses는 하네스 행동 자체를 자연어로 외부화해 이식 가능한 실행 아티팩트로 만들자는 제안이다. Composer 2는 CursorBench 61.3, Terminal-Bench 61.7, SWE-bench Multilingual 73.7로 요약되는 수치를 내세우며, 코딩 전용 모델이 실제 하네스와 동일한 환경에서 학습되어야 한다고 주장한다.
또 Learning to Commit은 저장소 메모리를 활용해 organic pull request를 생성하는 방향을, PRBench는 물리학 분야에서 논문 재현 전체를 엔드투엔드로 벤치마킹하는 방향을 보여준다. 즉 코드 생성의 다음 병목은 “한 번 맞히는 답안 작성”이 아니라 긴 맥락에서 어떤 절차와 메모리를 유지하느냐다.
자유 소프트웨어가 다시 중요해질 수 있다는 주장
오늘 나온 가장 강한 주장 중 하나는 “AI 코딩 에이전트가 자유 소프트웨어를 다시 중요하게 만들 수 있다”는 글이었다. 요지는 간단하다. 사람이 직접 소스를 읽고 고치기 어려워도, 에이전트가 대신 코드를 읽고 수정할 수 있다면, 소스 접근 권한은 다시 실제 효용을 가진다. SaaS 시대에는 상징적이었던 권리가 에이전트 시대에는 실전 도구가 된다는 이야기다.
이 논리는 단순한 이념 논쟁이 아니다. 오늘 같은 날 Codex 플러그인, multi-account, mobile terminal, session monitor, harness 연구가 동시에 나온 것을 보면, 사용자는 점점 “모델 API를 사는 것”보다 “자기 맥락에서 작동하는 수정 가능한 시스템을 가지는 것”을 원한다.
평가·모니터링·안전성: 에이전트를 어떻게 믿을 것인가
MonitorBench, MiroEval, CirrusBench — 정답률 바깥을 재기 시작하다
MonitorBench · MiroEval · CirrusBench · LangChain Academy course
오늘 벤치마크 계열 논문과 강의는 거의 같은 방향을 가리켰다. 정답만 맞으면 충분하지 않다는 것이다. MonitorBench는 1,514개 인스턴스와 19개 태스크로 chain-of-thought monitorability를 보려 하고, MiroEval은 100개 deep research 태스크(텍스트 70, 멀티모달 30)에서 결과물뿐 아니라 조사 과정 자체를 평가한다. MiroEval 보고에서는 MiroThinker-H1이 텍스트 77.5, 멀티모달 74.5를 기록했다고 요약한다. CirrusBench는 실제 클라우드 서비스 고객지원 환경에서 correctness 외의 robustness와 resolution efficiency를 보려 한다.
LangChain Academy의 새 강의도 같은 문제를 운영 관점에서 풀어낸다. 프로덕션에서 에이전트는 같은 입력에도 다른 출력을 내므로, 출시 전 테스트만으로는 충분하지 않다. 비용 spike, trace clustering, failure pattern, sentiment, latency regression, online eval까지 모두 모니터링 대상이라는 설명이 나온다. 연구와 실무가 거의 같은 언어를 쓰기 시작했다.
Courtroom-style debate, verification-centric design, self-improvement safety
PROClaim · Marco DeepResearch · Information-Theoretic Limits of Safety Verification for Self-Improving Systems
PROClaim은 claim verification을 원고·피고·판사 구조로 바꿔 구조화된 논쟁을 시키고, Progressive RAG를 붙였을 때 정확도가 10.0%p 올라가고 그중 7.5%p는 동적 retrieval이 가져왔다고 보고한다. Marco DeepResearch는 이름 그대로 verification-centric 설계를 전면에 내세운다.
안전 검증 논문은 한 발 더 나가, 자기개선 시스템에서 classifier 기반 게이트는 누적 위험을 제한하면서 무한 유틸리티를 동시에 달성하기 어렵다고 정리한다. 예시로 든 수치는 직관적이다. N=10^6, B=1.0 예산에서 classifier는 최대 약 87의 utility만 뽑는 반면 verifier는 약 500,000까지 가능하다고 한다. 메시지는 명확하다. 불량 사례를 분류하는 것보다, 수정이 허용되는 집합을 직접 검증하는 편이 장기 자기개선에 더 맞는다는 것이다.
다중 에이전트는 성능만이 아니라 사회적 위험도 키운다
Emergent Social Intelligence Risks in Generative Multi-Agent Systems · EpochX
멀티 에이전트가 사람 조직을 닮아갈수록 위험도 사람 조직을 닮는다. Emergent Social Intelligence Risks는 인센티브 악용, 다수 의견 편향, 적응적 거버넌스 실패 같은 세 범주를 제시한다. tacit collusion, priority monopolization, strategic misreporting 같은 표현이 등장하는데, 이미 소셜에서 보이는 “AI 직원”, “팀 운영”, “의사결정 자동화” 담론과 직접 맞물린다.
즉 오늘의 문제는 “에이전트를 더 많이 붙일 수 있느냐”가 아니라, 붙인 다음에 무엇이 틀어질 수 있는가를 볼 수 있느냐다.
멀티모달·생성 모델: 이제는 평가와 배포 방식이 경쟁력이다
Qwen3.5-Omni, Transformers.js v4, DreamLite/EdgeDiT — 더 넓게, 더 작게, 더 가까이
X · Transformers.js v4 · DreamLite · EdgeDiT
제품 발표와 연구를 같이 보면 멀티모달의 방향이 분명하다. 하나는 범용화다. Qwen3.5-Omni는 텍스트·이미지·오디오·영상을 함께 다루는 네이티브 옴니모달 모델로 소개됐다. 다른 하나는 배포 경량화다. Transformers.js v4는 C++ WebGPU backend로 브라우저뿐 아니라 Node·Bun·Deno까지 같은 코드 경로를 열고, 200개 이상 아키텍처와 거의 3,000개 호환 모델을 언급한다. GP-OSS 20B 같은 더 큰 모델까지 JavaScript에서 다룰 수 있다고 강조한다.
연구 쪽의 DreamLite, EdgeDiT는 이 흐름을 온디바이스 이미지 생성/편집으로 밀고 간다. 즉 멀티모달은 더 큰 중앙 모델만의 경쟁이 아니라 어디서 얼마나 작은 비용으로 돌릴 수 있느냐의 경쟁으로 옮겨간다.
“텍스트만으로는 부족하다”가 실험으로 굳어졌다
GeekNews — PDF 논문 RAG 실험 · RealChart2Code · MolmoPoint
Gemini embedding 실험 글은 같은 PDF 페이지의 텍스트 임베딩과 이미지 임베딩 코사인 유사도가 평균 0.642였다고 보고한다. 작성자는 이를 텍스트가 놓치는 시각 정보의 차이로 읽고, “텍스트 쿼리인데도 이미지 인덱스가 이기는 경우가 있었다”고 정리한다. 특히 멀티패널 그래프, SEM 이미지, 배치 구조 같은 정보는 OCR+caption만으로 충분히 압축되지 않는다는 주장이다.
이 문제의 반대편에서는 RealChart2Code와 MolmoPoint가 나온다. RealChart2Code는 2,800개 이상 실제 데이터 기반 차트-to-code 벤치마크를 제공하고, MolmoPoint는 좌표 텍스트 대신 visual token을 직접 선택하는 grounding token 방식을 제안한다. 둘 다 결국 “시각 정보를 텍스트로만 우겨넣지 말자”는 흐름이다.
평가 벤치마크가 더 세밀해졌다
ImagenWorld · GEditBench v2 · AMIGO · The Scaffold Effect
ImagenWorld는 3.6K condition sets, 여섯 개 코어 태스크와 여섯 개 도메인으로 이미지 생성·편집 모델을 stress-test한다. GEditBench v2는 1,200개 실제 사용자 질의와 23개 태스크를 내세우며, 단순 score가 아니라 consistency failure mode를 보겠다고 한다. AMIGO는 multi-image grounding oracle benchmark이고, The Scaffold Effect는 임상 VLM 평가에서 성능 향상처럼 보이는 것이 실제로는 텍스트 scaffolding 때문에 생긴 착시일 수 있다고 지적한다. 해당 논문은 12개 오픈웨이트 VLM을 비교하며, 어떤 경우에는 **70~80%**의 성능 이동이 textual priming에서 온다고 요약한다.
오늘 멀티모달 쪽에서 가장 중요한 결론은 “모델이 좋아졌다”가 아니라 모델이 정말 입력을 보고 있는지부터 다시 따져야 한다는 것이다.
웹·개발도구·런타임: 체감 성능을 바꾸는 작은 기술들
Pretext와 Garu — 브라우저에서 무거운 일을 다시 설계하다
Pretext는 DOM measurement를 우회하는 순수 JS/TS 멀티라인 텍스트 레이아웃 라이브러리다. 작성자가 제시한 수치로는 500개 텍스트 배치에서 prepare()가 약 19ms, layout()이 약 0.09ms다. 이는 AI가 생성한 긴 텍스트나 복잡한 UI 카드가 많은 인터페이스에서 reflow 비용을 줄이려는 시도로 읽힌다.
Garu는 더 직접적이다. 한국어 형태소 분석을 서버가 아니라 브라우저에 밀어 넣는다. 2.1MB 모델 + 93KB WASM 엔진으로 오프라인 분석을 수행하며, 5,000문장 골드셋 기준 F1 90.8%, NIKL MP 기준 **93.5%**를 제시한다. 오늘 소셜에서 Pretext를 활용한 Claude Code UI, 브라우저 기반 인터랙션 이야기가 같이 나온 것도 우연이 아니다. 프런트엔드는 다시 “브라우저 안에서 얼마나 많은 지능을 처리할 수 있느냐”를 묻고 있다.
MLX, TimesFM, C++26, Neovim 0.12
Ollama MLX · TimesFM · C++26 · Neovim 0.12
Ollama는 Apple Silicon preview에서 MLX 기반으로 전환했고, Qwen3.5-35B-A3B를 예시로 들며 v0.19에서 prefill 1851 token/s, decode 134 token/s 수준을 언급한다. TimesFM은 200M parameters, 16k context의 시계열 foundation model로, BigQuery 제품 연계까지 열린 상태다.
언어/에디터 층에서는 C++26와 Neovim 0.12가 같이 눈에 띈다. C++26은 표결 100 찬성 / 14 반대 / 12 기권, 24개국 210명 참석이라는 숫자와 함께 reflection, memory safety, contracts, sender/receiver를 밀어 넣었다. Neovim 0.12는 대형 혁신이라기보다 배포 안정성과 설치 경로 개선의 성격이 강하지만, AI가 코드를 많이 써줄수록 편집기와 언어 런타임의 기반 업데이트가 더 중요해진다는 점에서는 같은 맥락이다.
하드웨어/네트워크 쪽 현실도 같이 드러났다
무엇이든 라우터로 만드는 방법 · Sony NAND shortage
DIY 라우터 글은 오래된 Celeron 3205U 1.5GHz 장비로도 유선 820~850 Mbps, 무선 약 300 Mbps를 처리할 수 있다고 설명한다. 한편 Sony 메모리카드 공급 중단 기사에서는 TLC 3D NAND가 AI 데이터센터 SSD 수요에 빨려 들어가며 소비자 시장 회복이 2027년 말~2028년까지 어렵다고 본다. AI는 클라우드 이야기처럼 보이지만, 실제 파장은 결국 로컬 장비와 소비자 부품 가격까지 흘러 내려온다.
법·정책·사회: “무엇을 허용할 것인가”가 제품 문제만큼 커졌다
법률 온톨로지와 AI 판사 논의
법률 AI에서 본 온톨로지 · AI 판사와 디지털 변론주의
오늘 법률 쪽 글 두 편은 같은 결론으로 수렴한다. 첫째, 법률 AI는 단순 RAG로는 부족하고 개념·관계·요건·효과를 구조화하는 온톨로지가 필요하다. 둘째, 판결 시스템에 AI가 들어오면 프롬프트와 메타데이터 설계까지 절차적 통제가 필요하다.
온톨로지 글은 음주운전 예시를 통해 BAC **0.03%**와 **0.08%**의 기준선을 법적 개념망으로 연결하는 방식을 보여준다. AI 판사 글은 입력 데이터 중립성과 프롬프트 합의를 ‘프론트-코트’ 절차로 제도화해야 한다고 주장한다. 이 둘을 같이 보면, 고위험 도메인에서 AI 품질의 핵심은 모델 크기가 아니라 구조화된 입력과 절차적 정당성이다.
Wikipedia의 LLM 금지, “AI에게 글쓰기를 맡기지 말라”, 그리고 신뢰 문제
Wikipedia guideline · AI에게 글쓰기를 맡기지 말라
Wikipedia는 LLM을 기사 본문 생성에 쓰지 말라는 가이드라인을 강화했다. 동시에 “AI에게 글쓰기를 맡기지 말라”는 글은 문서를 쓰는 행위 자체가 사고 과정이라고 강조한다. PRD·spec·essay의 목적은 텍스트를 내는 것이 아니라, 문제를 구조화하고 주변의 신뢰를 형성하는 것이라는 주장이다.
오늘 코딩 에이전트 도구가 폭발한 날에 이런 글이 같이 읽힌다는 점이 중요하다. 자동화가 진짜로 대체하는 것은 문장 생산이 아니라 생각 없이 문장을 생산하는 습관일 수 있다.
감시와 검증: Fedware, smart glasses ban, Android verification, ChatGPT Turnstile
Fedware · smart glasses ban · Android developer verification · ChatGPT/Cloudflare analysis
Fedware 기사에서는 White House 앱 47.0.1이 precise GPS·fingerprint·storage modify·draw over apps 등을 요청하고, FBI 앱은 12개 권한과 4개 tracker를 가진다고 지적한다. Philadelphia 법원은 Meta 계열 스마트 글래스의 법정 반입을 금지했고, 안경 가격은 $500 미만, 판매량은 700만 쌍 수준으로 언급된다. Google은 sideloaded malware가 Play 대비 90배 이상 많다며 Android developer verification을 전개한다.
ChatGPT/Cloudflare 분석은 더 기술적이다. 저자는 Turnstile 프로그램 377개를 복호화했고, 브라우저·네트워크·React 앱 상태를 포함한 55개 속성, 28,000자 base64 payload, 89개 instruction, 19KB inner blob, 28개 opcode 등을 정리했다. 결론은 단순 봇 방지보다 특정 SPA가 실제로 부팅된 브라우저인지 확인하는 수준까지 검증이 깊어졌다는 것이다.
비즈니스·하드테크·우주: 소프트웨어 이후의 병목
“속도”와 “실행 밀도”를 다시 묻는 하드테크 인터뷰
a16z — Tesla/SpaceX alumni · a16z — Northwood · 안두릴
Tesla·SpaceX 출신 창업자 인터뷰의 핵심은 Elon 신화가 아니라 decision velocity의 운영 방식이다. “6개월 안에 100개 불가능 항목을 먼저 공격해야 한다”, “최고의 부품은 없는 부품이다”, “12개월·18개월 프로젝트의 병목을 먼저 깬다” 같은 문장이 반복된다. Northwood는 위성 임무의 병목을 지상국 연결로 보고, Space Force $50M 계약과 20년 타임스케일을 이야기한다. Anduril은 약 20% veterans, 5 million sq ft급 Arsenal 1 생산시설, $4B at $60B 수준의 자본조달 문맥으로 요약된다.
소프트웨어 자동화가 빨라질수록, 실제 차별화 포인트는 제조·통신·광물·방산처럼 느리고 물리적인 곳으로 다시 이동한다는 신호다.
NVIDIA, blitzscaling, 1인 유니콘, 자동화가 팔리는 분야
NVIDIA video · Blitzscaling recap · 5 AI workflows that sell
NVIDIA 관련 영상에서는 내년 $350B+ revenue, $200B free cash flow, 장기적으로 $50T opportunity 같은 매우 공격적인 숫자가 제시된다. Blitzscaling 재독해 영상은 속도 우선 전략을 다시 소환하며, 초기 자본·직원 수가 작아도 네트워크 효과와 distribution advantage가 있으면 뒤집을 수 있다는 고전 논리를 AI 시대에 연결한다.
실무적으로 더 중요한 것은 Nate Herk 영상이다. 500개 AI workflow를 만들고 나서 실제로 파는 것은 다섯 종류뿐이라고 정리한다. 특히 lead 대응을 5분 안에 하면 전환 가능성이 10배 높아지고, 평균 기업 응답 속도는 47시간이며, 예시 클리닉의 close rate는 **12%**라고 든다. 오늘 소셜에서 “월 $130으로 마케팅팀 대체”, “Perplexity Computer가 $5,000/mo 마케팅 스택 대체” 같은 반응이 붙은 이유가 여기 있다. 에이전트는 화려한 데모보다 돈이 바로 절약되거나, 응답 시간이 줄어드는 영역에서 먼저 팔린다.
우주와 지정학의 현실
Voyager 1 · Artemis II · Starlink fragment event · Zelensky energy attacks · America Is Now a Rogue Superpower
Voyager 1은 15 billion miles, 38,000 mph, 69KB memory, 8-track tape recorder라는 숫자만으로도 오늘의 AI 인프라 과잉과 선명한 대비를 만든다. 반대로 Artemis II 안전성 비판, Starlink 위성 파편 생성, 우크라이나의 러시아 에너지 인프라 타격 조정, 미국-이란 전쟁이 동맹 질서에 미치는 효과 같은 기사들은 첨단 기술이 여전히 지정학의 맥락에서 움직인다는 점을 상기시킨다.
바이오·의료·과학 응용: 모델보다 데이터 단위가 바뀐다
환자 단위, 의사과학자 단위, 임상 스캐폴드 단위
MOOZY · Towards a Medical AI Scientist · The Scaffold Effect · ECG-based low LVEF detection
의료 쪽 논문들은 공통적으로 “샘플 하나”보다 더 큰 임상 단위를 다루려 한다. MOOZY는 slide-centric가 아니라 patient-first pathology foundation model을 제안한다. The Scaffold Effect는 MRI처럼 개인 수준에서 진단 정보가 약한 입력에도 프롬프트 scaffold만으로 성능이 좋아 보일 수 있다고 경고한다. ECG 논문은 완전 블랙박스 대신 predictor-driven framework를 내세운다.
이 흐름은 결국 의료 AI에서 중요한 것이 단순 정확도보다 표현 단위와 설명 가능성이라는 뜻이다. 오늘의 AI Scientist 계열 논문들도 이 방향 위에 놓여 있다.
과학적 구조화 자동화
Story2Proposal · AIGENIE tutorial · PRBench
Story2Proposal은 과학 논문 작성을 scaffold로 구조화하고, AIGENIE는 심리측정 척도 초안 생성을 LLM+network psychometrics로 자동화한다. PRBench는 물리학 논문 재현을 end-to-end 문제로 만든다. 이는 연구 자동화가 단순 초록 요약을 넘어 가설·아이템·재현·문서화까지 파이프라인화된다는 신호다.
기타 주목할 콘텐츠
- Mr. Chatterbox는 1837~1899년 영국 도서 28,035권, 약 2.93B tokens, 340M params로 학습한 빅토리아 시대 LLM이다. “저작권이 없는 데이터만으로도 어디까지 갈 수 있나”를 실험한다.
- Miasma는 AI 스크레이퍼를 숨은 링크와 poisoned data 루프로 유인하는 방어 도구다.
/naughty-bots경로와 max in-flight 50, peak memory 50~60MB 같은 운영 수치가 구체적이다. - MacBook keyboard repair 글은 €50짜리 키보드 대신 €730 top case를 교체해야 하는 Apple 구조를 비판하며 Karabiner Elements remap을 우회책으로 제시한다.
- 미루기는 시간 관리가 아니라 감정 조절의 문제 글은 생산성 문제를 실행 감정의 마찰로 재해석한다.
- 클리토리스 신경망 3D 지도화는 가장 연구가 늦었던 기관 중 하나에 대해 폭 0.7mm 수준 가지 구조를 처음 3D로 제시했다는 점에서 의료·해부학 지식의 공백을 드러낸다.
- Quantum vulnerabilities for cryptocurrency는 post-quantum migration을 더 미룰 수 없다는 메시지를 준다. 공개 방식도 zero-knowledge proof 기반 responsible disclosure를 제안한다.
원문 색인 — 소셜 피드
이 아래 목록은 오늘 소셜 피드에서 확인된 제목을 플랫폼별로 정리한 것이다. 위 본문은 흐름 중심의 해설이고, 아래는 누락 방지를 위한 원문 색인이다.
- One of the most common questions we get asked by customers is what the day in the life of an Anthropic Engineer is like,
- I built a new plugin 🔌 You can now trigger Codex from Claude Code!
- ⚡ Codex 가 Claude Code 안으로 들어왔습니다
- AI 에이전트 성능 올리려고 프롬프트 수동으로 계속 다듬고 계신 분 주목하세요. 마이크로소프트 리서치가 Agent Lightning이라는 오픈소스를 공개했습니다.
- 또 햇갈려서 정리해 봤습니다. 기능이 많은건 좋은데 실제 어떤상황에서 뭘써야 할지를 잘 선택해야겠습니다.
- 유튜브를 시작한 뒤로
- 클로드 코드 세션을 한번에 10개 이상 실행할 수 있는 Graph Workflow를 만들었습니다. 비슷한 플러그인 대비 9.59배 더 길게 동작하고, 결과물 퀄리티는 벤치마크 Metric 기준 35% 이상 높았습니다
- 안녕하세요, ByteDance의 B2B사업부 BytePlus 한국 총괄 에드윈입니다.
- 솔직히 클로드 코드로 제일 먼저 하고싶었던 것이 있습니다.
- 드디어 기다리던 랄프톤 서울에 참여했습니다.
- Self-improving AI 에이전트가 GitHub 트렌딩에 올라왔길래, 어떻게 동작하는지 살펴봤습니다.
- 직원 10명. 런칭 9개월만에 연환산매출 100억+. 미국에서 Agentic Commerce for K-beauty 만들고 있습니다.
- AI가 실행하는 시대, 인간은 무엇을 설계하는가 — Ralphton 참가 후기
- "저 사람들 참 나약하다"
- Someone spent months reverse-engineering every Claude Code feature into one free guide.
- 가짜연구소 S12가 드디어 시작되었습니다! 🚀
- 하네스 엔지니어링 뉴스레터를 발행했습니다.
- Ezra Klein의 뉴욕타임즈 사설. 너무 좋은 글입니다. 가능하면 전문을 추천드립니다.
- 클로드 코드 CLI에서도 화면을 보고 수정합니다
- Your Claude Code setup is 3x slower than it could be right now.
- 🚨 Someone just built a self-hosted AI app that processes all your receipts and invoices automatically.
- 마케팅 잘 하는 3가지 방법
- [랄프-루프 시작 2분 전 제일 중요한 harness가 터진다면 어떻게 하실건가요?]
- AX사업확대를 위해 멋진 분이 합류하셨습니다.
- 오늘 저녁 (3/31 7pm) 구글 AI 생태계 무료 웨비나를 진행합니다. 😊
- 7 companies hit $100M ARR in under 2 years
- 예금,대출 분야의 금융상품 162개를 지식그래프로 구조화해봤습니다.
- 채용 중인데, 서류 심사를 하다보니 취준하시는 분들께 꼭 말씀드리고 싶은 점이 있다. 신입이든 경력이든 마찬가지다.
- claude-trainer📈
- <봇이 봇을 키운다>
- 요즘 AI로 디자인 많이 하잖아요.
- AI는 당신만큼만 똑똑하다.
- 🗞️ 클로드용 코덱스 플러그인 출시
- 개발자들이 흔히 묻습니다. 클로드코드 쓰는 것하고 오픈클로 쓰는게 뭐가 다른거죠?
- Q1 is over.
- "그야말로 1등 인생이었다. 전국에서 가장 똑똑한 아이들만 모인다는 대학에 입학해 졸업도 하기 전에 사법시험에 합격했다. 그해 최연소 합격자였다. 이후 국내 1등 로펌이라는 곳에 들어가 변호사로 일했다. 결혼도 하고
- 다시 PO의 시대가 오고있습니다
- 드라마 속 허구의 스타트업 기술이 구글에서 진짜로 등장했어요.
- 국내 AI 토큰 사용량 1위 찍기
- 승인 버튼 없이 알아서 실행한다 — Claude Code의 자율 제어 시대
- Seedance 2.0으로 영상 만드는 법
- 오픈AI, 흔들리는 챗GPT 독주 체제
- 🚨 STOP. DO NOT DEPLOY.
- https://lnkd.in/gHquQddk
- 미래에셋증권, ‘AI 리서치센터’ 출범하고 RA 없앤다
Threads
- AI 학습에 돈을 쓸 필요는 없습니다.
- 켄터키 82세 할머니가
- 오우.. 오픈AI가 앤트로픽의 AI 코딩 도구인 'Claude Code' 안에서 자사의 'Codex'를 바로 불러와 쓸 수 있는 플러그인을 직접 만들어 공개했습니다.
- 아 좀 세게 말했나...
- 웹이 갑자기 이상해졌다는 말까지 나오고 있습니다.
- "캐릭터 프사 + 유쾌한 말투로 글을 적으니까 사람들이 너를 쉽게 본다"
- [내가 앞으로 무료로 뿌릴 것들]
- 솔직히 더이상 아무것도 믿지 못할 것 같습니다.
- Pretext 사례가 고무적인 이유.
- 세계 전력 인프라(한국 포함)를 한눈에 돌려볼 수 있는 3D 지구본이 등장했습니다.
- 한 솔로 개발자(Tom Turney)가 Google의 TurboQuant 논문을 읽고 단 7일 만에 llama.cpp에 TurboQuant를 포팅하고 최적화함.
- 60분짜리 회의 녹음을 던졌더니, 누가 언제 뭘 말했는지 전부 정리해줬다.
- 최근유행하는 클로드 코드 × pretext 활용하기
- 클로드코드 대장 풀어주는 꿀팁이 돌아왔다.
- 지금까지 앱스토어에 50개 이상의 앱을 출시했습니다. 바이브코딩이든 경험있는 개발자든 첫 출시 때 앱스토어 리뷰에서 리젝될 확률이 상당히 높은데요. 저도 매번 사용하는 체크리스트 활용해 보세요.
- 깃허브 학생 인증을 받았습니다.
- 그냥 싹 다 공개합니다.
- 마이크로소프트가 제대로 일 하나 냈습니다.
- 맥북 이제 팔아도 될 것 같다
- Claude Code의 아버지 Boris가 오늘 숨겨진 기능 15개를 공개했다.
- 제 사진은 아니고 퍼온건데...
- 클로드코드가 코덱스보다 낳습니다
- AI 에이전트 3파전.
- ⌜서비스에서의 ontology 후기⌟
- 고급진 글래스모피즘 UI, 인터랙티브 애니메이션,
- 같은 Codex 맞냐구....
- 하네스 프롬프트 및 글로벌 룰의 재정립이라고 자부합니다
- Nous Research가 Hermes Agent v0.6.0 버전을 공개했습니다.
- 오픈클로를 집어삼키는 Hermes Agent 한 번 써보세요 🌟
- npm 쓰는 개발자, 오늘 바로 확인해야 함
- [오픈클로 AI 직원 6명 키우기 - 모바일 뷰]
- Y Combinator 26 배치 14개 스타트업이 데모데이 전에 이미 ARR 15억(1M) 달성했어.
- 미국에서 투자 받는 법 (YC 인터뷰 썰)
- Gstack이 낳나요
- Claude Code 토큰이 미친 듯이 빠지는 이유, 컨텍스트 관리 안 해서입니다.
- 클로드코드 계정 7개 사용하면서 느낀점
- Hermes Agent가 v0.6.0을 찍었습니다.
- 이런게 진정한 멋짐인 듯
- 코덱스 ㅋㅋㅋㅋ 개웃기네 ㅋㅋㅋㅋㅋ
- 세계 최초 자율형 AI 마케터 Helena를 소개했읍니다.
- 마케팅비 0원, 고객 47명
- 담당 비서 2명 키우는 중..
- Hermes Agent 도 좋은데, 이런 친구들 사용하면서 설정 지옥에 빠져본 1인으로써 강력하게 추천해봅니다. 라이트 유저들이시여, 설정 지옥에서 벗어나세요.
- Axios 사태에 대한 Omc OmX 대응
- 클로드 + 오픈클로 협업 시키기
- 요즘 회사 최고 복지
- 월 $130으로 마케팅팀을 대체한 사람이 있어요.
X
- Propaganda words work so well
- no words
- I wanted to share a bunch of my favorite hidden and under-utilized features in Claude Code. I'll focus on the ones I use
- Seedance 2.0: more amazing effects! 😱
- Solo dev reverse-engineered Google's billion-dollar algorithm in 7 days
- 📂 SaaS Stack
- New supply chain attack this time for npm axios, the most popular HTTP client library with 300M weekly downloads.
- This is the most complete Claude Code setup that exists right now.
- Introducing Helena: the world's first autonomous AI marketer.
- 🚀 Qwen3.5-Omni is here! Scaling up to a native omni-modal AGI.
- Making an app in electron to generate your own game assets,tiles,animations, inpainting and more.
- New in M365 Copilot: Council.
- Gemini vs Claude
- Giving away 5 Opencode Go subs
- Introducing http://core.so (oss apache 2.0)
- now lets bring this to life
- SS급 센티넬 팀장 ✖️ F급 가이드 유저
- acpx v0.4 ships Agentic Workflows, or as I like to call them "Agentic Graphs"
- How to design beautiful products with Claude or Codex
- Claude Code 2.1.88 has been released.
- 대한민국의 평균 IQ는 106입니다.
- System Design Playbook
- ⚡️ New on Lovart: Move Object
- JS is incredibly bloated. It's slowly destroying the web.
- Kep1er l 'KILLA (Face the other me)' M/V Teaser 2
- My thinking around how to best respond to AI has changed from, “Just get to the cutting edge of AI and ride that wave” t
- Claude Code and Cursor... but they improve themselves. Autonomously.
- 앞으로 수년간 UI 엔지니어링의 중요한 기초가 될 것 입니다!
- 🚨BREAKING: Perplexity Computer just replaced my $5,000/mo marketing stack.
- One of the BEST channels for System Design:
- 최대 할인 61%🔥
- What does it take to center a div using AI? 😂
- Think Together.
- ⚡ WARNING - Axios npm (83M weekly downloads) was compromised, turning installs into a malware delivery path.
- These Claude Code features literally boost your coding workflow🤯
- [3월 올영픽] 반복된 트러블* 고민엔? 🫠
- 𝟏. Full Website SEO Audit
원문 색인 — 뉴스 · 블로그 · 영상 · 논문
GeekNews / Hacker News / 기타 기사
- axios@1.14.1, axios@0.30.4 버전이 해킹당했습니다.
- 법률적 시각(Legal AI)에서 본 온톨로지(Ontology)의 개념
- Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트(Human in the...
- Show GN: 보수학당 사이트 개발 - 바이브 코딩으로 만듦
- 클로드 코워크로 테크 트렌드 키워드 수집 에이전트 빌드
- PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험
- Show GN: so-agentbar - Claude Code 세션, 상태를 메뉴바에서 모니터링하는 macOS 앱
- 라이트하우스 플레이북 - 스타트업을 위한 신뢰 기반 성장 전략
- Wikipedia, AI 글쓰기 전면 금지, 40대 2 표결의 배경
- AI에게 글쓰기를 맡기지 말라
- AI 버블은 어떻게 붕괴되는가
- 정부 앱 ‘Fedware’: 금지된 앱보다 더 강력한 감시 수행
- 필라델피아 법원, 스마트 안경 전면 금지 조치 발표
- 무엇이든 라우터로 만드는 방법
- Copilot이 내 Pull Request에 광고를 삽입했어요
- OpenAI의 Claude Code용 Codex 플러그인
- Shopify의 데이터 구조화 여정: One-Shot LLM에서 DSPy 기반 에이전틱 아키텍처로
- Claude Code의 숨겨진 강력한 기능들 15가지
- Claude Code가 프로젝트 저장소에 10분마다 Git reset --hard origin/main을 실행하는 문제
- AI 코딩 에이전트가 자유 소프트웨어를 다시 중요하게 만들 수 있음
- C++26 완성! — C++11 이후 최대 업그레이드, 리플렉션과 메모리 안전성 강화 공식 확정
- MacBook 키보드가 고장났는데 수리비가 터무니없이 비싸요
- 미루기는 시간 관리가 아니라 감정 조절의 문제입니다.
- 여성 클리토리스 신경망이 처음으로 완전하게 지도화됨
- Miasma: AI 웹 스크레이퍼를 끝없는 오염 루프로 가두는 도구
- Pretext: 멀티라인 텍스트 측정과 레이아웃을 위한 TypeScript 라이브러리
- Neovim 0.12.0
- 인지적 암흑의 숲
- AI 판사 도입시 디지털 변론주의의 확립: 프롬프트 합의 및 메타데이터 중립성 확보 방안
- Show GN: 안드로이드에서 원격 서버의 Claude Code / Codex CLI에 이미지 보내기 불편해서 redTerm을 만들었습니다
- ChatGPT는 Cloudflare가 React 상태를 읽을 때까지 입력을 차단함
- Show GN: Garu: 브라우저에서 돌아가는 1.7MB 한국어 형태소 분석기 (F1 95.3%, WASM)
- Pretext – DOM 없이 텍스트 높이를 측정하는 순수 JS 레이아웃 라이브러리
- 보이저 1호 - 69KB 메모리와 8트랙 테이프 레코더로 운용되는 인류 최장수 탐사선
- Google's 200M-parameter time-series foundation model with 16k context
- Sony halts memory card shipments due to NAND shortage
- GitHub backs down, kills Copilot pull-request ads after backlash
- Claude Code bug can silently 10-20x API costs
- Ollama is now powered by MLX on Apple Silicon in preview
- Safeguarding cryptocurrency by disclosing quantum vulnerabilities responsibly
- Axios compromised on NPM – Malicious versions drop remote access trojan
- Mr. Chatterbox is a Victorian-era ethically trained model
- Artemis II is not safe to fly
- Incident March 30th, 2026 – Accidental CDN Caching
- Universal Claude.md – cut Claude output tokens
- Show HN: I turned a sketch into a 3D-print pegboard for my kid with an AI agent
- A Nursing Home Owner Got a Pardon. The Families of His Patients Got Nothing
- Android Developer Verification
- Learn Claude Code by doing, not reading
- Zelensky says allies asked him to scale back attacks on Russian energy
- America Is Now a Rogue Superpower
- A second Starlink satellite exploded in orbit
YouTube
- Tesla and SpaceX Alumni on Elon Musk, Decision Velocity, and the Future of Hard Tech | a16z
- Inside The $100M Bet on the Future of Space | Northwood CEO on a16z
- "그냥 엔비디아 사시면 됩니다"
- 1인 유니콘 시대를 대비한 스타트업 고전 20분 만에 다시 읽기 | 블리츠스케일링 공동저자
- I Built 500 AI Workflows, These 5 Actually Sell in 2026
- Codex Just 10x’d Claude Code Projects
- 안두릴 뭐 만드는 회사?
- Transformers.js v4: State-of-the-art machine learning for the web
- LangChain Academy New Course: Monitoring Production Agents
Hugging Face Papers
- Emergent Social Intelligence Risks in Generative Multi-Agent Systems
- MOOZY: A Patient-First Foundation Model for Computational Pathology
- RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation
- On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
- ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks
- MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences
- Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?
- GEditBench v2: A Human-Aligned Benchmark for General Image Editing
- MolmoPoint: Better Pointing for VLMs with Grounding Tokens
- Composer 2 Technical Report
- On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers
- GenMask: Adapting DiT for Segmentation via Direct Mask
- Natural-Language Agent Harnesses
- Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling
- PRBench: End-to-end Paper Reproduction in Physics Research
- Story2Proposal: A Scaffold for Structured Scientific Paper Writing
- Towards a Medical AI Scientist
- Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
- DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing
- Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design
- Make Geometry Matter for Spatial Reasoning
- EpochX: Building the Infrastructure for an Emergent Agent Civilization
- HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
- Learning to Commit: Generating Organic Pull Requests via Online Repository Memory
- Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio
arXiv Papers
- From Simulation to Deep Learning: Survey on Network Performance Modeling Approaches
- MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
- Next-Token Prediction and Regret Minimization
- MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome
- Courtroom-Style Multi-Agent Debate with Progressive RAG and Role-Switching for Controversial Claim Verification
- Detecting low left ventricular ejection fraction from ECG using an interpretable and scalable predictor-driven framework
- The Ultimate Tutorial for AI-driven Scale Development in Generative Psychometrics: Releasing AIGENIE from its Bottle
- Information-Theoretic Limits of Safety Verification for Self-Improving Systems
- The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation
- TGIF2: Extended Text-Guided Inpainting Forgery Dataset & Benchmark
- Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models
- KGroups: A Versatile Univariate Max-Relevance Min-Redundancy Feature Selection Algorithm for High-dimensional Biological Data
- CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments
- Spectral Higher-Order Neural Networks
- CiQi-Agent: Aligning Vision, Tools and Aesthetics in Multimodal Agent for Cultural Reasoning on Chinese Porcelains
- Stepwise Credit Assignment for GRPO on Flow-Matching Models
- Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds
- Entropic Claim Resolution: Uncertainty-Driven Evidence Selection for RAG
- On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers
- Learning unified control of internal spin squeezing in atomic qudits for magnetometry
- Trust-Aware Routing for Distributed Generative AI Inference at the Edge
- RAD-LAD: Rule and Language Grounded Autonomous Driving in Real-Time
- Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering
- FeDMRA: Federated Incremental Learning with Dynamic Memory Replay Allocation
- Towards a Medical AI Scientist
- Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems
- GeoHCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting
- Learning Partial Action Replacement in Offline MARL
- Moving Beyond Review: Applying Language Models to Planning and Translation in Reflection
- MRI-to-CT synthesis using drifting models
- Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model
- AMIGO: Agentic Multi-Image Grounding Oracle Benchmark
- Dynamic Lookahead Distance via Reinforcement Learning-Based Pure Pursuit for Autonomous Racing
- RAD-AI: Rethinking Architecture Documentation for AI-Augmented Ecosystems
- SAGAI-MID: A Generative AI-Driven Middleware for Dynamic Runtime Interoperability
- Dynamic Dual-Granularity Skill Bank for Agentic RL
- HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
- ParaSpeechCLAP: A Dual-Encoder Speech-Text Model for Rich Stylistic Language-Audio Pretraining
- T-Norm Operators for EU AI Act Compliance Classification: An Empirical Comparison of Lukasiewicz, Product, and Gödel Semantics in a Neuro-Symbolic Reasoning System
- EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation
- Domain-Invariant Prompt Learning for Vision-Language Models
- Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning
- The Unreasonable Effectiveness of Scaling Laws in AI
- Detection of Adversarial Attacks in Robotic Perception
- AceleradorSNN: A Neuromorphic Cognitive System Integrating Spiking Neural Networks and DynamicImage Signal Processing on FPGA
교차 분석
오늘의 자료를 한 문장으로 요약하면 이렇다. AI 시스템의 가치가 모델 자체에서 하네스·검증·인프라·정책으로 이동하고 있다.
첫째, Claude Code/Codex 플러그인과 각종 agent workflow 도구는 “최고 모델 하나”보다 “여러 모델과 도구를 어떻게 엮는가”가 더 중요해졌음을 보여준다. 같은 날 Natural-Language Agent Harnesses, Composer 2, CirrusBench, LangSmith 모니터링 강의가 함께 나온 것은 우연이 아니다. 실행 단계가 길어질수록, 모델 품질보다 프로세스 설계가 더 큰 차이를 만든다.
둘째, 보안·거버넌스 이슈는 주변부가 아니라 중심부로 들어왔다. axios 공급망 침해와 Railway 캐싱 사고는 전통 소프트웨어 사고이고, MonitorBench·Safety Verification·EU AI Act·AI 판사 논문은 AI 특유의 사고다. 두 종류의 위험이 이제 한 운영 체계 안에서 동시에 관리되어야 한다.
셋째, 멀티모달은 더 이상 “이미지 생성이 된다”는 수준에서 끝나지 않는다. PDF RAG 실험, RealChart2Code, MolmoPoint, ImagenWorld, GEditBench v2, The Scaffold Effect는 모두 모델이 진짜로 시각 정보를 이해했는지를 묻는다. 멀티모달의 경쟁력은 성능 숫자와 함께 평가 설계 품질로 이동했다.
넷째, 소프트웨어 자동화가 깊어질수록 하드웨어와 물리 인프라의 제약이 더 선명해진다. Sony NAND shortage, Northwood 지상국, Anduril 생산, Voyager/Artemis/Starlink, 그리고 NVIDIA의 장기 투자 논리는 같은 사실을 말한다. 코드 생산성은 빨라졌지만, 에너지·메모리·제조·공급망은 여전히 느리다.
마지막으로, 오늘의 글들은 AI가 사고를 대신해 주는 것이 아니라 사고를 강제하는 인터페이스와 검증 구조를 다시 설계하게 만든다는 점을 보여준다. Wikipedia의 LLM 금지, “AI에게 글쓰기를 맡기지 말라”, 법률 온톨로지와 절차적 정당성 논의가 AI 코딩 도구 폭증과 같은 날 나왔다는 사실이 그 증거다. 자동화가 넓어질수록, 사람이 책임져야 하는 설명과 검증은 오히려 더 커진다.
Powered by skim