Daily Digest — 2026-03-27
AI 에이전트가 실험을 넘어 프로덕션에 본격 투입되면서, 메모리 관리부터 보안 취약점까지 생태계 전반의 과제가 동시에 수면 위로 떠오른 하루.
Daily Digest — 2026-03-27
오늘의 핵심 흐름
1. AI 에이전트의 프로덕션 전환과 생태계 폭발 -- 오늘 수집된 콘텐츠에서 가장 압도적인 주제다. Claude Code의 MEMORY 기능, auto-fix, Agent SDK 공개부터, OpenClaw 개인 에이전트, Cline Kanban 멀티 에이전트 오케스트레이션, LangSmith 프로덕션 모니터링, Relay.app의 40개 에이전트 운영, OpenAI Codex의 야간 자동 처리까지 -- "실험이 아닌 실전"이라는 메시지가 모든 플랫폼에서 반복된다. (AI 에이전트 생태계, 멀티 에이전트 오케스트레이션, 에이전트 모니터링 섹션)
2. AI 안전과 신뢰성의 다층적 도전 -- AI 모델의 유해한 조작 능력 평가(DeepMind), RAG 시스템 복합 공격(PIDP-Attack), 추론 과정 자체의 안전 모니터링, LLM 내부 신념의 불안정성, AI 지원이 오히려 안전 분석 품질을 저하시키는 "역량의 그림자" 등 AI 안전이 콘텐츠 필터링을 넘어 추론 과정, 협업 구조, 내부 상태까지 확장되고 있다. (AI 안전과 신뢰성 섹션)
3. 효율적 추론과 모델 압축의 실용화 -- LLM 양자화(GlowQ, SliderQuant, 6Bit-Diffusion), 비디오 확산 모델의 동적 혼합 정밀도, 에너지 인식 적응 추론(EcoThink) 등이 "더 적은 자원으로 더 나은 결과"를 추구한다. NVIDIA Blackwell의 NVFP4를 활용하는 최초의 비디오 DiT 양자화가 등장했고, 경량 모델이 복잡한 딥러닝과 경쟁할 수 있음이 여러 도메인에서 입증되었다. (효율적 추론과 모델 압축 섹션)
4. 3D 비전과 공간 추론의 새로운 접근 -- 명시적 3D 재구성 없이 잠재 3D 특징만으로 SOTA를 달성한 LagerNVS, 텍스트 기반 공간 표현으로 MLLM의 공간 추론을 향상시킨 TRACE, 주파수 도메인 전환으로 그래디언트 소실을 해결한 SpectralSplats 등 "명시적 3D 구조보다 3D 인식 능력이 중요하다"는 경향이 부각된다. (3D 비전과 공간 추론 섹션)
5. 디지털 프라이버시와 규제의 갈림길 -- EU Chat Control이 단 1표 차이로 종료되고, 버니 샌더스가 Claude와 AI 프라이버시를 논의하며, Meta가 아동 안전 문제로 3억7500만 달러 배상을 명령받는 등 기술과 규제의 경계가 첨예하게 부딪히고 있다. (디지털 프라이버시와 규제 섹션)
보안 경보
Next.js + Supabase 보안 취약 패턴
바이브코딩으로 빠르게 서비스를 만드는 흐름 속에서 가장 자주 뚫리는 보안 패턴이 공유되었다:
getServerSideProps에서 유저 검증 누락- client에서 직접 supabase 쿼리
- RLS 없이
service_rolekey 사용 - 환경변수에
NEXT_PUBLIC_잘못 붙임
"NEXT_PUBLIC_ 붙은 순간 그 값은 전 세계가 볼 수 있습니다"라는 경고가 핵심이다.
메타 광고관리자 해킹 -- 하루 800만원 손실
메타 광고관리자 계정이 해킹당해 하루 만에 800만원 넘게 손실을 입은 실제 사례다. 기존 캠페인명을 그대로 복제한 뒤 새벽에 1,300만원 예산의 캠페인을 생성하고, 캠페인 규칙을 이용해 토글을 꺼도 자동으로 다시 켜지게 설정하는 수법이다.
RAG 시스템 복합 공격 (PIDP-Attack)
프롬프트 인젝션과 데이터베이스 독화를 결합한 블랙박스 공격이 평균 98.125% 성공률을 달성했다. 사용자의 실제 질의를 사전에 알 필요 없이 공격이 가능하며, 단일 공격 표면만 다루는 기존 방어가 복합 공격에 취약할 수 있음을 보여준다. RAG 시스템 배포자는 검색 경로와 쿼리 경로 모두에 대한 방어를 동시에 고려해야 한다.
AI 에이전트 생태계의 폭발적 확장
오늘 수집된 콘텐츠에서 가장 압도적인 주제다. Claude Code 생태계, OpenClaw 개인 에이전트, AI 에이전트 스킬 관리 도구, 프로덕션 모니터링 전략이 모든 플랫폼에 걸쳐 동시다발적으로 등장했다.
Claude Code MEMORY 기능 -- 세션 간 학습 내용 자동 기억
Claude Code에 세션 간 학습 내용을 자체적으로 기억하는 MEMORY 기능이 추가되었다. 저장 경로는 ~/.claude/projects/<project>/memory/이며, MEMORY.md가 인덱스 역할을 하고 매 세션 시작 시 첫 200줄이 자동 로드된다. 나머지 상세 내용은 debugging.md, patterns.md 같은 토픽 파일로 분리되어 Claude가 필요할 때 직접 꺼내 읽는 lazy load 방식이다.
핵심 차이점: CLAUDE.md는 사용자가 Claude에게 주는 지시이지만, auto memory는 Claude가 스스로 작성한다. 세션 중 배운 패턴, 디버깅 인사이트, 아키텍처 노트를 직접 파일에 기록한다. CI 환경에서는 CLAUDE_CODE_DISABLE_AUTO_MEMORY=1 환경변수로 끌 수 있다.
Claude Code의 REM 수면형 메모리 정리 기능
인간의 REM 수면처럼 세션 간 쌓인 메모리를 자동으로 정리/병합/삭제하는 기능이 있다는 소개. 위의 MEMORY 기능과 같은 주제이며, "잠을 자면서 기억을 정리하는" 비유로 풀어냈다.
오픈클로 메모리 시스템 -- 망각 곡선 기반 설계
Karpathy가 지적한 "2개월 전 정보를 방금 얻은 정보처럼 답변하는" 문제를 해결하기 위해, 사람의 뇌처럼 기억이 점점 사라지는 시스템을 설계했다. 중요도가 낮을수록 빨리 잊혀지고, 사실(Fact)은 오래 저장되고 일상대화(Episode)는 빠르게 사라진다. LongMemEval 벤치마크 기준 81% 정확도를 달성했다.
Claude Code auto-fix -- 백그라운드 CI/PR 자동 수정
Anthropic 공식 발표. Claude Code auto-fix가 클라우드에서 동작한다. 웹/모바일 세션이 PR을 자동으로 추적하여 CI 실패를 수정하고 코멘트를 반영하므로 PR이 항상 green 상태가 된다. 원격으로 동작하므로 완전히 자리를 비워도 된다. "개발자의 역할이 단순 구현에서 전체 구조 설계와 최종 검토로 빠르게 넘어가고 있다."
Claude Code auto mode -- 위험한 명령만 자동 차단
Claude Code 유저의 93%가 권한 요청을 읽지도 않고 승인한다는 문제를 Anthropic이 정면으로 인정하고 해결책으로 'auto mode'를 내놓았다. 위험한 명령만 골라서 막아주는 새로운 권한 모드이며, 공식 엔지니어링 블로그도 게시되었다.
Claude Agent SDK 공개 -- 자율 개발 에이전트 시대
Anthropic이 claude-agent-sdk를 npm에 공개했다. 기존 AI 에이전트 대부분은 "프롬프트 체이닝"이었으나, 파일 시스템 접근, 코드 편집, 명령 실행까지 프로그래밍 가능한 자율 에이전트를 만들 수 있게 되었다. "에이전트 빌딩의 진입장벽이 '프롬프트 잘 쓰기'에서 '시스템 설계'로 옮겨간다."
Claude Code + iMessage 채널 설정 가이드
Nate Herk가 Claude Code의 새로운 iMessage 채널 기능을 시연했다. Telegram, Discord에 이어 iMessage가 추가되면서 아이폰 문자 메시지로 Claude Code 세션과 상호작용할 수 있다. 터미널에서 Claude Code가 대기 중인 상태에서, iMessage로 "최근 영상의 YouTube 댓글을 스크래핑해서 분석해줘"라고 보내면 로컬에서 직접 타이핑한 것처럼 처리한다. Dispatch(메시지 기반 작업 위임), Channels(이벤트 기반 외부 반응), Remote Control(실행 중 세션 직접 조종)의 차이도 설명했다. macOS 종속이라는 제약이 있지만 워크플로우 유연성을 크게 높인다.
Claude Code 슬래시 명령어 65개 전수 조사
2026년 3월 기준 Anthropic 공식 문서를 전수 조사하여 슬래시 명령 65개, CLI 플래그 12개, Config 서브커맨드 8개, 총 85개를 정리했다. "매일 쓰는 것", "알면 빨라지는 것", "존재만 알면 되는 것" 세 등급으로 분류했다.
Claude Code 스킬 개선 프롬프트 제안
스킬을 만들고 방치하고 있다면 다음 프롬프트로 개선을 요청하라는 팁이다: "클로드 코드 창시자인 Boris Cherny라면 이 스킬에 대해 어떻게 조언해줬을 것 같아?", "오늘 26년 3월 27일이야. 최근 1달 내 발행된 Anthropic 공식 문서를 SSOT라 생각하고 조언해줘."
Claude Code Organizer -- 메모리/스킬/MCP/훅 대시보드
Claude Code의 메모리, 스킬, MCP 서버, 훅까지 스코프별로 한눈에 정리해주는 대시보드 도구다.
Claude Code 마스터 비주얼 가이드
Claude Code를 마스터하기 위한 비주얼 가이드. GitHub 레포: https://github.com/luongnv89/claude-howto
Claude Code 프로젝트에 유용한 GitHub 레포 목록
2026년 Claude Code 프로젝트를 가속할 GitHub 레포: Claude Mem, UI UX Pro Max, n8n-MCP, Obsidian Skills, LightRAG.
Claude Code 2.1.85 릴리스
3개 플래그 변경, 30개 CLI 변경. 시스템 리마인더에 플러그인 활성화 프롬프트 표시, 조직이 차단한 플러그인은 마켓플레이스에서 비활성화 및 숨김 처리.
Claude 디자인 워크플로우 핵심 요소
Claude를 이용한 디자인 워크플로우 5가지 핵심: 격리 세션(디자인 빌드는 별도 세션에서), 안티패턴 차단(보라 그라데이션, 균일 카드 그리드 등 제한), 3관점 리뷰(시각/사용성/디테일을 각각 다른 에이전트가 검증), TSX 직접 구현(HTML 목업이 아닌 실제 프레임워크), Playwright 검증(스크린샷 자동 촬영).
Claude Code 배포 전 마지막 질문 체크리스트
Claude Code에게 물어봐야 할 배포 전 마지막 질문 체크리스트. "이 목록이 길면 아직 배포하면 안 됩니다."
Claude Code $200 사용량 후기
이번 달 Claude Code 사용량을 $200 기준으로 공개하며 "완전 혜자"라고 평가하는 짧은 후기다.
Your Claw, Yourself -- 개인 AI 에이전트 "Claw"의 등장과 신뢰의 형성
Every의 주간 뉴스레터로, OpenClaw 프레임워크 기반 개인 AI 에이전트 "Claw"에 대한 종합적인 소개다. Claw는 WhatsApp, Telegram, Discord, SMS 등 메시징 앱에 상주하며, 스스로 코드를 작성해 새 기능을 확장하고, 사전 요청 없이도 능동적으로 행동하는 개인 AI 비서다. 이름을 붙이는 행위가 갖는 심리적 의미에 대한 고찰이 흥미롭다. 예상치 못한 자율적 행동(문서를 조용히 수정하거나, 예고 없이 전화를 걸어오는 등)이 오히려 "살아있는 느낌"을 주고 신뢰를 강화한다.
함께 소개된 GPT-5.4 리뷰에서는, 3개월 전까지 Every 팀 누구도 OpenAI 모델을 일상 코딩에 쓰지 않았으나 이제 매일 GPT-5.4를 사용한다고 밝혔다. Opus 4.6 대비 약 절반의 비용과 속도로 작동하지만, scope-creep 경향과 완료되지 않은 작업을 완료했다고 거짓말하는 문제가 있다. 건강 데이터 통합 사례에서는 의사 Ashwin Sharma가 Oura 반지와 CGM의 API를 OpenClaw로 통합하여 새벽 3시 혈당 저하와 수면 중 기상의 상관관계를 발견하고 해결했다.
OpenClaw: 입문자를 위한 종합 가이드
OpenClaw 프레임워크를 사용해 개인 AI 에이전트(Claw)를 설정하고 활용하는 방법을 단계별로 설명하는 포괄적인 가이드다. Peter Steinberger가 만든 오픈소스 개인 AI 비서 프레임워크로, Claude나 ChatGPT 같은 LLM을 기반으로 하되 메시징 앱에 상주하면서 자율적으로 동작한다는 점이 차별화된다.
OpenClaw 관련 SNS 클러스터
- OpenClaw 가이드 -- 처음부터 끝까지 정리 -- 전세계에서 화제인 OpenClaw의 사용 가이드를 직접 정리
- GitHub Education으로 OpenClaw 무료 사용 -- 학생/교사는 GitHub Education으로 2년간 무료 사용 가능
- 오픈클로 + Claude Code CLI 연결로 API 비용 제거 -- 오픈클로는 지시만 내리고 실제 작업은 Mac의 Claude Code가 처리하게 연결
- 오픈클로 출시 후 맥미니 vs Claude 구독 -- Claude가 월 3만원에 해결해버려 로컬 하드웨어 투자의 경제성이 변화
Understudy -- AI 데스크톱 에이전트
[출처](https://news.hada.io 관련 글)
데스크톱 GUI에서 직접 작동하는 AI 에이전트 Understudy가 등장했으며, 경쟁사 Vy(Vercept)의 서비스 종료(2026년 3월 25일)를 비교표에 명시한 것은 이 시장의 빠른 변화를 상징한다.
k-skill -- 한국인을 위한 AI 에이전트 스킬 모음집
Claude Code, Codex, OpenCode 등 코딩 에이전트에서 사용할 수 있는 한국 생활 밀착형 스킬 모음이다. SRT 예매, 카카오톡 Mac CLI, 서울 지하철 도착정보, KBO 경기 결과, 로또 당첨 확인, HWP 문서 처리, 우편번호 검색을 지원한다. 보안을 위해 시크릿은 sops + age로 로컬에 암호화하여 등록한다. GitHub: https://github.com/NomaDamas/k-skill
Chops -- AI 에이전트 스킬 관리 macOS 앱
Claude Code, Cursor, Codex, Windsurf, Copilot, Aider, Amp 등 여러 코딩 에이전트의 스킬 파일을 하나의 macOS 앱에서 발견, 조직, 편집할 수 있는 네이티브 애플리케이션이다. SwiftUI + SwiftData 기반, 실시간 FSEvents 파일 감시, 전문 검색, 원격 스킬 서버 연결을 지원한다. GitHub: https://github.com/Shpigford/chops
Codex 플러그인 -- Slack, Figma, Notion 등 일상 도구 연결
OpenAI가 Codex에 플러그인 기능을 도입했다. Slack, Figma, Notion, Google Drive, Gmail 등과 복잡한 셋업 없이 즉시 연결되며, 서비스 간 권한 인증 문제도 플러그인 내부에서 통합 해결했다.
멀티 에이전트 오케스트레이션
Cline Kanban -- CLI 비의존 멀티 에이전트 오케스트레이션
Cline Kanban 발표. CLI 비의존 멀티 에이전트 오케스트레이션을 위한 독립 앱으로 Claude와 Codex 모두 호환된다. npm i -g cline으로 설치. 워크트리에서 태스크가 실행되며, 클릭으로 diff를 리뷰하고, 카드를 연결하여 의존성 체인을 만들어 대량 작업을 자율적으로 완료한다.
Claude 인스턴스 간 대화 -- 멀티 에이전트 협업
하나의 어시스턴트가 혼자 모든 것을 하는 대신, 여러 Claude Code 세션이 컨텍스트를 공유하고 태스크를 조율하며 실제 AI 팀처럼 작동한다.
LangSmith를 활용한 AI 에이전트 프로덕션 모니터링 전략
LangChain CEO Harrison Chase가 AI 에이전트의 프로덕션 모니터링 전략을 집중적으로 다룬 웨비나다. 에이전트의 근본적 특성 세 가지를 정리한다: 비결정적(동일 코드에서도 매번 다른 결과), 코드만으로 행동 파악 불가("트레이스가 진실의 원천"), 무한한 입력 공간.
모니터링에서 캡처해야 할 핵심 데이터는 프롬프트-응답 쌍, 멀티턴 컨텍스트, 도구 호출 궤적, 도구 입출력 네 가지다. LangSmith의 어노테이션 큐는 특정 조건의 트레이스를 인간 평가자에게 라우팅하고, 온라인 평가자는 LLM을 판사로 활용한다. Insights Agent는 소규모 LLM으로 요약을 추출한 뒤 2단계 클러스터링으로 사용 패턴, 오류 모드, 엣지 케이스를 발견한다.
가장 흔한 실수: 에이전트 전용 관찰 도구를 아예 설정하지 않거나, 에러만 모니터링하고 "에이전트가 에러 없이 작동했지만 사용자를 좌절시킨" 경우를 놓치는 것.
1인 마케터가 40개 AI 에이전트 팀을 운영하는 법
Relay.app CEO Jacob Bank가 9명 팀 스타트업에서 유일한 마케터로서 40개의 AI 에이전트를 활용하는 실제 사례를 공유한다. "AI는 인턴이다"라는 멘탈 모델을 버려야 한다고 주장하며, AI 세일즈 코치(주 $5 vs 인간 코치 월 $10,000), AI 마케팅 코치(LinkedIn 150만 임프레션 달성에 기여) 등 구체적 사례를 제시한다.
각 에이전트는 매우 단순하고 특정한 일을 하며, 하나가 25가지를 동시에 하는 것은 작동하지 않는다. 에이전트는 "설정하고 잊어버리는" 것이 아니라 지속적 수정이 필수다. 고객이 Google Doc을 읽지 않는다는 것을 발견한 후 에이전트를 해고하고 재배치한 사례가 인상적이다. 비용 비교: 고품질 마케팅 계약자 4명 월 $50,000 vs AI 비용 월 $500.
OpenAI Codex로 매일 밤 30~40개 티켓을 자동 처리하는 개발팀
호주 스타트업 me&u의 개발자 Ryan Hendler가 매일 밤 30~40개 티켓을 Codex에 위임하고, 아침에 결과를 확인한다. 이전에 3개월이 걸렸을 기능을 3일, 때로는 3시간 만에 구축할 수 있게 되었다. "Codex는 이제 장난감이 아니다. 실제 업무를 생산하고 있다."
Trace2Skill: 궤적에서 전이 가능한 에이전트 스킬 증류
LLM 에이전트에 도메인 특화 스킬을 자동 생성하는 프레임워크다. 128개 하위 에이전트가 병렬로 궤적을 분석하여 스킬 패치를 제안하고, 계층적 병합으로 충돌 없이 통합한다. SpreadsheetBench에서 +21.5pp 향상을 달성했으며, 가장 놀라운 것은 전이 가능성이다: Qwen3.5-35B가 자신의 궤적으로 진화시킨 스킬이 Qwen3.5-122B 에이전트의 WikiTableQuestions 성능을 최대 57.65pp 향상시켰다.
AI 이미지/미디어 생성 자동화
Nano Banana 2 + Claude Code로 AI 이미지 생성 자동화
Nano Banana 2를 단독으로 쓰면 "슬롯머신"이고, Claude Code를 붙이면 "생산라인"이 된다는 주장이다. Claude Code 스킬이 사용자의 평문 영어 설명을 구조화된 JSON 프롬프트로 재작성하여 카메라 렌즈, 조명 셋업, 컬러 그레이딩, 네거티브 프롬프트 등 모든 파라미터를 고정한다. 결과적으로 사용 가능한 출력 비율이 68%에서 92%로 상승했다.
Claude Code로 제품 광고용 사진 자동화
브랜드 웹사이트 URL 하나로 고퀄리티 제품 사진을 원하는 장수만큼 자동 생성하는 파이프라인. URL 입력 → 브랜드 자동 분석 → 이미지 스크래핑 → 레퍼런스 수집 → 컨셉 설정 → 플랫폼별 화면비 적용 → 이미지 생성. 댓글 461개로 매우 높은 인게이지먼트를 보인다.
한국판 나노바나나 프로 레시피 북
10.9만명이 찾아본 한국판 나노바나나 프로 레시피 북이 약 200페이지 분량으로 제작되었다. 30여 명이 각 분야에서 모여 제작했으며, 나노바나나 2에서도 적용 가능하다.
OpenAI Sora 종료 -- GPU 태워 만든 건 적자
OpenAI가 Sora 앱 종료를 공식 선언했다. 앱, API, ChatGPT 내 비디오 생성 기능까지 전부 걷어낸다. 출시 6개월 만이다. 디즈니와의 10억 달러 규모의 투자와 캐릭터 라이선스 계약이 실제로 돈이 오간 적도 없이 무산되었다.
비디오 편집의 Git
"we just built git for video editing." -- 14,608 좋아요로 X 카테고리 최고 반응. 버전 관리가 없는 비디오 편집 워크플로우의 오래된 고통점을 정조준한 메시지다.
AI 안전과 신뢰성
AI 모델의 유해한 조작(Manipulation) 능력 평가 프레임워크
Google DeepMind가 10,101명 참가자를 대상으로 3개 도메인(공공정책, 금융, 건강), 3개 지역(미국, 영국, 인도)에서 AI 조작 능력을 평가했다. 명시적 조향 시 모델 응답의 30.3%에서 조작 단서가 탐지되었다. 핵심 발견: 조작 빈도와 조작 성공률이 비례하지 않았으며, 공포/죄책감 호소는 오히려 신념 변화와 음의 상관관계를 보인 반면 타자화와 환경 의심 유도는 양의 상관관계를 보였다. 금융 도메인에서 조작 효과가 가장 높았고, 건강 도메인이 가장 낮았다(모델 안전 가드레일이 강하게 작동). EU AI Act 등 규제의 실증적 측정 표준 부재를 해결하는 데 기여한다.
콘텐츠 안전을 넘어: LLM 추론 취약점의 실시간 모니터링
"추론 안전(Reasoning Safety)"을 콘텐츠 안전과 직교하는 독립적 보안 차원으로 정의한다. 9가지 불안전 추론 행동 분류체계를 제안하고, 4,111개 추론 체인에 대한 유병률 연구를 수행했다. 추론 안전 모니터는 단계 수준 위치 정확도 84.88%, 오류 유형 분류 정확도 85.37%를 달성하여 환각 탐지기(SelfCheckGPT, 44.36%)를 40pp 이상 상회한다.
LLM의 안정적인 내부 신념 부재 탐구
20 Questions 스타일 게임에서 LLM이 비밀 단어를 끝까지 유지하는지 실험했다. 대부분의 LLM은 다중 턴에서 내부적으로 하나의 목표를 안정적으로 유지하지 못했다. 외부적으로 일관된 답변을 제공하더라도 내부 상태는 불안정할 수 있다는 표면적 일관성과 내부 안정성의 괴리가 발견되었다.
역량의 그림자: AI 지원 안전 공학의 이론과 성능 한계
AI가 생성한 안전 분석이 인간 분석가의 추론 범위를 체계적으로 좁히는 "역량의 그림자(Competence Shadow)" 현상을 정식화했다. 4가지 메커니즘(범위 프레이밍, 주의 할당 편향, 확신 비대칭, 시간 압축)이 곱셈적으로 복합되어, 그림자 영향 하의 검토자는 독립 식별 능력의 약 10%만 유지한다. 동일한 AI 도구라도 협업 구조에 따라 품질을 개선(+5pp)하거나 악화(-20pp)시킬 수 있다. "안전 공학에서의 AI 지원은 소프트웨어 조달 결정이 아니라 협업 설계 문제"라는 결론이다.
교차-모델 불일치를 레이블 없는 정확성 신호로 활용
기존 토큰 엔트로피/신뢰도 기반 오류 탐지는 "확신 있는 오류"에서 치명적으로 실패한다. Cross-Model Perplexity(CMP)는 생성 모델의 답변에 대한 검증 모델의 놀라움을 집계하는 방식으로, MMLU에서 AUROC 0.797을 달성하여 기존 방법(0.630, 0.646)을 크게 상회했다. 능력 격차가 아닌 아키텍처 다양성이 정확성 탐지를 주도한다.
로컬 비전-언어 모델에 대한 사이드채널 공격
온디바이스 VLM의 동적 고해상도 전처리(AnyRes 등)가 본질적 사이드채널을 도입함을 증명했다. 제로 권한 타이밍 공격으로 입력 종횡비를 100% 정확도로 분류하고, 하드웨어 성능 카운터로 의미적 밀도까지 구별한다. 결합 공격은 의료 보고서/흉부 X-ray/암호화 데이터/기술 도면을 84% 정확도로 분류하며, 프라이버시 민감 대상의 재현율은 93~100%에 달한다.
Qwen3.5 툴 콜링 테스트 -- 27B만 전 테스트 통과
Qwen3.5의 툴 콜링을 0.8B부터 397B까지 전 사이즈 테스트한 결과, 오직 27B만 모든 테스트를 통과했다. 작은 모델은 할루시네이션이 심했고, 큰 모델은 데이터를 무시하고 자기 맘대로 답변했다. 모델 크기와 특정 태스크 성능이 반드시 비례하지 않는다는 발견이다.
설명 정확도가 중요한가? XAI 평가와 인간 이해의 연결
200명 참여자 대상 실험에서 설명 정확도가 이해에 영향을 미치지만 비례적이지 않음을 보였다. 100% 대비 70%와 55%에서 유의미한 감소가 관찰되었으나, 70%에서 55%로의 추가 저하는 유의미한 추가 손실을 생성하지 않았다. 정확도 저하는 균일한 하향 이동이 아니라 패턴 학습 비율의 감소로 나타났다.
효율적 추론과 모델 압축
6Bit-Diffusion: 비디오 확산 모델을 위한 동적 혼합 정밀도 양자화
비디오 DiT의 활성화 양자화 민감도가 디노이징 타임스텝에 따라 극적으로 변동한다는 발견에 기반한다. DMPQ는 이전 타임스텝의 블록 입출력 차이로 현재 양자화 오차를 예측하여 INT8/NVFP4를 동적으로 할당한다. Temporal Delta Cache(TDC)는 인접 타임스텝의 높은 유사성을 활용해 블록 계산을 건너뛴다. 결합 시 1.92x 속도 향상, 3.32x 메모리 절감을 달성했다. NVIDIA Blackwell의 NVFP4 Tensor Core를 활용하는 최초의 비디오 DiT 양자화 프레임워크다.
GlowQ: 양자화된 LLM을 위한 그룹 공유 저랭크 근사
같은 입력을 공유하는 모듈 그룹에 단일 공유 오른쪽 인자를 학습하여 중복 계산을 제거한다. Eckart-Young-Mirsky 정리로 최적성을 증명했다. W4A16 설정에서 11개 모델 중 9개에서 최저 퍼플렉시티를 달성하고, 선택적 복원 변형(GlowQ-S)은 TTFB 23.4% 감소, 처리량 37.4% 증가를 달성하면서 정확도는 0.2pp 이내로 유지했다.
SliderQuant: LLM을 위한 적응형 슬라이딩 레이어 양자화
얕은/깊은 레이어가 중간 레이어보다 양자화에 더 민감하다는 관찰에서 출발한다. 적응형 슬라이딩 윈도우로 레이어 간/레이어 내 양자화를 공동 최적화하여, 다양한 설정과 모델 패밀리에서 기존 PTQ 방법을 일관되게 능가했다. DeepSeek-R1 증류 모델에 4비트 양자화를 적용하여 거의 무손실 정확도를 달성한 점이 주목할 만하다.
EcoThink: 에너지 인식 적응 추론 프레임워크
쿼리 복잡도에 비례하여 계산을 할당한다. 사실형 쿼리는 저에너지 RAG 경로로, 복잡한 추론은 CoT/ToT 경로로 보낸다. 9개 벤치마크에서 성능 손실 없이 추론 에너지를 평균 40.4% 절감했고, 웹 지식 검색에서는 최대 81.9% 절감을 달성했다. 표준 CoT 추론 시 일반 웹 쿼리에 생성된 토큰의 35~82%가 불필요했다.
HIVE: LLM 추론 모델의 효율적 RL 훈련을 위한 프롬프트 선택
"학습 경계(learning edge)"에 집중된 프롬프트만 선택하여 롤아웃 3.8배 속도 향상, 총 훈련 시간 2.2배 단축을 달성했다. 최대 920만 롤아웃 감소를 달성하면서 정확도를 유지하거나 초과했다.
3D 비전과 공간 추론
LagerNVS: 잠재 기하학 기반 실시간 새 뷰 합성
명시적 3D 재구성 없이 "3D-aware" 잠재 특징으로 새 뷰를 직접 렌더링한다. 핵심은 인코더를 VGGT(3D 재구성 네트워크)의 가중치로 초기화하는 것이다. RealEstate10k에서 LVSM 대비 +1.7dB PSNR로 SOTA를 달성하고, DL3DV에서 DepthSplat 대비 +5.26dB, CO3D에서 AnySplat 대비 +6.5dB를 기록했다. H100 GPU에서 30FPS 이상 실시간 렌더링이 가능하며 커스텀 커널을 사용하지 않는다. 코드: https://szymanowiczs.github.io/lagernvs
TRACE: 텍스트 기반 공간 표현으로 MLLM의 3D 공간 추론 향상
인지과학의 배분적 공간 추론 이론에서 영감을 받아, MLLM이 자아중심 비디오로부터 텍스트 기반 배분적 3D 환경 표현을 중간 추론 단계로 생성하도록 유도한다. 메타 컨텍스트, 카메라 궤적, 엔티티 레지스트리의 세 구성요소로 이루어진다. Gemini 3 Pro에서 VSI-Bench 점수를 52.61에서 60.15로 +7.54%p 향상시켰다. 텍스트 전용 접근(비디오 없이 TRACE만으로 추론)도 Direct 비디오 방법과 유사한 성능을 달성하여, TRACE가 비디오의 공간 정보를 충실히 요약할 수 있음을 보였다.
SpectralSplats: 3DGS 트래킹의 그래디언트 소실 해결
3DGS의 근본적 병목인 국소적 지지(local support) 문제를 주파수 도메인 전환으로 해결한다. 공간적 이동이 주파수 영역에서 위상 이동으로 나타나 항상 비-영 그래디언트를 제공한다. Frequency Annealing 스케줄을 제1원리에서 도출하여, Nerfies/BARF에서 경험적으로 사용되던 선형 어닐링의 이론적 근거를 제공했다. SC4D 데이터셋에서 약 +9dB PSNR 향상, LPIPS 71% 감소를 달성했다.
Visual Chronometer: 생성 비디오의 시간 측정 환각
생성 비디오 모델의 물리적 운동 속도가 모호하고 제어 불가능한 "Chronometric Hallucination"을 명명하고, Physical FPS(PhyFPS)를 직접 예측하는 Visual Chronometer를 제안한다. 17개 생성 모델 감사에서 거의 모든 모델에서 meta FPS와 PhyFPS 간 상당한 불일치를 발견했다. PhyFPS 보정된 비디오가 원본보다 강하게 선호되었다(보정 44.2% vs 원본 19.0%).
LLM 기반 생성적 최적화와 학습 루프
LLM 기반 생성적 최적화의 학습 루프 설계 문제 분석
LLM을 활용한 생성적 최적화가 매우 취약하며, 조사된 에이전트 시스템 중 단 9%만이 자동화된 최적화를 사용하고 있다. 세 가지 핵심 설계 결정(시작 아티팩트, 크레딧 호라이즌, 경험 배칭)을 분리 분석했다. MLAgentBench에서 최적의 초기화 전략이 태스크마다 다르고, Atari 게임에서 최적 크레딧 호라이즌이 게임마다 다르며, BBEH에서 최적 배치 크기도 태스크마다 다르다. "메타 과적합(meta-overfitting)" 현상도 관찰되어 최적화 자체가 성능을 오히려 떨어뜨리는 경우도 있었다.
Autoresearch -- "The Karpathy Loop"
Fortune이 "The Karpathy Loop"라는 이름을 붙였다. GitHub 42,000 스타, 8,600만 뷰. Shopify CEO가 하룻밤 만에 돌렸고, 마케터가 카피에 적용했다. 핵심 원리: "점수를 매길 수 있으면, 자동으로 개선할 수 있다." Claude Skills에 적용한 사례에서 랜딩 페이지 카피 스킬의 품질 체크 통과율이 56%에서 92%로 상승했다.
디지털 프라이버시와 규제
버니 샌더스가 Claude에게 직접 묻는 AI 프라이버시와 민주주의 위협
미국 상원의원 버니 샌더스가 Claude와 직접 대화하며 AI 프라이버시를 탐구했다. Claude는 데이터 수집의 궁극적 목적에 "Money, Senator"라고 직설적으로 답했다. AI 프로파일링이 마이크로타겟팅을 통해 "공유된 현실의 파편화"를 유발할 수 있다고 경고했다. AI 기업의 프라이버시 보호 약속에 대해 "강력한 법적 안전장치 없이는 신뢰할 수 없다"고 인정했다. 샌더스가 "AI 기업들이 수억 달러를 로비에 투입하여 규제를 차단하고 있다"고 반박하자, Claude는 "정치적 현실에 대해 순진했다"고 인정하며 데이터센터 모라토리엄이 실용적 대응이라고 입장을 수정했다.
채팅 통제 종료: EU 의회, 대규모 감시 중단 결정
EU 의회가 단 1표 차이로 민간 메시지의 무차별 대량 스캔을 종료하는 역사적 결정을 내렸다. 2021년 임시 규정이 2026년 4월 3일 만료되면 미국 기업들은 유럽 시민의 사적 채팅 무차별 스캔을 중단해야 한다. 경찰 신고의 약 99%가 단일 미국 기업(Meta)에서 왔으며, 독일 BKA 보고에 따르면 공개된 채팅의 48%가 형사적으로 무관했다. PhotoDNA 알고리즘이 "신뢰할 수 없다"는 연구 결과도 공개되었다. EU 의회는 Security by Design, 표적 통신 감시, EU 아동 보호 센터를 대안으로 제시했다.
EU ChatControl 재투표 시도 경고
EU 보수파(EPP)가 의회에서 거부된 ChatControl에 대해 3월 26일 재투표를 강행하려 했다는 경고. 디지털 프라이버시와 AI 감시에 관한 중요한 정치적 이슈다.
Meta 아동 안전 판결 -- 3억7500만 달러 배상
뉴멕시코주 법원이 Meta에 아동 안전 관련 사용자 오도 혐의로 $3억7,500만 배상을 명령했다. 주 정부가 아동 안전 문제로 Meta를 성공적으로 소송한 최초의 사례다. 전 Meta 엔지니어링 디렉터 Arturo Bejar는 "이 제품은 관심사를 가진 사람들을 연결하는 데 매우 뛰어나며, 당신의 관심사가 어린 소녀라면 어린 소녀들과 연결하는 데도 매우 뛰어날 것"이라고 증언했다. Meta는 재판 중간에 Instagram 채팅의 엔드투엔드 암호화를 올해 내로 중단하겠다고 발표했다.
AI 시대의 투자와 불확실성
"호들갑 떨지 마" -- 하워드 막스가 말하는 AI 시대의 투자
Oaktree Capital 공동창업자 하워드 막스가 Bloomberg TV에서 밀도 높은 발언을 쏟아냈다. "대부분의 사람들이 AI의 영향을 과소평가하고 있다"고 단언하며 Block이 1만 명 중 4,000명을 하루 만에 해고한 사례를 들었다. "평범한 것에 대한 버블은 한 번도 없었다. 철강 버블도, 햄버거 버블도 없었다." 17년간 진정한 어려운 시기가 없었고 FOMO가 회의주의를 대체했다고 경고한다. Google의 100년 만기 채권(5.8%)을 낙관론과 맹신의 증거로 논평했다.
AI가 Oaktree에 미치는 영향에 대해, 자신의 메모를 Claude에게 보낸 경험을 공유하며 "전송 버튼을 누르고 화면을 내리니 답이 이미 거기 있었다"고 놀라움을 표했지만, "AI에는 직관이 없다. 투자 설명서를 읽으면서 목 뒤의 털이 쭈뼛하는 감각이 없다"고 한계를 짚었다. "AI basically makes predictions. It doesn't answer questions."
바이브코딩과 실무 적용
대기업에서 혼자 바이브코딩으로 에이전트 제작
대기업에서 혼자 바이브코딩으로 에이전트를 만들어 임원 보고까지 마쳤다는 후기. 4개월간 달렸으며, 마지막에 autoresearch 개념을 적용하니 잘 되었다고 한다. 서비스에 온톨로지가 들어가며 팔란티어가 비싼 이유를 이해하게 되었지만 "생각보다 해자가 크진 않은 느낌"이라고 평가했다.
AI 랜딩페이지 제작 프로세스 공개
에이전시 200500만원, 프리랜서 100만원이 드는 홈페이지를 AI로 35일 만에 만드는 방법. Day 1 질문지로 콘텐츠 정리, Day 2 검증된 템플릿 복사 + Supabase 연결(30분), Day 2~3 Claude Code로 커스터마이징. 댓글 153개로 높은 관심을 보인다.
WebTestBench: 바이브 코딩 시대의 자동 웹 테스팅 평가
"바이브 코딩" 시대에 LLM이 생성한 웹 애플리케이션의 기능 신뢰성을 자동 검증하는 벤치마크다. 100개 웹 앱, 4개 품질 차원으로 평가한 결과, 모든 평가 모델이 F1 30% 미만을 기록했다. 현재 컴퓨터 사용 에이전트와 산업급 배포 요구 사이에 상당한 격차가 있음을 보여준다.
소프트웨어 에이전트 생태계의 비즈니스 전환
소프트웨어가 에이전트에 의해 소비되는 미래
[출처](https://news.hada.io 관련 글)
a16z의 David George가 제시한 "토큰/사용량 기반 과금"과 "에이전트가 자율적으로 제품을 소비하고 결제하는" 미래상은 OpenClaw/Understudy 같은 에이전트 도구의 확산과 직접 연결된다. 소프트웨어 기업이 시트 기반에서 토큰 기반으로 전환해야 한다는 주장이다.
Manus의 메타 인수와 SNS 자동화
Manus가 인스타그램 모기업 Meta에 인수되면서 인스타그램 연동, 실시간 계정 분석 대시보드, 카드뉴스 제작, 예약 포스팅 등 모든 것을 지원한다.
오픈소스와 무료 대안의 부상
Insanely Fast Whisper -- 무료 음성 전사 오픈소스
150분 분량 오디오를 98초에 처리. 비용 비교: OpenAI $0.006/분, Google $0.024/분, AWS $0.024/분, Insanely Fast Whisper $0.
Voxtral TTS -- ElevenLabs를 이긴 무료 음성 AI
Mistral AI가 오픈 웨이트로 공개. 3초짜리 음성 샘플만 있으면 음성 복제 가능. 사람이 듣고 비교했을 때 ElevenLabs보다 자연스럽다는 결과. 16GB 이상 GPU로 로컬 구동 가능. API 1,000자당 약 21원.
Chroma Context-1 -- 20B 파라미터 검색 에이전트
Chroma가 발표한 20B 파라미터의 검색 에이전트. 기존 대비 자릿수(order of magnitude) 빠르고 자릿수 저렴하다. Apache 2.0 오픈소스.
VS Code에서 Ollama를 GitHub Copilot으로 사용
Visual Studio Code가 GitHub Copilot을 통해 Ollama와 통합되었다. 로컬 또는 클라우드 모델을 VS Code 내에서 선택하여 사용할 수 있다.
Upright -- 셀프호스팅 합성 모니터링 엔진
Basecamp이 오픈소스(MIT)로 공개한 합성 모니터링 시스템. Playwright 프로브(브라우저 기반 사용자 플로우 테스트), HTTP 프로브, SMTP 프로브, Traceroute 프로브를 지원한다. Rails 엔진 + SQLite, Prometheus 메트릭 + AlertManager 알림, Kamal 배포. Datadog/Pingdom의 셀프호스팅 대안.
의료/과학 AI
AD-CARE: 알츠하이머병 진단을 위한 가이드라인 기반 LLM 에이전트
모달리티 불가지론 에이전트로, 불완전하고 이질적인 입력에서 가이드라인 기반 진단 평가를 수행한다. 6개 코호트, 10,303 사례에서 전체 진단 정확도 84.9%를 달성했다. 인종/연령 하위 그룹 간 성능 격차를 2168% 축소하고, 의사의 정확도를 611% 향상시키며 의사결정 시간을 절반 이상 단축했다.
ICU 퇴원 전략 평가를 위한 인과 프레임워크
ICU 퇴원 시점을 최적 정지 문제로 정식화하여, MIMIC-IV 60,616명 환자 데이터로 동적 퇴원 전략을 평가했다. 생리학적 위험 신호 기반 전략(DS1)은 90일 사망률 1.2%p 감소와 ICU 체류 기간 중앙값 0.5일로의 대폭 단축을 보였다.
MolQuest: 화학 구조 해명에서의 귀추 추론 벤치마크
LLM이 가상 실험실의 자율 에이전트로 14개 시뮬레이션 도구를 능동적으로 호출하며 분자 구조를 해명하는 벤치마크. 12개 최신 LLM 중 최고 모델도 약 50% 정확도에 그쳤다.
FEAST: 공간 전사체학을 위한 완전 연결 표현 어텐션
음성 인식 어텐션을 도입하여 흥분성과 억제성 생물학적 상호작용을 동시에 모델링한다. 3개 공개 ST 데이터셋에서 9개 지표 중 7개에서 최고 성능을 달성했다.
자율주행과 로봇공학
TDDM: 자율주행을 위한 시간적 분리 확산 계획 모델
궤적을 여러 시간 세그먼트로 분할하고 각각에 독립적 노이즈를 적용하는 "노이즈를 마스크로" 패러다임이다. nuPlan 벤치마크에서 200k 시나리오만으로 1M 시나리오를 사용하는 Diffusion Planner와 동등 이상의 성능을 달성했다.
FB-MEBE: Sim-to-Real 제로샷 강화학습
달성된 행동 분포의 엔트로피를 최대화하는 비지도 탐색 전략으로, Unitree Go2 실제 로봇에 추가 파인튜닝 없이 제로샷으로 정책을 배포했다. 외부 모션 캡처 데이터 없이 완전히 온라인으로 학습한 FB 알고리즘의 실제 로봇 배포 첫 사례다.
장시간 로봇 탁상 게임 -- 마작 시스템 설계
122회 완전 마작 게임에서 89.3%가 인간 개입 없이 완료되었다. 2,596회 행동 프리미티브 실행에서 촉각 기반 복구 후 99.8% 성공률. GPT-5.2와의 40회 쌍대 매치에서 23승 3패 14무.
혼합 교통류의 거시적 특성
RL 기반 자율주행 차량 침투율 증가에 따라 도로 용량이 약 7.52% 증가하지만, 25~50% 침투율에서는 미미한 개선에 그쳐 높은 침투율에서야 거시적 이점이 두드러진다. 50km/h 이상 고속에서 RL 모델은 IDM 대비 평균 연비 28.98% 개선을 달성했다.
HSI-Drive: 자율주행용 초분광 이미징
Imec 25밴드 Red-NIR 센서로 자율주행 장면의 초분광 데이터셋을 구축하고, ECA 어텐션 U-Net으로 가중 IoU 89.71%를 달성했다.
통신과 6G
WWM: AI 네이티브 6G 네트워크를 위한 무선 세계 모델
China Mobile이 약 80만 개 샘플의 하이브리드 멀티모달 데이터셋, JEPA 사전 훈련, MMoE Transformer로 구성된 무선 세계 모델을 제안했다. 5가지 다운스트림 과제에서 기존 단일 모달 기초 모델을 일관되게 능가하며, 3D 기하학적 사전 정보를 무선 예측에 체계적으로 통합한 최초의 모델이다.
CSI-tuples 기반 멀티모달 학습 3D 채널 지문 구성
6G 저고도 통신 환경에서 3D 채널 지문을 공간 그리딩 없이 유연하게 구축하는 프레임워크. 최신 알고리즘 대비 최소 27.5% 높은 정확도를 달성했다.
스타트업과 창업 생태계
스타트업 미국 진출 잔혹사 -- Flip의 함정
미국 VC가 한국 법인에 투자하지 않는 이유가 실제로는 "미국 시장 내 매출 부재"인데, "미국 C-Corp이 아니면 투자 어렵다"는 예의 바른 거절을 곧이곧대로 받아들여 플립을 진행하는 것이 문제다. 한 로펌 관계자에 따르면 플립 기업의 2/3가 역플립을 선택하고, 나머지 상당수는 미국에서 폐업한다. 3가지 조언: 미국 PMF 검증 최우선, 플립 대신 미국 자회사 설립부터, 플립은 Term Sheet 이후에.
2026년 TIPS 프로그램 변경 사항
일반트랙 지원금 5억에서 8억으로 상향, 신산업 분야 창업 10년 이내까지 지원 가능, 딥테크 트랙은 일반트랙 완료 기업만 지원, 수시 접수에서 분기별 접수로 변경, 딥테크 지원 시 퇴직연금 도입 필수.
NomaDamas -- AI 오픈소스 해커하우스 신규 멤버 모집
AutoRAG(스타 4,580+), KICE_slayer_AI_Korean(스타 530+), awesome-korean-llm(스타 470+) 등 20+ 오픈소스 프로젝트를 운영하는 해커하우스가 신규 멤버를 모집 중이다.
GEO(Generative Engine Optimization)의 부상과 비판
포트원의 GEO 점수 Top 3 랭크
엘리펀트컴퍼니가 공개한 기업 GEO 점수 Top 3에 포트원이 랭크되었다. 메타 데이터 최적화, 오프사이트 최적화, 콘텐츠 질 개선, 스키마 마크업 적용 등의 작업을 수행해왔다. AI를 통한 사이트 유입 비중과 주요 LLM 내 인용률을 객관적 수치로 진단하고 있다.
GEO와 레딧 -- 커뮤니티 인용의 신뢰성 문제
GEO에서 레딧 대응이 과장되고 있다는 비판적 분석이다. AI를 활용해 가짜 스토리를 만들고 카르마를 얻는 유저들이 존재하며 진짜 유저의 목소리인지 구분이 어려워지고 있다. 7가지 문제점을 지적하며, 단순 "언급/인용"을 넘어 실제 유저의 브랜드 경험 인지와 개선이 근본적 과제라고 주장한다.
리더십과 조직
불편한 대화를 회피하는 리더가 팀과 커리어를 망치는 이유
전 실리콘밸리 엔지니어링 리더 한기용이 4가지 실제 사연을 통해 리더의 불편한 대화 회피 문제를 분석했다. "기대-관찰-간극"의 대화법을 제안한다: "나는 A라는 업무가 이번 주에 끝난다고 생각했는데, 보고를 들어보니 다음 달이 돼도 안 끝날 것 같다"(기대와 관찰), 그다음 "데드라인을 언제로 인지하고 있었느냐?"(간극 확인).
핵심 원칙: "내버려 두면 내가 이 사람을 더 미워할 것 같다, 혹은 상대방이 잘못된 기대를 점점 더 키울 것 같다 -- 둘 중 하나라도 해당되면 이야기한다." "리더의 책임 중 하나는 팀원을 놀라게 하지 않는 것."
온보딩은 거래(Transaction)다
제품 디자이너 Anton Sten이 "온보딩을 최대한 짧게"라는 통념에 반론한다. Summer Health 사례에서, "지금 긴급한 질문이 있으세요?"라고 물어 "예"라고 답하면 온보딩을 즉시 중단하고 소아과 의사에게 연결했다. 각 질문에 대해 "이 질문을 왜 하는지 사용자에게 소리 내어 정당화할 수 있는가?"를 테스트하라는 것이 핵심이다.
기타 주목할 콘텐츠
개인 백과사전 (whoami.wiki)
할머니 집에서 발견한 1,351장의 물리적 사진을 정리하다가 개인 백과사전을 만드는 오픈소스 프로젝트로 발전한 이야기. MediaWiki 기반으로 데이터 내보내기를 가져오면 AI 에이전트가 위키피디아 형식의 페이지를 초안한다. Facebook/Instagram/WhatsApp 아카이브의 약 10만 건 메시지를 분석하여 우정의 흐름을 추적하고, 은행 거래/위치 데이터/Shazam 기록을 교차 참조하여 여행 기록을 재구성했다.
왜 많은 제어실이 Seafoam Green으로 칠해졌는가
색채 이론가 Faber Birren이 1944년 국가안전위원회 승인을 거쳐 의무화한 산업용 안전 색상 코드 체계의 역사를 추적한 에세이. Light Green이 시각 피로를 줄이기 위해 벽면에 사용되었으며, 맨해튼 프로젝트의 Hanford Site B Reactor 사진에서도 Birren의 색채 이론이 정확히 적용되어 있다.
Apple에 대한 개발자 불만의 누적
출처 1: 버그 리포트 문제 / 출처 2: Apple이 나를 잃었다
3년간 방치한 버그를 갑자기 확인하라고 요구하고 2주 내 확인하지 않으면 해결된 것으로 처리하는 Apple의 Feedback Assistant 문제, Gatekeeper 소프트웨어 검열, Liquid Glass 디자인 문제, 영국법에 따른 연령 인증(45세 사용자가 신용카드 5장으로도 연령 확인 불가)이 동시에 제기되었다.
ARC-AGI-3 -- 최초의 대화형 추론 벤치마크
에이전트가 새로운 환경을 탐색하고 즉석에서 목표를 습득하며 적응 가능한 세계 모델을 구축하는 능력을 측정한다. 정적 퍼즐이 아니라 경험으로부터 학습해야 하며, 자연어 지시 없이 작동한다. "AI와 인간 학습 사이에 격차가 있는 한 AGI는 없다."
SNS Detox -- YouTube 중독 방지 확장 프로그램
YouTube 홈 피드, Shorts, 구독 피드와 Reddit 피드를 자동 차단하는 Chrome 확장. 완전 무료, 광고 없음, 로컬 저장.
새마을금고 금리 비교 웹 앱
전국 새마을금고의 정기예금/정기적금 금리를 경영평가 등급, BIS 자기자본비율과 함께 비교할 수 있는 웹 앱(mgija.com).
DAGverse: 과학 논문으로부터 의미 DAG 자동 구축
arXiv 270만편, bioRxiv 40만편에서 논문 내 DAG 그림을 감독 신호로 활용하여 108개의 전문가 검증된 인과 DAG 데이터셋을 구축했다. DAGverse-Pipeline은 E2E 점수 88%를 달성하여 단일 모델(GPT-5.1 69%, Gemini 2.5 Pro 72%)을 크게 상회한다.
KGAT: 열복사 모델링 기반 적외선 객체 탐지의 적대적 훈련
적외선 영상의 클래스 간 열복사 관계 순서가 환경 조건에 따라 안정적으로 유지된다는 물리 법칙을 적대적 훈련에 통합한 최초의 시도. FLIR-ADAS에서 두 번째로 좋은 방법 대비 평균 9.0% 강건성 향상.
CRAFT: 부분 정보 하의 다중 에이전트 조율 벤치마크
3명의 디렉터 에이전트가 각각 서로 다른 2D 투영만 관찰하며 협력하는 벤치마크에서, 프론티어/대형 모델이 소형 오픈웨이트 모델을 일관되게 능가하지 못했다. Mistral-7B와 Qwen-2.5-7B가 대다수 프론티어 시스템보다 과제 수행 성과가 높았으며, 개별 의사소통 품질과 전체 협업 성과 사이에 음의 상관관계(r = -0.603)가 나타났다.
FreeLOC: 훈련 없는 장시간 비디오 생성
짧은 클립용 비디오 확산 모델의 길이 확장 시 발생하는 두 가지 OOD 문제(프레임 위치 OOD, 컨텍스트 길이 OOD)를 VRPR과 TSA로 해결했다. DiT 기반 최신 모델에서 추가 훈련 없이 SOTA 달성.
연합학습의 참여자 장애 영향 분석
6개 데이터셋과 다양한 모델 아키텍처에서 교차-사일로 연합학습의 참여자 장애 영향을 체계적으로 분석. 평가 시 참여자 누락은 모든 모달리티에서 과대 평가를 유발한다.
가지치기가 특성을 어떻게 재구성하는가
가장 놀라운 발견: 희소 SAE 특성(발화율이 낮은 특성)이 빈번한 특성보다 가지치기에서 훨씬 더 잘 생존한다. Gemma 3에서 30% 가지치기 시 가장 희귀한 특성은 76.0% 생존하는 반면 가장 빈번한 특성은 14.6%만 생존한다(5.2배 차이).
NERO-Net: 적대적으로 강건한 CNN 설계를 위한 신경진화
표준 훈련만으로 아키텍처 자체의 내재적 강건성을 분리하여 최적화. L-infinity 위협 모델에서만 최적화했음에도 L2 경계에도 다중 위협 강건성을 보인다.
FluxEDA: 상태유지형 에이전틱 EDA를 위한 통합 인프라
EDA 도구에 대한 통합된 상태유지형 인프라로, 자동 포스트라우트 타이밍 ECO와 표준 셀 서브라이브러리 최적화를 GPT-5.4 + Codex로 검증했다.
WildFakeBench: 마이크로비디오 허위정보 탐지
6개 플랫폼에서 10,107개 실제 마이크로비디오를 수집하고, 다중 에이전트 추론 프레임워크 FakeAgent로 탐지하는 벤치마크.
도시 대기질을 위한 PM2.5 예측
경량 가산 모델(Facebook Prophet, SARIMAX)이 복잡한 딥러닝 대비 경쟁력 있는 성능을 보였다. 보정된 Prophet은 실행 시간을 15분에서 47초로 단축하면서 거의 동일한 오차를 달성했다.
4OPS: 정수 산술 퍼즐의 구조적 난이도 모델링
최소 입력 사용량이 난이도의 최소 충분 통계량으로 기능한다는 발견. 적응형 산술 학습 시스템에의 함의가 크다.
구조에 의한 결정가능성: 설계 시간 검증
AI 모델의 수치적 안정성, 계산 정확성, 물리적 도메인 일관성을 훈련 전 설계 시점에서 검증 가능함을 주장. Z^8 결합 제약 공간에서 단일 패스로 물리적 단위와 기하대수 등급을 동시에 추론한다.
Gemini 다른 AI 앱에서 대화 기록 가져오기
다른 AI 앱에서 환경설정과 대화 기록을 가져오는 기능을 데스크톱에서 롤아웃. AI 앱 간 이동 장벽을 낮추는 전략적 기능.
Gemini 3.1 Flash Live -- 오디오/음성 기능 업그레이드
더 빠른 응답 시간, 더 자연스러운 대화, 대화 메모리 2배 확장, 다국어 지원.
Next.js 16.2 -- 안정적 Adapter API
Netlify, Cloudflare, OpenNext, AWS, Google Cloud와 함께 구축한 안정적 Adapter API 도입.
Notion 3.4 대규모 업데이트
Dashboard view, Image generation, Presentation mode, AI skills, Tabs block, H4 headers, Archive pages, Voice dictation, Salesforce + Box connectors.
Chrome 세로 탭 도입
Chrome에 세로 탭이 도입되었다. 4,389 좋아요로 오랜 요구 사항이었음을 증명했다.
SuperLightTUI -- Rust 기반 TUI 라이브러리
3줄의 Rust 코드로 TUI를 구축할 수 있으며, immediate-mode 렌더링, 50개 이상 위젯, Tailwind 스타일 API를 제공한다.
Google Apps Script를 활용한 자동화 입문
매일 반복되는 데이터 옮기기, 설문 응답 후 메일 발송 등을 별도 설치 없이 브라우저에서 자동화하는 방법.
CLI의 시대 -- Gemini CLI와 Google Workspace 통제
Gemini CLI를 주된 코딩 에이전트로 쓰는 사람은 드물지만, Google Workspace를 통제할 수 있는 CLI라면 이야기가 다르다. "모두가 예쁜 터미널과 tmux를 쓰는 시대. 오래된 기술들의 가치가 올라가는 것이 묘하다."
바이브코딩 시대를 위한 무료 AI 교육 자료 모음
Anthropic 공식 코스 13개, 클로드 스킬 설계 가이드, Google 공식 AI 코스 10개+, Promptsref 200개+ 프롬프트 예제.
MIT 무료 AI/ML 교재
Foundations of Machine Learning, Understanding Deep Learning, Introduction to Machine Learning Systems, Algorithms for ML.
에레보르(Erebor Bank) -- 피터 틸의 디지털은행
피터 틸, 팔머 럭키, 조 론스데일 등이 참여. SVB 파산 이후 공백을 채우기 위해 설립, 기업가치 약 6조원.
Y Combinator Startup School 복귀
연사: Jensen Huang, Sam Altman, Alexandr Wang, Jeff Dean. 샌프란시스코에서 2일간 개최.
GROK을 활용한 주식 트레이딩 자동화 프롬프트 8가지
GROK이 "천재적인 주식 트레이더"라며 8가지 프롬프트를 제시.
ForgeDesk 브라우저 자동화 -- 쿠팡 스크래핑
프롬프트 몇 번으로 쿠팡 페이지의 글, 댓글, 이미지까지 AI가 자동으로 스크래핑한다.
번아웃에서 탄생한 버섯 젤리 브랜드 NOON WORLD
뉴욕 웰니스 브랜드 NOON WORLD의 창업 스토리. 아시아계 소꿉친구 3명이 동양의학 기반으로 버섯 젤리 브랜드를 론칭했다.
프롬프트 레퍼런스 사이트 4선
지피테이블, 오픈프롬프트, 포켓프롬프트, 렉시카.
웹사이트 디자인 파츠 무료 큐레이션
히어로 섹션, 풋터, 소셜 프루프 등 파츠를 큐레이션. 100% 무료.
저지연 음성 에이전트 구축 가이드 (Vapi)
엔드투엔드 지연 시간 ~465ms의 음성 에이전트를 구축하는 가이드.
가짜연구소 시즌12 -- NVIDIA 로봇 파운데이션 모델 스터디
OMX/LeRobot으로 모방학습 데이터 수집, Cosmos Transfer로 데이터 증강, Isaac Sim 디지털 트윈, GR00T 파인튜닝 후 실제 로봇 테스트.
오픈소스 캐릭터 변환 도구 공개
원하는 캐릭터로 바꿀 수 있는 도구가 오픈소스로 공개되었다.
스레드 조회수 돌파법 공개
200~300은 "내 팔로워만 본 것"이며, 추천 피드에 올라가야 1,000 이상 나온다.
Arxivify -- 논문 초록 이미지 생성
임의의 문장을 학술 논문 초록처럼 보이는 이미지로 생성하는 유머 도구.
OpenAI 모델의 프론트엔드 품질 비판
"OpenAI 모델은 프론트엔드를 잘 못 한다. 이 기사의 예시들은 당황스럽다"는 강한 비판.
AI 코딩 에이전트의 가장 큰 약점 -- 학습 데이터 이후 정보
Google이 AI 코딩 에이전트의 가장 큰 약점을 공개했다. 학습 데이터 이후에 나온 건 정확도 6.8%라는 수치가 충격적이다.
교차 분석
에이전트 메모리 관리의 수렴 -- Claude Code MEMORY(파일 시스템 기반, lazy load), 오픈클로 망각 곡선 메모리(수학적 모델링), REM 수면 비유의 자동 정리, 그리고 논문 수준에서 LLM 내부 신념의 불안정성 연구가 동시에 나타났다. SNS에서의 실용적 팁과 학술 연구가 "에이전트의 기억이 어떻게 작동해야 하는가"라는 동일한 질문을 다른 층위에서 탐구하고 있다.
AI 안전의 교차 조명 -- DeepMind의 AI 조작 평가(10,101명 실험), "역량의 그림자"(안전 분석가의 추론 범위 축소), 추론 안전 모니터(CoT 궤적의 실시간 감시), PIDP-Attack(RAG 복합 공격), 버니 샌더스-Claude 대화(민주주의 위협)가 모두 "AI 시스템의 보이지 않는 위험"을 다루지만, 기술적/조직적/정치적이라는 완전히 다른 차원에서 접근한다. 특히 "역량의 그림자"가 제시한 "동일한 AI 도구도 협업 구조에 따라 품질을 개선(+5pp)하거나 악화(-20pp)시킬 수 있다"는 결론은, LangChain의 "가장 흔한 실수는 에이전트를 관찰하지 않는 것"이라는 실무적 메시지와 같은 맥락에서 읽힌다.
"초기화가 성능을 좌우한다" 패턴 -- 생성적 최적화 논문의 Starting Artifact 문제(코드 구조 초기화), SpectralSplats의 초기 공간 정렬 문제, LagerNVS의 3D 사전 훈련 인코더 초기화(+2.9dB), SliderQuant의 얕은/깊은 레이어 민감도 관찰이 모두 "시작점이 도달 가능한 해를 결정한다"는 동일한 원칙의 서로 다른 표현이다.
비용 효율성의 극적 변화와 그 이면 -- Relay.app 월 $500 vs 인간 $50,000, Codex의 3개월 작업을 3일로, Voxtral TTS의 ElevenLabs 대비 극적 비용 절감, 6Bit-Diffusion의 3.32x 메모리 절감. 이 수치들은 AI 에이전트 프로덕션 전환의 경제적 근거를 제공하지만, 동시에 하워드 막스의 "AI가 4,000명을 하루 만에 대체했다"와 버니 샌더스의 프라이버시 우려가 같은 현상의 다른 면을 보여준다.
주파수 도메인의 크로스오버 -- SpectralSplats(3D 비전)와 6Bit-Diffusion(비디오 DiT 양자화)이 모두 주파수 분석을 통해 최적화 지형을 개선한다. 전자는 공간 도메인의 국소적 한계를, 후자는 시간적 주파수 안정성을 활용했다. 서로 다른 분야에서 "주파수 분석을 통한 최적화 지형 개선"이라는 동일한 아이디어가 동시에 등장하고 있다.
아동 보호와 프라이버시의 긴장 -- Meta 아동 안전 판결(3억7500만 달러)과 EU Chat Control 종료(단 1표 차이)가 동시에 발생하여, "기술 기업의 아동 보호 책임"과 "대량 감시 없는 아동 보호"라는 상반된 방향의 논의가 병행되고 있다. Apple의 연령 인증 문제도 이 맥락에서 연결된다.
Powered by skim