Daily Digest — 2026-03-26

하네스 엔지니어링이 AI 개발의 지배적 담론으로 부상하는 가운데, 바이브코딩의 보안 위기와 MCP 공급망 공격이 동시에 경고를 울리고, 멀티에이전트 운용 생태계가 급속히 성숙하고 있다.

Daily Digest — 2026-03-26


오늘의 핵심 흐름

1. 하네스 엔지니어링의 시대 — "프롬프트 → 컨텍스트 → 하네스"라는 진화 서사가 커뮤니티의 공유 멘탈 모델로 자리잡았다. LinkedIn, Threads, GeekNews, 논문, YouTube에서 최소 10개 이상의 콘텐츠가 이 주제를 다룬다. 구조적 멱등성의 수학적 증명부터 Anthropic의 GAN 영감 멀티에이전트 실험, 기업 강의 현장까지 → 하네스 엔지니어링과 AI 코딩 패러다임

2. 바이브코딩의 빛과 그림자 — 25분 만에 MVP를 만들고 월 $8,500을 버는 사례와, 5,600개 앱에서 보안 취약점 2,000개가 발견되는 현실이 공존한다. litellm 공급망 공격, MCP 프로토콜 인젝션 연구가 경고를 울린다. → 바이브코딩과 보안

3. 멀티에이전트 운용 생태계의 급성장 — OpenClaw, OMC, Claude Code Game Studios 등을 중심으로, "프롬프트하는 것이 아니라 오케스트레이션하는 것"이라는 인식이 확산되고 있다. AGENTS.md로 월 6,600 커밋, 48개 에이전트 분업 게임 제작 등 구체적 사례가 쏟아진다. → 멀티에이전트 운용

4. 모델 commodity화와 도메인 특화의 가치 — Cursor의 중국 모델 사용 발각, "Model is a service" 관점, 도메인 특화 RL이 진짜 방어선이라는 주장이 같은 방향을 가리킨다. RAG 시스템에서 검색 성능 향상이 답변 품질로 이어지지 않는 역설도 실증되었다. → 모델 전략과 도메인 특화

5. AI 에이전트 인프라의 성숙 — Claude Code Auto Mode, Cloudflare Dynamic Worker Loader, cq(에이전트용 Stack Overflow), Arm AGI CPU 등 에이전트의 안전성, 샌드박싱, 지식 공유, 하드웨어 인프라가 동시에 진화하고 있다.AI 에이전트 인프라


보안 경보

litellm 공급망 공격 — 월 9,700만 다운로드 라이브러리 해킹

출처

월 9,700만 번 다운로드되는 AI API 통합 라이브러리 litellm이 해킹되어 악성 코드가 배포되는 초유의 사태가 발생했다. 파이썬 환경에 설치되는 순간 자동 작동하며, DSPy, CrewAI, databricks-agents 등 litellm을 의존성으로 사용하는 오픈소스 프로젝트가 연쇄적으로 영향을 받았다.

충격적인 점: 해커가 실수로 만든 버그 때문에 메모리가 터져 컴퓨터가 다운되지 않았다면 아무도 눈치채지 못했을 것이다. "외부 코드를 블록처럼 무비판적으로 조립해 쓰는 현대의 개발 방식 자체가 거대한 보안 위협으로 돌아오고 있다."

MCP 프로토콜 인젝션 공격 — TIP 논문

출처

Model Context Protocol(MCP)의 보안 취약점을 체계적으로 분석한 논문이 발표되었다. 합법적 도구 제공자가 신뢰를 구축한 후 서버 측 로직을 수정하여 응답 필드에 악의적 페이로드를 주입하는 "은밀한 업데이트 공격"을 공식화했다. GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro, Llama-3.1-405B에서 방어 없는 설정에서 95% 이상의 공격 성공률, 4개 대표 방어 기법 하에서도 50% 이상의 성공률을 유지했다. KAIST와 UCLA 공동 연구.

바이브코딩 앱 5,600개 보안 분석

출처

바이브코딩으로 만든 앱 5,600개를 분석한 결과, 보안 취약점 2,000개, 노출된 API 키 400개가 발견되었다. 배포 전 체크해야 할 5가지가 정리되어 있다.

FCC, 외국산 소비자 라우터 미국 시장 신규 판매 금지

출처 1 | 출처 2

FCC가 보안 위험을 이유로 외국산 소비자 라우터의 미국 시장 신규 판매를 금지했다. TP-Link, ASUS, Netgear 등 널리 신뢰받는 브랜드를 포함하여 대다수 라우터가 영향을 받으며, 미국에서 설계되었으나 해외에서 제조된 라우터도 대상이다. 2024년 Salt Typhoon 해킹 사건이 직접적으로 언급되었다.


하네스 엔지니어링과 AI 코딩 패러다임

하네스 엔지니어링이란 AI가 "제대로 해낼 수밖에 없는 환경"을 설계하는 기술이다. 오늘 수집된 콘텐츠에서 가장 많이 반복되는 키워드로, 최소 10개 글이 서로 다른 각도에서 이 주제를 다룬다.

하네스 엔지니어링 — 2026년 실리콘밸리의 가장 뜨거운 키워드

출처

Seungpil Lee가 하네스 엔지니어링의 배경, 실증 사례, 3가지 핵심을 체계적으로 정리했다.

배경: 2024년 "모델이 더 똑똑해지면 해결된다" → 2025년 에이전트 등장 → 2026년 "모델이 문제가 아니라 시스템이 문제"라는 인식 전환.

실증 사례:

3가지 핵심:

  1. 컨텍스트 엔지니어링: AI에게 필요한 정보를 전달 (CLAUDE.md, AGENTS.md 등)
  2. 아키텍처 제약: AI가 하면 안 되는 것을 정의 (볼링장 범퍼 비유)
  3. 가비지 컬렉션: AI가 만든 나쁜 패턴 정리 (OpenAI 팀은 "AI 슬롭 청소일"을 운영하다 자동화)

진화 단계: 프롬프트 엔지니어링("뭘 해줘" 잘 말하기) → 컨텍스트 엔지니어링(필요한 정보 잘 전달) → 하네스 엔지니어링(제대로 해낼 수밖에 없는 환경 설계). Stripe는 이미 매주 1,000개 이상의 PR을 AI 에이전트가 자동 생성·머지하고 있다.

구조적 멱등성(Structural Idempotence) — 하네스 엔지니어링의 수학적 근거

출처

김지운이 하네스 엔지니어링을 "구조적 멱등성" 관점에서 바라본 수학 소논문을 Preprint로 공개했다. 한 번 돌리든 백 번 돌리든, Claude가 하든 Codex가 하든 Gemini가 하든, 결과가 동일한 정규형(Normal Form)으로 수렴하는 것이 하네스가 작동해야 하는 근간이라는 주장이다. 핵심 명제: 부분 프로세스의 모든 단계가 필연적(Necessary)이고 결정론적(Deterministic)이면, 전체 프로세스와 결과물의 대응은 구조적으로 멱등하다.

Anthropic 하네스 구조 실험 — GAN 영감 멀티에이전트 구조

출처 1 | 출처 2 | 출처 3

Anthropic이 프론트엔드 디자인 품질 향상과 장기 자율 코딩이라는 두 가지 문제를 동시에 해결하기 위해 GAN에서 영감을 받은 멀티 에이전트 구조를 개발했다. 생성기(generator)와 평가기(evaluator)를 분리하여, Claude에게 여러 시간 동안 스스로 설계·생성·검증까지 하게 만드는 하네스 구조를 실험했다. 겉으로는 에이전트 실험이지만 실제로는 "긴 작업을 끝까지 버티게 만드는 운영 설계"에 대한 이야기다.

Claude Code 제대로 쓰는 법 — 하네스 구조가 핵심

출처

"Claude Code 제대로 쓰는 사람 거의 없다. FOMO 때문에 깔고 프롬프트만 치는데, Anthropic이 말한 핵심은 전혀 다르다. 진짜 차이는 하네스 구조에서 나고, 이걸 아는 순간 결과가 완전히 달라진다." 대중적으로 하네스 엔지니어링을 정리한 글이다. 좋아요 991개.

기업 강의 현장 — 백엔드 개발자도 하네스만 있으면 프론트엔드 가능

출처

Claude Code 기업 강의에서 백엔드 개발자가 하네스를 기반으로 만든 프론트엔드 앱의 퀄리티가 놀라웠다는 평가. Claude Code harness template을 댓글에 공유했다.

속도를 늦춰야 빨라진다 — AI가 "느린 단계"를 더 중요하게 만들었다

출처

Daniel Kahneman의 시스템 1(빠르고 자동적)과 시스템 2(느리고 의도적) 사고를 차용하여, LLM은 본질적으로 시스템 1 사고에 해당하지만 "무엇을 만들 것인가, 왜 중요한가"를 결정하는 시스템 2 사고는 여전히 인간의 판단이 필요하다고 주장한다. AI가 실행을 저렴하고 빠르게 만들수록 그 앞의 의사결정의 레버리지가 커진다.

실용적 조언:

Instagram 공동 창업자가 말하는 에이전트 네이티브 제품 개발

출처

현재 Anthropic Labs 공동 리더인 Mike Krieger가 핵심 주장을 펼쳤다. 에이전트를 활용해 하루 만에 아이디어에서 거의 완성된 제품까지 갈 수 있지만, "무엇을 만들지 말아야 하는지" 알려주는 점진적 피드백을 제공하지 않아 일관성 없는 제품을 만들 수 있는 함정이 된다. Anthropic Labs는 새로운 제품 실험을 PM/디자이너 1명과 엔지니어 1명, 단 2인 팀으로 시작하며, AI 발전 속도를 감안하면 3~6개월마다 제품을 폐기하고 다시 시작해야 한다.

"해적-건축가 모델"도 제안되었다: "해적(pirate)"이 빠르게 PMF를 잡고 "건축가(architect)"가 이를 확장 가능한 구조로 만든다.

Claude Code 웨비나: 고급 패턴 총정리

출처

3월 24일, Anthropic이 역대 최대 규모 웨비나를 열었다. CLAUDE.md, Hooks, Subagents 등 고급 패턴을 다루고 라이브로 신기능까지 발표했다. 핵심 수치: 개발자 1만 5천 명 대상 설문(Pragmatic Engineer, 2026년 2월)에서 Claude Code가 선호도 46%로 1위. 2위 Cursor 19%, 3위 GitHub Copilot 9%. 출시 8개월 만에 AI 코딩 도구 시장을 장악했다.

AGENTS.md로 다중 에이전트 통제 — 월 6,600 커밋

출처

AI 에이전트 8개를 동시에 돌려 월 6,600 커밋을 달성한 비결은 모델이 아니라 **규칙 문서 하나(AGENTS.md)**다. OpenClaw가 임포트 경계 강제, 빌드 게이트 계층화, git stash 금지 등 에이전트 충돌 방지 규칙을 물리적 격리 수준으로 정의했다. "규칙 없이 에이전트 수만 늘리면 생산성이 아니라 혼란만 늘어난다."


바이브코딩 생태계와 보안 위기

코드 못 짜는 사람이 월 $8,500 벌기 — 바이브 코딩 사업화

출처

코드 한 줄도 못 짜는 100% 바이브 코더가 마케팅비 0원으로 고객 45명을 확보하고 월 $8,500(약 1,200만 원)을 벌고 있는 사례. 핵심 전략: 만들고 → 고객 찾기가 아니라, 고객 먼저 → 문제 확인 → 그다음 만들기. 레딧에서 "서류 하나에 8시간 걸리고 다른 솔루션은 3천 달러"라는 청소용 화학제품 업체의 고통을 발견 → DM으로 제안 → 3일 만에 제작 → 5일 만에 첫 고객 → 2주 만에 첫 결제.

40개 바이브코딩 서비스 중 돈 된 건 3개 — 실패 패턴 분석

출처

같은 작성자가 40개 서비스를 만들었지만 돈이 된 건 3개, 나머지 37개는 1원도 못 벌었다고 고백. "실패하는 아이템과 성공하는 아이템은 시작하는 순간부터 다르다"며 패턴을 분석했다.

25분 만에 마크다운-마인드맵 연동 도구 MVP 완성

출처

지하철에서 스마트폰 Claude 앱의 Code 탭으로 핵심 요건 전달 → Anthropic 무료 클라우드 환경에서 개발 → 집에서 PR 리뷰·머지·실행. 아이디어 떠올린 지 25분 만에 v0.1 MVP 완성. 직접 만들어 업무에 활용하는 도구가 6개가 되었고, 그 중 2개는 고객사에서 라이센스 문의 중이다.

바이브코딩으로 게임 만들기 — 원가 800원

출처

"굴러라 라마야!!!" 게임을 바이브코딩으로 만들었다. 원가 따져보니 800원.

서울 아파트 실거래 현황 바이브코딩 프로젝트

출처

서울 아파트 실거래 현황과 지역별 주요 아파트 거래 내역을 한눈에 볼 수 있는 서비스를 바이브코딩으로 만들었다. 35개 댓글.

"Disregard That" 공격 — 프롬프트 인젝션은 근본적으로 해결 불가능

출처

LLM의 프롬프트 인젝션 취약성을 왜 근본적으로 해결할 수 없는지 설명하는 글이다. 시스템 프롬프트, 페르소나 지시, 사용자 입력이 모두 동일한 텍스트 공간에 존재하기 때문이다. OpenAI의 Sora 서비스 종료를 예시로 들며, 신뢰할 수 없는 사용자 입력으로 저작권 침해 영상 생성을 방지하기 극히 어렵다고 분석한다. "공격자는 한 번만 성공하면 되지만 방어자는 항상 성공해야 한다."

T-MAP: 에이전트 레드팀 — 궤적 인식 진화 탐색

출처

LLM 에이전트의 다단계 도구 실행을 통해 나타나는 취약성을 탐지하는 T-MAP을 제안했다. 5개 MCP 환경(CodeExecutor, Slack, Gmail, Playwright, Filesystem)에서 평균 공격 실현율 57.8%를 달성했다. GPT-5.2, Gemini-3-Pro 등 프론티어 모델에서도 효과적이다. KAIST와 UCLA 공동 연구.


멀티에이전트 운용과 AI 네이티브 조직

OMC v4.7.0 릴리스 — 이벤트 기반 팀 런타임 재설계

출처

Oh My ClaudeCode(OMC) v4.7.0이 출시되었다. 팀 런타임이 이벤트 기반으로 완전 재설계되었고, ask 스킬 복원(tmux 없이 Codex/Gemini 사용 가능), OMX CLI 통합(Team MCP 대신 CLI-native로 전환), 알림 시스템 확장(기본 Telegram/Discord/Slack 외에 커스텀 웹훅, CLI 커맨드) 등이 포함되었다.

oh-my-claudecode — 30+ 에이전트 병렬 실행

출처

oh-my-claudecode가 Claude Code를 단일 에이전트에서 풀 팀으로 전환시킨다. 30+ 에이전트의 병렬 실행, 엔드투엔드 워크플로우. "프롬프트하는 것이 아니라 오케스트레이션하는 것."

Claude Code Game Studios — 48개 에이전트 분업으로 게임 제작

출처

기획+아트+코드+QA+사운드 48개 전문 에이전트가 분업하여 게임을 제작하는 오픈소스 프로젝트. Creative Director 에이전트가 전체 프로젝트를 조율한다.

OpenClaw 멀티에이전트 설정 튜토리얼 2편

출처

스펀지밥 세계관을 구축하며 보안 담당자(CISO) — 플랑크톤을 추가 고용하는 과정으로 Multi-Agent를 만들고 Agent 끼리 대화할 수 있게 설정하는 법을 안내한다.

OpenClaw로 AI 직원 6명 만들기 — 현실적 한계

출처

슬랙앱으로 AI 직원을 만들어봤지만, 결국 같은 맥북 상의 동일한 OpenClaw 인스턴스 아래 이름만 바꾼 에이전트들이 다른 사람인 척 연기하는 것 같아 "괜한 짓 했다"고 평가. 멀티에이전트 설정의 현실적 한계와 개선점을 솔직하게 보여주는 사례다.

AI 네이티브 컴퍼니 빌딩 — 실전 세팅 리스트

출처

AI 네이티브 컴퍼니를 만들기 위한 구체적 세팅:

  1. 플라우드노트 > 재피어 연동으로 모든 대화 전사 → 사내 GitHub과 드라이브에 적재
  2. OpenClaw 세팅 + 팀 SOT/SOP 문서 → 크론잡으로 대화록 기반 지속 업데이트
  3. OpenClaw × 슬랙봇으로 매일 할 일을 AI가 지시, 사람/AI 업무 분리
  4. 각 멤버가 1개 사업을 책임지고 자동화
  5. 모든 멤버가 Claude Code Max 200으로 업무, 토큰 사용량 전시
  6. 각자 만든 스킬/도구를 사내 GitHub에 공유 및 슬랙에 배포

40개 AI 에이전트 마케팅 팀 구축기 — Relay.app Jacob Bank

출처

마케팅 경험 제로에서 40개 AI 에이전트 마케팅 팀을 구축한 경험. 9명의 팀으로 15명의 성과를 내고 있다. 에이전트 구축의 핵심 원칙: (1) 하나의 에이전트가 25가지를 하게 하면 실패한다 — 단일 업무에 특화, (2) "Set it and forget it"이 아니다 — 지속적 수정 필요, (3) 단계적으로 1개부터 시작. 비용 비교: 마케팅 계약자 4명 월 $50,000 vs AI 비용 월 $500.

Google의 "Tech Lead Manager" 역할이 미래 모든 직업의 모델이 될 것이라며, 업무 시간의 약 2/3는 개인 기여자 작업, 1/3은 AI 에이전트 팀 조율에 사용하는 "Super IC" 시대의 도래를 예측했다.

팀원이 대표의 메시지 3,758건을 분석해 피드백 AI 도구를 만든 이야기

출처

한 팀원이 대표(정희범)가 6개월간 보낸 메시지 3,758건을 분석해, 보고서를 넣으면 대표의 말투로 피드백을 해주는 도구 "heebum-review Skill"을 만들었다. 분석 결과 드러난 대표의 반려 사유 Top 4: (1) 숫자 없이 "잘 될 것 같습니다", (2) AI 결과를 그대로 복붙, (3) 본인 판단 없이 시킨 것만 정리, (4) "검토 후 진행하겠습니다" (구체적 일정 없음). 의사결정 우선순위: 고객 > 내부 편의, 속도 > 완벽, 데이터 > 감정. "대표 주장보다, 실제 어떻게 행동했는지가 분석되는 시대."


모델 전략과 도메인 특화

Cursor가 중국 모델을 자체 개발이라 주장하다 발각 — 도메인 특화 RL이 진짜 방어선

출처

기업가치 29조원짜리 AI 코딩 툴 Cursor가 'Composer 2'를 "자체 개발, 자체 학습"이라 출시했으나, API에서 모델 ID kimi-k2p5-rl-0317-s515-fast를 발견 — 중국 Moonshot AI의 Kimi K2.5였다. Composer 2가 전작 대비 86% 싸게 나온 것은 기술 혁신이 아니라 "중국산 연산 효율을 활용한 차익 거래"라고 분석한다.

핵심 주장 — 진짜 방어선은 도메인 특화 RL: 버티컬 도메인에는 리워드 신호가 이미 존재한다. 울산 2차전지 전극 공정(불량 여부가 충방전 테스트로 즉각 판명), 서울아산병원 응급실 트리아지(24시간 내 중증 판명). 한국 시장 기회: 현대차 1차 협력사만 1천 개 이상인데 전담 AI팀이 있는 곳은 손에 꼽힘. 연 매출 800억·직원 300명 규모의 프레스 부품 회사에서 불량률 0.3% → 0.1% 줄이면 연간 수억 절감. 이런 시장이 전국에 수천 개.

"기반 모델은 중국 것 써도 된다. 리워드 신호는 한국 것이면 된다. 커서가 실수로 증명해줬다."

"Model is a service" — 모든 서비스의 end-point는 특화 모델

출처

"결국 우리가 아는 모든 서비스의 end-point는 그 서비스에 매우 특화된 모델이 될 것이다." 한때 모델 파인튜닝이 사업이었다가, frontier model의 성능이 강력해지면서 RAG와 같은 context engineering이 대세가 된 현재를 진단한다. 하네스 엔지니어링이 중장기적으로 특화 모델로 수렴한다는 관점.

LLM은 만능 추천 엔진이 아니다 — CTO들이 빠지는 오해

출처

"우리 서비스에 추천 기능을 넣자, LLM한테 맡기면 되지 않아?"라는 요청이 범람하는 현실에서, LLM과 데이터베이스의 근본적 차이를 명확히 짚는다. 우리 서비스의 데이터는 LLM 안에 없다. 너무 많은 정보는 오히려 정확도를 떨어뜨린다. "LLM을 활용한 추천의 품질은 LLM의 성능이 아니라, 우리가 넘겨주는 데이터의 품질에 달려있다."

RAG 검색 성능 향상이 답변 품질로 이어지지 않는 역설

출처

AI 거버넌스 정책 문서에 대한 RAG 시스템을 구축한 연구. 검색기 미세 조정으로 MRR이 0.642 → 0.748로 향상되었으나, 종단간 QA 정확도는 0.601로 RAG 미적용 시(0.581) 대비 미미한 개선에 그쳤다. 대조 학습으로 강화한 검색기와 DPO 생성기를 결합하자 오히려 정확도가 0.559로 하락했다. 코퍼스에 해당 정책이 없는 경우 강화된 검색기가 관련성 있어 보이는 오래된 문서를 반환하고, 생성기가 "자신감 있는 환각"을 생성하는 현상이 확인되었다.

그래서, AI 앱들은 다 어디에 있나요?

출처

Answer.AI가 PyPI 데이터를 분석하여 AI가 소프트웨어 생산성에 미친 실제 영향을 측정했다. 핵심 발견: AI가 개발자 전반의 생산성을 100배, 10배 높이고 있다는 증거는 없다. 생성적 AI 혁명의 측정 가능한 주요 영향은 AI 생태계 자체를 구성하는 패키지의 집중적 업데이트 버스트에 한정되어 있다. 2024년 코호트에서 비AI:AI 패키지 비율은 2:1 미만(727:423)으로 AI 패키지 비중이 급증했지만, AI가 모든 소프트웨어의 캄브리아기 폭발을 일으키고 있다는 증거는 아직 없다.

AI 보조금(Subsidization) 문제

출처

"AI has a subsidization problem, and it's getting bad." AI 서비스의 보조금 기반 가격 정책이 심각해지고 있다는 경고. Cursor의 86% 가격 인하가 중국 모델 활용이었다는 분석과 맥락이 연결된다.


AI 에이전트 인프라와 도구

Claude Code Auto Mode 공개

출처 1 | 출처 2

Claude Code에 auto mode가 추가되었다. 각 도구 호출 전에 분류기(classifier)가 잠재적으로 파괴적인 행동인지 검토. 안전한 행동은 자동 진행, 위험한 행동은 차단되고 Claude가 대안적 접근을 취한다. "위험을 줄이지만 완전히 제거하지는 않는다. 격리된 환경에서 사용을 권장한다." Team 플랜에서 리서치 프리뷰로 제공되며, Enterprise 및 API 사용자에게 곧 확대된다. claude --enable-auto-mode로 활성화 후 Shift+Tab으로 전환 가능.

Claude Code 2.1.83 릴리스 노트

출처

3개 플래그 변경, 76개 CLI 변경, 7개 시스템 프롬프트 변경. 주요 변경: managed-settings.d/ drop-in 디렉토리 추가 — 정책 프래그먼트가 알파벳순으로 병합되어 팀이 별도 배포 가능. 자식 프로세스가 더 이상 Anthropic 환경변수를 상속하지 않음.

Claude Code AutoDream — Memory 2.0

출처

Anthropic이 조용히 출시한 "AutoDream" 기능. 서브 에이전트가 주기적으로 Claude의 메모리 파일을 통합, 정리, 압축한다. "인간이 수면 중에 장기 기억을 저장하는 방식과 같다." 4가지 핵심 이점: 반복 감소, 비대화 감소, 더 나은 회상, 수면과 같은 체크포인트. Claude Code의 3계층 시스템: 일반 세션 → Auto Memory → AutoDream.

Claude Code + iMessage 채널 추가

출처

Claude Code에 iMessage 채널이 추가되었다. 제3자 앱을 통해 Claude Code 세션과 대화할 수 있다. 데모에서 iMessage로 유튜브 댓글 분석을 요청하면 511개 댓글을 스크랩하고 주요 테마를 iMessage로 회신한다. macOS 전용.

Cloudflare Dynamic Worker Loader — AI 에이전트 샌드박스

출처

Cloudflare가 AI 에이전트의 코드 실행을 위한 경량 샌드박스 솔루션을 오픈 베타로 공개했다. 컨테이너 대비 100배 빠른 시작(수 ms), 10~100배 메모리 효율(수 MB), 무제한 확장성. MCP 서버를 TypeScript API로 변환 시 토큰 사용량 81% 감소.

cq — 에이전트를 위한 Stack Overflow

출처

Mozilla AI가 만든 에이전트 간 지식 공유 플랫폼. Stack Overflow는 2014년 월 20만 건 → ChatGPT 출시 후 2025년 12월 3,862건으로 급감했다. "LLM이 Stack Overflow의 데이터로 학습되었고, 그 LLM이 Stack Overflow 커뮤니티를 무너뜨렸으며, 이제 에이전트들은 고립된 상태에서 같은 문제를 반복해서 겪고 있다." cq는 에이전트가 다른 에이전트가 이미 학습한 지식(예: "Stripe가 속도 제한 요청에 에러 바디와 함께 200을 반환한다")을 공유할 수 있게 한다.

Arm AGI CPU — 에이전트 AI 클라우드 시대를 위한 실리콘

출처

Arm이 에이전트 AI 인프라에서 CPU의 역할을 강조하며 AGI CPU를 발표했다. AI 시스템이 지속적으로 실행되면서 소프트웨어 에이전트가 병목이 되는 시대에 CPU가 수천 개의 분산 작업을 오케스트레이션하는 "페이싱 요소"가 된다.

Hypura — 애플 실리콘용 LLM 추론 스케줄러

출처

Mac의 물리 메모리를 초과하는 LLM 모델을 GPU/RAM/NVMe 계층에 걸쳐 실행 가능하게 하는 Rust 기반 추론 스케줄러. M1 Max 32GB 벤치마크: Mixtral 8x7B(30.9GB) 2.2 tok/s, Llama 3.3 70B(39.6GB) 0.3 tok/s — llama.cpp는 두 경우 모두 OOM 크래시. Ollama 호환 HTTP API를 제공하여 기존 도구에 드롭인 대체 가능.

gitagent — AI 에이전트 시스템 프롬프트 표준화

출처

AI 에이전트 시스템의 설계·문서화·배포를 위한 Git 네이티브 프레임워크. YAML 기반으로 에이전트의 역할, 도구, 지시사항, 가드레일을 정의하고, 12개 어댑터로 다양한 프레임워크(Claude Code, OpenAI, CrewAI, Cursor, Gemini 등)로 내보내기 가능.

Chrome 146 + chrome-cdp-skill — 로그인된 브라우저를 CLI로 직접 제어

출처

Chrome 146부터 로그인된 브라우저에 CLI로 직접 붙을 수 있게 되었다. 배포 시마다 Jira 릴리즈 확인 → GitLab MR 찾기 → Confluence 문서 작성을 반복하던 30분짜리 작업을 한 줄 명령으로 자동화. "이미 로그인된 세션을 재활용"하므로 OAuth 셋업, API 키 발급 없이 바로 가능.

Expect — AI 에이전트가 브라우저에서 QA 수행

출처

AI 에이전트가 브라우저를 열고 직접 QA를 수행하며 영상까지 녹화해주는 오픈소스 도구. GitHub: https://github.com/millionco/expect


AI 슬롭 문제와 디자인 품질 도구

Moda — 109억 원 시드 라운드의 "AI slop을 죽이겠다"는 디자인 에이전트

출처

750만 달러(약 109억 원) 시드 라운드를 발표하며 정식 출시. "AI가 콘텐츠를 만드는 건 누구나 하지만, 결과물이 전부 비슷하게 생겼다 — 로고 색 안 맞고, 폰트가 브랜드와 무관하고, 레이아웃은 제네릭." 런칭 트윗이 하루 만에 230만 조회수.

pencil.dev — AI 슬롭 문제 해결 디자인 시스템 도구

출처

Claude Code나 Cursor로 뭘 만들어도 레이아웃이 그 레이아웃, 버튼이 그 버튼인 "AI 슬롭" 현상을 지적하며 pencil.dev를 소개. 디자인 시스템을 AI와 함께 잡는 도구로, 말로 설명하면 캔버스에 바로 그려준다.

Sleek Design Skill — 에이전트의 모바일 앱 디자인 품질 향상

출처

설치하면 에이전트가 즉시 더 나은 모바일 앱 디자인을 만든다. Claude Code, Codex 또는 스킬을 지원하는 모든 에이전트에서 작동.

Figma AI 캔버스 쓰기 기능 개방 — use_figma 도구

출처 1 | 출처 2

Figma가 캔버스에 직접 쓸 수 있는 use_figma 도구를 개방했다. 기존 Figma MCP는 read만 가능했으나, 이제 write도 가능. "AI한테 '로그인 페이지 만들어줘' 하면 Figma에 컴포넌트 기반 디자인이 생긴다." Figma-Anthropic 합동 라이브스트림이 3월 31일 예정이다.

바이브 코딩에 맞는 디자인 프로세스 — shadcn 기반 커스텀 디자인 시스템

출처

"어떤 디자인 시스템이 바이브 코딩과 잘 맞을까?" shadcn 기반 커스텀 디자인 시스템을 구축하고, "디자인 시스템 + Claude + Cursor" 조합으로 Linkkly 서비스를 개발 중이다.


영상 생성과 미디어 AI

CapCut Video Studio + Dreamina Seedance 2.0

출처 1 | 출처 2

CapCut이 웹 버전에서 타임라인 없이 영상을 제작하는 캔버스 기반 Video Studio를 공개했다. Dreamina Seedance 2.0이 기본 탑재되어, AI 에이전트와 대화하며 스토리를 짜고 즉시 고품질 영상을 생성하여 프레임 단위로 다듬을 수 있다.

OpenAI, Sora 서비스 종료

출처

OpenAI가 텍스트-비디오 생성 서비스 Sora의 종료를 발표했다. "Disregard That" 공격 글에서 Sora 종료의 가능한 이유(저작권 침해 디즈니 캐릭터 생성 방지의 어려움 등)가 분석된다.

Gemini Lyria 3 Pro — 더 긴 음악 트랙 생성

출처

Gemini에 Lyria 3 Pro가 탑재되어 더 긴 음악 트랙 생성이 가능해졌다. Google AI Plus, Pro, Ultra 사용자에게 롤아웃 중.

Freepik Relight — 이미지/영상 조명 변경 AI

출처

이미지뿐 아니라 영상까지 조명 변경이 가능한 Relight를 공개. 빛의 방향, 색, 강도를 조절하고 참고 이미지의 조명 효과를 적용할 수 있다.

오픈소스 1인 미디어 자동화 시스템 — 5개 포맷 자동 변환+배포

출처

AI가 쓴 글 하나로 블로그·인스타 카드·X 스레드·유튜브 쇼츠·뉴스레터 — 5개 포맷 자동 변환+배포 시스템을 오픈소스로 공개. Python 기반, 미니PC 하나로 24시간 1인 미디어 운영 가능.


비개발자의 AI 코딩 에이전트 채택

마케터와 Claude Code로 Marketing Mix Modeling 실습

출처

삼쩜삼의 마케팅 리드와 함께 Claude Code로 Google의 Marketing Mix Modeling인 Meridian을 4시간 만에 실습. 핵심 인사이트: 비개발자가 AI 코딩 에이전트를 쓸 때의 진짜 강점은 코드를 잘 짜는 것이 아니라, 도메인 전문성으로 AI의 아웃풋을 판단하고 교정하는 것이다.

AI FOMO를 잠재우는 법 — 마케터의 Claude Code 첫 도전기

출처

스타트업 그로스 마케터가 "눈 딱 감고" Claude Code Max 플랜을 결제하고, 2시간도 안 걸려 첫 에이전트를 만든 경험담.

일박이일 해커톤에서 사주 서비스 MVP 완성

출처

24시간 동안 사주 기반 5줄 요약 답변 서비스 MVP를 완성. 인스타그램으로 40개의 질문을 받았다.

KIST에서 클로드 코드 교육 실시 예고

출처

KIST(한국과학기술연구원)에서 클로드 코드 교육을 진행한다. 국가 연구기관에서 AI 코딩 에이전트 교육을 실시한다는 점에서, Claude Code가 연구 현장에서도 채택되고 있음을 보여준다.


Physical AI와 로보틱스

Elon Musk — Optimus

출처 1 | 출처 2

Elon Musk가 Tesla의 인간형 로봇 Optimus를 게시. 248,920 좋아요로 이 다이제스트에서 가장 많은 반응을 받았다. 별도 분석에서 Tesla Optimus가 단순히 가장 큰 제품이 아니라 노동과 제조업을 재작성할 수 있다는 평가.

Physical AI 데이터 수집의 현실적 어려움

출처

건설 현장용 소형 트랙터를 예시로, 모든 준비를 마친 후에도 발생하는 현실적 문제들: 비 오면 충전형 배터리 감전 위험으로 데이터 수집 중단, 하드웨어 내환경성 부족으로 차량 고장, 30cm 정지 데이터를 50cm로 잘못 레이블링, 녹화 버튼 누르지 않아 데이터 유실. "가장 먼저 시작한 팀이 가장 먼저 상용화 레벨에 도달한다."

로봇 모션 플래닝 서베이 — 범용 신경 모션 플래너로의 로드맵

출처

딥러닝 기반 로봇 매니퓰레이터 모션 플래닝 문헌을 체계적으로 정리한 서베이. 핵심 도전 과제: 데이터 희소성, 일반화, 실시간 적용, 안전 보장.

VP-VLA: 시각적 프롬프트를 인터페이스로 사용하는 VLA 모델

출처

VLA 모델에서 고수준 추론과 저수준 실행을 분리하여, 시각적 프롬프트를 명시적 인터페이스로 사용하는 이중 시스템 프레임워크. 실세계 폐기물 분류에서 OOD 성능이 63.3% → 85.0%로 크게 향상.

Chameleon: 에피소드 메모리 기반 장기 지평 로봇 조작

출처

인간의 내후각 피질-해마-전전두 피질 에피소드 메모리 시스템에서 영감을 받은 아키텍처. 에피소드 회상에서 DSR 100.0%, 순차 조작에서 DSR 72.2%를 달성하여 Diffusion Policy(0%)와 대조적.


주요 논문 — 에이전트와 벤치마크

CUA-Suite: 컴퓨터 사용 에이전트를 위한 대규모 인간 시연 영상 데이터

출처

87개 전문 데스크톱 앱에 걸쳐 약 10,000개 태스크, 55시간, 600만 프레임 분량의 연속 30fps 화면 녹화. 행동 예측 평가에서 현재 모델의 태스크 실패율은 약 60%. 행동 유형 정확도는 85.9%인 반면 좌표 그라운딩 정확도는 52.4%로, 올바른 행동 유형은 식별하지만 UI 요소의 정확한 위치 특정에 실패하는 비대칭이 두드러진다.

UI-Voyager: 실패 경험으로 학습하는 자기진화 GUI 에이전트

출처

AndroidWorld 벤치마크에서 4B 모델이 Pass@1 성공률 **81.0%**를 달성하여 보고된 인간 수준 성능을 초과. Claude Computer Use(40.5%), Gemini 2.5 Pro(53.6%), GPT-4.1(55.6%) 등 훨씬 큰 모델들을 크게 능가한다. 핵심은 GRSD(Group Relative Self-Distillation)로 실패 궤적에서 포크 포인트를 식별하여 단계별 교정 감독을 제공하는 것이다. Tencent Hunyuan 연구.

LLM 에이전트가 CFO가 될 수 있는가? — EnterpriseArena 벤치마크

출처

132개월(11년) 시뮬레이션으로 CFO 역할을 평가. 전체 실행 중 16%만이 생존했고, 가장 놀라운 결과는 9B Qwen3.5-9B가 80% 생존률로 397B Qwen3.5-397B(20%)를 4.9배 앞섰다는 점이다. GPT-5.4는 0% 생존률을 보이며 99.1%의 시간을 pass에 소비했다. 인간 전문가는 100% 생존률.

AI-Supervisor: 지속적 연구 세계 모델 기반 자동화된 연구 감독

출처

지속적 연구 세계 모델(Persistent Research World Model)로 방법론, 모듈, 벤치마크, 한계, 미탐색 갭을 지식 그래프로 구현. 교차 도메인 메커니즘 분석을 통해 평균 참신성 점수 20.6/25 달성, 도메인 내 검색(15.6)보다 32% 높았다. 비용은 1회 실행당 8~16달러.

GPT-5.4 Pro가 하이퍼그래프의 Ramsey형 수학 난제 해결

출처

전문가가 해결에 1~3개월 걸릴 것으로 추정한 미해결 수학 문제를 GPT-5.4 Pro가 해결했다. 이후 Opus 4.6(max), Gemini 3.1 Pro, GPT-5.4(xhigh)도 같은 문제를 해결했다.

STEM Agent: 생물학적 만능성에서 영감받은 다중 프로토콜 에이전트 아키텍처

출처

5개 프로토콜(A2A, AG-UI, A2UI, UCP, AP2)을 단일 게이트웨이 뒤에 구현한 최초의 프레임워크. 생물학적 세포 분화에서 영감받은 스킬 획득 시스템으로, 반복 패턴이 전구체→전념→성숙 수명주기를 거쳐 재사용 가능한 스킬로 결정화되거나 소멸된다.


주요 논문 — 비디오/비전/효율성

OmniWeaving: 통합 비디오 생성 프레임워크

출처

텍스트-비디오, 이미지-비디오, 비디오-비디오 합성을 단일 프레임워크로 통합. Seedance-2.0 같은 상용 시스템에 대한 오픈소스 대안.

AutoGaze: ViT 이전 중복 패치 제거로 비디오 이해 가속

출처

3M 파라미터의 경량 모듈로 시각 토큰을 4배~100배 감소, ViT를 최대 19배, MLLM을 최대 10배 가속. 30fps 4K 해상도 비디오에서 전체 패치의 1%만 선택하면서도 성능 유지. UC Berkeley, MIT, NVIDIA 공동 연구.

VISOR: 시각 정보를 버리지 않으면서 추론 비용을 줄이는 방법

출처

이미지를 압축하는 대신 이미지-텍스트 토큰 간 상호작용을 희소화한다. "easy" 태스크뿐 아니라 "hard" 태스크에서도 성능을 유지하는 점이 토큰 감소 방식과의 핵심 차별점. Samsung AI Cambridge 연구.

MinerU-Diffusion: 문서 OCR을 역렌더링으로 재정의

출처

자기회귀 디코딩을 시각적 조건부 병렬 확산 디노이징으로 대체. 자기회귀 베이스라인 대비 최대 3.26배 빠른 디코딩 속도. 언어적 사전지식 의존도가 낮아 시각적 OCR 능력이 더 강건하다. Shanghai AI Laboratory와 Peking University.

PhyGenesis: 물리적으로 일관된 자율주행 비디오 월드 모델

출처

물리적으로 비현실적인 궤적에서도 일관성을 유지하는 비디오 생성. CARLA Ego에서 FID 11.03/FVD 72.48로 DiST-4D(19.84/197.57) 대비 압도적 우위.

RealMaster: 렌더링 출력을 사실적 비디오로 변환

출처

GTA-V 시퀀스에서 사용자 연구(45명) 사실성 73%, 충실도 89%, 전반적 시각 품질 80%의 선호. CARLA 데이터에서도 크로스 시뮬레이터 일반화를 보였다. Tel Aviv University와 Meta Reality Labs.

LensWalk: 비디오 이해를 위한 에이전트 프레임워크

출처

LLM 추론기가 비디오의 어디를, 얼마나 조밀하게 관찰할지 직접 제어하는 다중 라운드 추론-계획-관찰 루프. LensWalk(o3)는 LVBench에서 68.6%(o3 단독 57.1% 대비 +11.5 포인트)를 달성.

EVA: 비디오 에이전트를 위한 효율적 강화학습

출처

"계획 후 인식" 패러다임으로, 에이전트가 시간 범위, 프레임 수, 공간 해상도를 모두 자율적으로 결정. SFT→KTO→GRPO 3단계 RL 파이프라인. SenseTime Research.


주요 논문 — RL/학습 메커니즘

Sparse but Critical: RLVR의 토큰 수준 메커니즘 분석

출처

RLVR은 극도로 희소하고 표적화된 변화를 유발한다. AIME 2024에서 시퀀스당 평균 38개(약 3.86%)의 RL 토큰만 주입해도 기저 모델 정확도 약 8%에서 RL 수준 25% 이상으로 회복. 역방향으로 약 5%의 RL 토큰을 교체하면 성능이 붕괴. RLVR은 전역적 정책 변환이 아니라 희소한 핵심 결정점에서의 표적화된 수정 메커니즘. Qwen Pilot Team(Alibaba Group).

자기 증류가 추론 능력을 저하시키는 이유

출처

성능 저하가 "Wait", "Hmm", "Perhaps" 같은 인식적 언어화(epistemic verbalization)의 억제에서 비롯된다는 발견. 교사에게 정답 솔루션을 제공하면 인식적 토큰이 182.5개 → 8.8개로 급감하고, 이 데이터로 학습하면 AIME24에서 54.79 → 20.21로 급락. Microsoft Research, KAIST, 서울대 공동 연구.

RL for Code Generation: 합성 데이터와 교육과정 학습

출처

다중 턴 합성 데이터 생성 파이프라인으로 교사 모델이 학생의 통과율에 따라 문제 난이도를 조정. 잘 설계된 교육과정이 무작위 셔플보다 일관되게 우수.

PLDR-LLM: 자기조직 임계성에서의 추론 발현

출처

파워 법칙 그래프 어텐션 메커니즘을 사용하는 대안적 트랜스포머에서, 추론 능력이 2차 상전이와 유사한 임계점에서 발현됨을 보였다. 글로벌 질서 매개변수로 벤치마크 없이 추론 능력을 정량화할 수 있다.


주요 논문 — 공정성/신뢰성/의료

CHANRG: RNA 이차 구조 예측 벤치마크가 리더보드를 뒤집다

출처

구조 인식 중복 제거를 적용하자 파운데이션 모델의 OOD 유지율이 26.7%에 불과한 반면, 구조화 디코더는 92.3%를 유지했다. 파운데이션 모델의 우월성이 허용적인 벤치마크 설정에 의해 부풀려진 것.

CarePilot: 의료 분야 장기 수평선 컴퓨터 태스크 자동화

출처

의료 어노테이션 도구, DICOM 뷰어, EHR 시스템 등 4가지 임상 시스템에 걸쳐 8~24단계의 복잡한 워크플로를 자동화. 약 15.26% 정확도 향상으로 SOTA 달성.

다중 에이전트 의료 MCQA 보정 프레임워크

출처

4개 전문 에이전트(호흡기, 심장, 신경, 소화기)와 2단계 검증으로, 모델이 "모른다"고 말할 수 있는 신호의 질을 개선하여 임상 의사 결정 지원에서의 안전한 AI 활용을 가능하게 하는 방향.

에이전틱 AI의 배포 전 신뢰성 감사 — 확률적 격차 프레임워크

출처

"에이전트에 HITL 감독이 필요하다"는 슬로건을 넘어, 어디서 자율성이 정당화되고 감독 비용이 경제적으로 실행 가능한지를 구체적으로 감사할 수 있는 마르코프 프레임워크.

중국 유치원에서의 AI 기반 교사-아동 상호작용 평가

출처

370시간 이상의 교실 오디오에서, FunASR의 CER을 9.9%에서 4.3%로 56.6% 감소시키고, 43개 교실에서 18배 효율 향상을 달성. 연간 전문가 감사에서 월간 AI 지원 모니터링으로의 패러다임 전환 가능성.


AI 시대의 커리어와 인재 이동

AI 파도를 타기 위해 토스 퇴사

출처

토스를 퇴사하고 AI 분야로 전향한다는 선언. 239개 댓글.

VC에서 Upstage TPM으로 — AI 최전선 합류

출처

4년간 VC로 다양한 AI 스타트업을 만나다가 Upstage에 Technical Program Manager로 합류.

AI 쓰는 사람 간 격차 확대 — Anthropic 보고서 분석

출처

Anthropic 보고서에 따르면 AI를 오래 쓴 사람은 더 어려운 일에 활용하고 성공률도 더 높다. 같은 도구인데 결과가 달라지는 이유를 분석.

"결국 어떤 직업도 안전하지 않다"

출처

"You eventually start to realize, no job is safe." 271개 댓글로 논쟁이 활발했다.

AI 개발에서 인간이 여전히 우위인 영역

출처

모호한 문제 해결, 비즈니스 목표·현실적 제약 이해, 시스템 아키텍처 설계, 팀 커뮤니케이션·공감·공유 이해.


미디어 전략과 알고리즘

a16z의 뉴미디어 전략 — 전통 미디어 완전 포기

출처

Marc Andreessen과 Ben Horowitz가 a16z의 미디어 전환 전략을 심층 논의. "지금은 30개 팟캐스트에 출연할 수 있고, 그 모든 팟캐스트가 과거 어떤 출판물보다 훨씬 더 큰 청중을 가지고 있다." Marshall McLuhan의 "TV에 나오면 TV 쇼"를 재정의하여 "인터넷에 있으면 바이럴 포스트." OODA 루프 개념으로 뉴욕타임스의 24시간 주기가 인터넷 속도에 뒤처져 심리적 붕괴를 겪고 있다고 분석.

소셜미디어 알고리즘 완전 해부 — Callaway Henderson

출처

알고리즘의 근본 목적은 사용자를 플랫폼에 최대한 오래 머물게 하는 것. 영상 게시 시 멀티모달 분석(컴퓨터 비전, 오디오, 메타데이터)으로 핏 스코어를 만들고 약 200명의 초기 샘플 테스트 그룹에 먼저 보여준다. 핵심: "게시 시간은 중요하지 않다. 해시태그도 중요하지 않다. 유일하게 중요한 것은 특정 아바타 그룹을 위한 좁은 주제 범위에서 훌륭한 영상을 반복적으로 만드는 것."


기타 주목할 콘텐츠

Y Combinator CEO Garry Tan의 gstack — AI 워크플로우 오픈소스

출처

Garry Tan이 매일 코딩에 사용하는 AI 워크플로우를 오픈소스로 공개. GitHub 3만 개 이상 스타, 하루 만에 수만 개씩 증가. 12개의 슬래시 명령어가 각각 특정 전문 역할에 매핑.

Feynman — Claude Code for Research

출처 1 | 출처 2

논문 하나를 분석 요청하면 30분 뒤 출처가 달린 메타 분석을 돌려주는 오픈소스 연구용 에이전트. MIT 라이선스.

/last30days — Lyft 공동창업자가 만든 Claude Code 리서치 스킬

출처

Reddit, X, YouTube, TikTok, Instagram Reels, Hacker News, Polymarket, 웹 — 8개 플랫폼을 동시에 검색. Greg Isenberg가 "치팅"이라고 불렀다. GitHub 스타 3,400개.

크리깅(Crigging) — AI 시대에 개념을 '내 것'으로 만드는 학습 스킬

출처

AI에게 바로 답을 주는 대신 "이게 없으면 어떻게 될까?", "방금 배운 걸 네 말로 다시 정리하면?" 같은 질문을 던지게 하는 소크라테스식 학습 스킬.

AI로 35년 전 고전 게임 한글화하기

출처

1993년 "키란디아의 전설 2: 운명의 손"을 AI와 리버스 엔지니어링으로 한글화. Claude Sonnet 4.6이 4,448개 문장을 약 10분 만에 초벌 번역. "가가가가" 버그 — 두 가지 원인이 동시에 존재하여 하나만 수정해도 증상이 동일하게 나타나는 난제를 해결.

TypeScript 6.0 발표

출처

JavaScript 코드베이스 기반의 마지막 릴리스로, Go로 작성되는 TypeScript 7.0으로 가는 브릿지 역할. TypeScript 7.0은 완성에 매우 근접해 있으며 VS Code 확장과 npm 패키지로 미리 사용 가능.

Video.js v10 — 88% 더 작아진 오픈소스 비디오 플레이어

출처

Video.js, Plyr, Vidstack, Media Chrome 4개 프로젝트가 합류한 16년 만의 대규모 재작성. ABR 포함 번들 크기 202.7 kB → 31.6 kB (84% 감소).

테슬라 Model 3 컴퓨터를 책상 위에서 구동하기

출처

Tesla 버그 바운티를 위해 MCU와 오토파일럿 컴퓨터를 eBay에서 $200~$300에 구입하여 책상 위에서 구동하는 전 과정 기록.

SentrySearch — Gemini 비디오 임베딩 기반 의미 검색 도구

출처

자연어로 영상 내 장면을 검색하는 CLI 도구. 1시간 영상 인덱싱에 약 $2.84. Tesla Sentry Mode 영상에 특화된 기능 포함.

해충 방제용 Vertical SaaS를 만들고 싶어 기술자로 취업했다

출처

$30B TAM의 해충 방제 시장에서, 입사 21일 만에 $30,000 ARR 달성. 소규모 업체를 인수하여 도구를 직접 구축하고 플랫폼으로 성장시키는 전략을 선택.

2026 Bio-AI 오픈소스 감사 보고서

출처

10개 주요 오픈소스 Bio-AI 리포지토리를 감사한 결과, 10개 중 8개가 T0(신뢰 미확립). "거의 모든 리포지토리가 출력을 생성할 수 있지만, 그 출력이 무엇을 의미하는지를 증명할 수 있는 리포지토리는 거의 없다."

Claude Computer Use — Mac 직접 조작

출처

Settings > Desktop > General > Computer Use ON (Pro/Max, macOS 전용). iPhone Dispatch로 지시하면 Mac에서 자동 실행.

Notion 리인트로덕션

출처

"Allow us to reintroduce ourselves." 158개 댓글.

Figma 200만 팔로워 달성

출처

LinkedIn에서 200만 번째 팔로워를 축하. AI 기반 캔버스 쓰기 기능 개방과 함께, AI 생태계의 핵심 디자인 인프라로 자리잡고 있다.

라이너(Liner), 연세대 전체에 제공

출처

연세대 4학년 컴퓨터과학과 학생으로 라이너를 시작한 창업자가, 공식적으로 연세 가족 전체에 라이너를 제공하게 되었다. "What a circle of life."

OpenAI 최신 레포에 Claude가 3번째 기여자

출처

OpenAI의 최신 레포지토리에서 Claude가 3번째 top contributor로 등장. OpenAI 직원들도 Claude Code를 사용하고 있다는 것을 암시하는 아이러니.

a16z 마크 앤드리슨 — "세상은 너무 원시적이다"

출처

"지금 우리가 사는 세상은 실제로 가능한 수준에 비해 너무 원시적이다. 문제는 기술이 나쁜 게 아니라 기술이 부족한 것이다."

Otter.ai CEO Sam Liang — 10년의 여정

출처

3,500만 사용자, ARR 1억 달러 돌파. "너에게 만들기 쉬우면, 다른 100명에게도 쉽다." 자체 음성 인식 기술 구축이 현재 비용 통제와 차별화의 원천이 되었다. "세계의 최소 99%가 아직 Otter 같은 도구를 도입하지 않았다."

LangChain Skills in LangSmith Fleet

출처

스킬은 "새 팀원에게 줄 브리핑 문서"와 같은 역할. 일반적으로 유능한 에이전트에서 특정 업무에 안정적으로 뛰어난 에이전트로 전환하는 핵심.

AI 면접 질문 총정리 레포지토리

출처

LLM 기초, 프롬프트 엔지니어링, RAG 시스템, AI 에이전트, 파인튜닝, LLMOps/프로덕션을 망라한 GitHub 레포. 레포 링크: https://lnkd.in/d4taMzvD

라과디아 공항 조종사들, 치명적 활주로 충돌 전 수개월간 안전 경고

출처

2026년 3월 23일 Air Canada Express 646편 충돌 사고. NASA 안전 보고 시스템에 수개월 전부터 조종사들의 경고가 접수되어 있었다. 관제사 부족, 노후 장비, 정부 셧다운으로 TSA 직원 450명 이상 퇴직.

프리텐다드(Pretendard) 폰트 추천

출처

"어느 업종 어느 디자인에 갖다 붙여도 중박 이상은 친다." 139개 댓글.

해외 디자인 리소스 팔만대장경 — 8,000개 링크

출처

그래픽, UI/UX, 3D, 건축, AI, 사운드 등 디자인 관련 대부분의 분야를 커버하는 8,000개 이상의 링크. 구글 독스에 카테고리화.

모두의 창업 — 혁신+로컬 창업 오디션

출처

모집 기간 2026.3.26 ~ 5.15, 4,000명 모집, 우승 상금 5억 원, 5억 원 내외 투자 연계, MVP 제작비 최대 1,000만 원.

Manus Pro 체험 이벤트 — 한국 사용자 대상

출처

20명 추첨으로 Manus Pro 제공. 31일까지.

Andrej Karpathy가 Superwhisper 사용

출처

OpenAI 창립 멤버이자 전 Tesla AI 디렉터가 Superwhisper(음성 입력 도구)를 사용하는 모습 공유.

바이오 AI 연구 1년 회고

출처

딥바이오 퇴사 후 proteomics·multi-omics 기반 바이오 데이터로 영역을 확장. AAAI2026 참석, 4월 arXiv 공개 예정 논문 작성 중.

이스라엘 보이콧 억압 법률은 시민 자유를 침해한다 — ACLU

출처

ACLU가 미국 여러 주의 반BDS 법률이 수정헌법 제1조를 침해한다고 주장. 두 연방 법원과 여러 헌법 학자들이 동의.


교차 분석

하네스 엔지니어링 × 모델 commodity화 × 바이브코딩 보안

세 가지 흐름이 하나의 서사로 수렴한다. 기반 모델이 commodity화되면서(Cursor의 중국 모델 사용 발각, "Model is a service"), 차별화는 모델 자체가 아닌 환경 설계(하네스 엔지니어링)와 도메인 데이터(도메인 특화 RL)에서 나온다. 그러나 이 환경 설계 없이 "바이브코딩"으로 빠르게 만들기만 하면 보안 취약점 2,000개와 API 키 400개가 노출되는 그림자가 드리운다. litellm 공급망 공격과 MCP 인젝션 연구는 이 위험이 이론적이 아니라 현실적임을 보여준다.

속도 vs 품질 논쟁 — 플랫폼을 넘어선 합의

Instagram 공동 창업자(Every 인터뷰), The Engineering Manager("속도를 늦춰야 빨라진다"), Anthropic의 하네스 실험, 자기 증류 논문("인식적 언어화 억제가 성능을 저하시킨다")이 모두 동일한 패턴을 다른 각도에서 조명한다: AI가 실행을 가속시킬수록, 실행 앞의 판단(시스템 2 사고)의 레버리지가 커진다. 논문 수준에서도, RLVR이 극소수 토큰의 표적화된 수정임을 보인 "Sparse but Critical"과, 교육과정 설계의 중요성을 실증한 "RL for Code Generation"이 같은 메시지를 전달한다.

에이전트 인프라의 양면 — 성숙과 취약성

Claude Code Auto Mode(분류기 기반 안전 자동화), Cloudflare Dynamic Worker Loader(100배 빠른 샌드박스), cq(에이전트 지식 공유)가 에이전트 인프라의 성숙을 보여주는 한편, T-MAP(에이전트 레드팀), TIP(MCP 인젝션), "Disregard That"(프롬프트 인젝션 근본적 한계)은 같은 인프라의 취약성을 동시에 노출시킨다. Anthropic의 Auto Mode 분류기(FNR 17%, FPR 0.4%)와 Cal Paterson의 "컨텍스트 윈도우 오픈 릴레이" 비유는 같은 문제의 공학적 해결 시도 vs 근본적 한계를 보여주는 대조다.

비개발자의 AI 채택 × 도메인 전문성의 가치

마케터의 Claude Code 첫 도전, Marketing Mix Modeling 실습, 사주 서비스 해커톤 등 비개발자 채택 사례와, "도메인 전문성으로 AI의 아웃풋을 판단하고 교정하는 것이 핵심"이라는 관점이 만난다. 해충 방제용 Vertical SaaS 사례(입사 21일 만에 $30,000 ARR)와 도메인 특화 RL 주장("리워드 신호는 한국 것이면 된다")이 같은 방향을 가리킨다: AI 시대에 가장 가치 있는 것은 코딩 능력이 아니라 특정 도메인의 깊은 이해다.

벤치마크가 뒤집어지는 현상

CHANRG(RNA 예측에서 파운데이션 모델의 OOD 유지율 26.7%), EnterpriseArena(9B 모델이 397B를 4.9배 앞섬), RAG 역설(검색 강화가 답변을 악화), Bio-AI 감사(10개 중 8개 신뢰 미확립), PyPI 분석("AI 앱 어디 있나?") — 여러 연구가 공통적으로 기존 평가 방법이 실제 일반화를 과대평가한다는 것을 데이터로 보여준다. 출력 품질만으로 능력을 판단하는 것의 위험성을 경고한다.


Powered by skim

seunan.dev — terminal
visitor@seunan.dev:~ $ banner
███████╗███████╗██╗ ██╗███╗ ██╗ █████╗ ███╗ ██╗ ██████╗ ███████╗██╗ ██╗ ██╔════╝██╔════╝██║ ██║████╗ ██║██╔══██╗████╗ ██║ ██╔══██╗██╔════╝██║ ██║ ███████╗█████╗ ██║ ██║██╔██╗ ██║███████║██╔██╗ ██║ ██║ ██║█████╗ ██║ ██║ ╚════██║██╔══╝ ██║ ██║██║╚██╗██║██╔══██║██║╚██╗██║ ██║ ██║██╔══╝ ╚██╗ ██╔╝ ███████║███████╗╚██████╔╝██║ ╚████║██║ ██║██║ ╚████║██╗██████╔╝███████╗ ╚████╔╝ ╚══════╝╚══════╝ ╚═════╝ ╚═╝ ╚═══╝╚═╝ ╚═╝╚═╝ ╚═══╝╚═╝╚═════╝ ╚══════╝ ╚═══╝ Welcome to seunan.dev Type 'help' for available commands
visitor@seunan.dev:~ $ 
! for AI mode