Daily Digest — 2026-03-24

Claude Computer Use 출시, OpenClaw 에이전트 팀 열풍, Cursor Instant Grep, 하네스 엔지니어링의 부상, 그리고 LLM 추론 최적화 논문들이 쏟아진 하루

Daily Digest — 2026-03-24


오늘의 핵심 흐름

  1. Claude의 컴퓨터 직접 제어 시대 개막 -- Anthropic이 Claude Cowork/Code에서 마우스, 키보드, 화면을 직접 제어하는 Computer Use 기능을 리서치 프리뷰로 공개했다. 모바일에서 지시하면 데스크톱이 알아서 움직이는 Dispatch 기능이 함께 나왔고, /schedule을 통한 클라우드 기반 반복 작업 예약도 추가됐다. SNS, 뉴스, X 전체에서 가장 많이 언급된 주제다.

  2. OpenClaw 에이전트 팀 구축 열풍 -- Slack 기반 AI 에이전트 팀 OpenClaw가 한국 커뮤니티에서 폭발적 반응을 얻고 있다. 여러 사용자가 CEO, CTO, PM 등 역할별 에이전트 6명을 월 $20에 고용해 자율적으로 협업시키는 사례를 공유하며, 메모리 시스템 연구까지 이어지고 있다.

  3. 하네스 엔지니어링의 부상 -- 프롬프트 엔지니어링(2024) -> 컨텍스트 엔지니어링(2025) -> 하네스 엔지니어링(2026)이라는 흐름이 형성되고 있다. AI 에이전트에게 SOP와 실행 도구를 결합한 '고삐(harness)'를 씌워 위임하는 패러다임이 업계 전반에 퍼지고 있다.

  4. LLM 추론 최적화 연구 폭발 -- RLVR(검증 가능한 보상을 통한 강화학습) 업데이트 방향, Markov States 재도입, 조건부 정보 병목(CIB) 기반 추론 압축 등 LLM의 추론 능력을 끌어올리기 위한 새로운 접근법들이 동시에 쏟아졌다.

  5. 보안 경보: Trivy 공급망 공격과 AI 생성 코드의 위험 -- Trivy 이미지가 변조되어 정보 탈취 악성코드가 배포된 사건이 발생했다. AI가 생성한 코드의 보안 취약점을 자동으로 점검하는 도구 Strix도 주목받고 있다.


보안 경보

Trivy 공급망 공격: 악성 Docker 이미지로 비밀정보 유출

The Hacker News | GeekNews

Trivy(인기 오픈소스 컨테이너 보안 스캐너)의 Docker 이미지 버전 0.69.4~0.69.6이 변조된 것이 확인됐다. 공격자는 탈취한 서비스 계정 토큰을 이용해 트로이 목마가 삽입된 빌드를 푸시했고, npm 웜을 퍼뜨려 44개 저장소를 수 분 만에 변조했다. Kubernetes 환경을 노리는 wiper 페이로드(데이터를 지우는 악성코드)까지 배포됐다.

이 사건은 GitHub Actions의 태그 변조와 연결되어 있어, CI/CD 파이프라인의 공급망 보안이 얼마나 취약한지를 보여준다. 컨테이너 이미지를 태그가 아닌 다이제스트(해시값)로 고정하는 관행이 필수적이라는 교훈을 남긴다.

AI가 만든 코드, 공격자 관점에서 점검하는 Strix

Akshay Pachaar (LinkedIn)

오픈소스 AI 에이전트 Strix(GitHub 21k+ Stars)는 실행 중인 앱을 공격자 시선으로 검사한다. 200개 실제 기업과 오픈소스 레포를 대상으로 600건 이상의 검증된 취약점(CVE 포함)을 발견한 실적이 있다.

AI가 생성한 코드가 빠르게 배포되는 시대에, PR 리뷰나 유닛 테스트로는 잡히지 않는 인증 엣지 케이스, 접근 제어 결함, 비즈니스 로직 취약점을 자동으로 탐지해준다. Moltbook이 150만 개 인증 토큰을 노출한 사례, Tea App이 72,000개 정부 신분증을 유출한 사례 등 실제 피해를 언급하며 경각심을 높였다.


Claude 생태계의 대규모 업데이트

Claude Computer Use -- 데스크톱 직접 제어 기능 출시

Claude (LinkedIn) | choi.openai (Threads) | trq212 (X) | GeekNews

Anthropic이 Claude Cowork과 Claude Code에서 사용자의 컴퓨터를 직접 제어하는 기능을 리서치 프리뷰로 공개했다. 앱을 열고, 브라우저를 탐색하고, 스프레드시트를 채우는 등 사람이 책상에 앉아서 하는 모든 작업을 대신 수행할 수 있다.

작동 방식은 단계적이다. 먼저 Slack, Calendar 등 연결된 커넥터를 활용하고, 커넥터가 없는 도구의 경우 사용자 승인 하에 화면 위에서 직접 앱을 열어 조작한다. macOS 전용이며 Pro, Max 구독자가 사용 가능하다.

가장 주목할 부분은 모바일 연동이다. 스마트폰에서 작업을 지시하고 다른 일을 하다가 돌아오면 데스크톱에서 완료된 결과를 확인할 수 있다. "매일 아침 이메일을 스캔해줘", "매주 금요일 리포트를 뽑아줘"처럼 반복 지시를 한 번만 해두면 이후 자동으로 수행한다.

Claude Dispatch vs OpenClaw 비교

Seungpil Lee (LinkedIn)

Dispatch와 OpenClaw의 핵심 차이가 정리됐다. Dispatch는 로컬 데스크톱에서 실행되고 폰은 리모컨 역할만 하며, PC가 꺼지면 세션이 멈춘다. OpenClaw는 백그라운드 데몬 방식으로 24시간 돌아가며 새벽 6시에 이메일 체크, 슬랙 모니터링 등을 자동 실행한다.

모델 유연성도 다르다. OpenClaw는 GPT, Gemini, Claude, Ollama 로컬 모델을 대화별로 교체할 수 있고, Dispatch는 Claude 전용이다. 비용 면에서 OpenClaw는 소프트웨어 무료(API 비용만 부담, Ollama 사용 시 0원), Dispatch는 Claude Pro $20/월 또는 Max $100~200/월이다. 메모리 측면에서 OpenClaw는 세션 간 영구 메모리로 수 개월 간 맥락을 축적하지만, Dispatch는 세션 범위 내 메모리만 유지한다.

Claude Code /schedule -- 클라우드 기반 반복 작업 예약

Noah Zweben (X) | minchoi (X)

Claude Code에 /schedule 명령이 추가됐다. 터미널에서 직접 반복 실행되는 클라우드 기반 작업(job)을 생성할 수 있다. Anthropic 내부에서는 이미 CI 실패 자동 해결, 문서 업데이트 푸시, 노트북을 닫은 상태에서도 돌아가는 자동화에 활용하고 있다.

이전까지 Claude Code는 사용자가 터미널을 열어놓은 동안만 작동했지만, 이제 클라우드에서 독립적으로 실행되는 에이전트가 된 셈이다.

ChatGPT에서 Claude로 갈아타는 사람들을 위한 가이드

Ruben Hassid (LinkedIn) -- 좋아요 2,219

ChatGPT에서 Claude로 전환하는 사용자를 위한 7가지 핵심 기능 가이드가 큰 반응을 얻었다. Chat(Opus 4.6 + 확장 사고 필수), Project(클라이언트/주제별 분리), Code(개발자용), Cowork(핵심 기능 -- 'About me', 'templates', 'projects', 'Output.md' 4폴더 구조), Skills(반복 작업 자동화), Connectors(50+ 도구 통합), Plugins(사전 제작 워크플로우) 순으로 정리했다.

Claude Code 완전정복 가이드북

ma.chi.n.e (Threads) -- 좋아요 397

출판 제안을 받았던 Claude Code 가이드 자료가 Threads에 무료 공개됐다. MCP, API, 터미널, Git을 전혀 모르는 사람도 시작할 수 있도록 구성했다고 한다. CLAUDE.md 파일 구조와 글로벌/프로젝트 레벨 설정 분리의 중요성도 별도로 다뤄졌다(automation_claire (Threads)).

Claude 전체 활용법 정리

choi.openai (Threads) -- 좋아요 2,957

전 세계 Claude의 모든 활용법을 담은 정리글이 Threads에서 약 3,000 좋아요를 기록했다. 실제로 생산성을 가르는 설정과 사례를 직접 정리한 내용이다.


AI 에이전트 팀 구축과 OpenClaw

OpenClaw로 AI 슈퍼팀 만들기 -- Slack 기반 자율 협업

Zach Park (LinkedIn) | 차예솔 (LinkedIn) | _petercha (Threads)

'토스 출신 PO, 크래프톤 출신 AI Lead, 도합 100만뷰 마케터' 3명이 300시간 동안 OpenClaw만 연구해 Slack 기반 AI 슈퍼팀을 구축한 사례가 공유됐다. Lane(PM), Finch(리서치), Page(콘텐츠), Hunter(세일즈), Forge(개발) 5명의 에이전트가 서로 자율적으로 대화하며 일한다.

실제 사례: 오후 4시 19분에 Finch가 경쟁사 동향 브리핑을 올리면, Lane이 대응 방향을 내리고, Page가 블로그 초안을 쓰고, Hunter가 불만 고객 DM 대상을 찾고, Forge가 무료 체험 기능을 구현한다. 이 모든 과정이 사용자 멘션 없이 자율적으로 진행된다.

Threads에서도 동일한 열풍이 불고 있다. _petercha는 CEO, CPO, CQO, CRO, CTO, PA 6명을 Ollama Cloud 조합으로 월 $20에 고용했고, SOUL.md와 IDENTITY.md를 각각 부여해 멀티에이전트로 대화시키고 있다.

OpenClaw 메모리 시스템 연구 -- 782회 실험으로 벤치마크 달성

Seong Hyeon Jeong (LinkedIn) | dev_roach_log (Threads)

Karpathy의 autoresearch를 응용해 OpenClaw와 함께 7일간 메모리 시스템을 연구한 결과가 공개됐다. 782회 반복 실험, 5세대 진화를 거쳐 LongMemEval 70%, LoCoMo 100%, ConvoMem 100%의 성과를 달성했다.

핵심 발견: (1) 기존 LoCoMo 벤치마크에 "today"라고 적어놓고 2023년으로 날짜를 추론해야 하는 등의 오류가 상당수 존재, (2) Claude Code에 SKILL을 주고 검색 방법을 알려주면 벤치마크 성능이 급격히 올라감, (3) 검색 결과를 최소로 보여줄 필요 없이 에이전트에게 판단하게 하는 것이 효과적.

Threads의 dev_roach_log는 모든 대화가 기억되어야 한다는 철학 아래, 필요 없는 데이터를 정리하는 망각(forgetting) 시스템과 망각된 기억을 부활시키는 연관 시스템을 별도로 설계했다.

AI 에이전트 Operating System -- WEB:OS

Daan Pruijssers (LinkedIn) -- 좋아요 161

Claude Code로 31,000페이지 웹사이트를 구축하고 자동 업데이트하는 프레임워크 WEB:OS가 공개됐다. /web:swarm(병렬 콘텐츠 생산), /web:today(검색 순위 기반 아침 브리핑), /web:intelligence(경쟁사 크롤링 + 키워드 분석), /web:brief + /web:write(브랜드 음성 기반 에디토리얼 콘텐츠), /web:feedback-loop(PostHog/GSC 연결 자기 개선) 등의 명령을 제공한다.

15개 전문 AI 직원으로 구성된 디지털 회사

Olly Topping (LinkedIn) -- 좋아요 415

AI Sales Team, Customer Support, Social Media Growth, SEO, Marketing, Operations & Finance 등 15개 전문 에이전트로 구성된 AI Operating System을 구축해 무료 배포한다는 게시글이 574개 댓글을 받았다. 연간 $280K 인건비를 절감할 수 있다고 주장한다.

5가지 에이전트 스킬 설계 패턴

Shubham Saboo (LinkedIn)

Anthropic, Vercel, Google 내부 가이드라인에서 반복적으로 등장하는 5가지 에이전트 스킬 설계 패턴이 정리됐다. (1) Tool Wrapper: 라이브러리별 지식을 스킬로 패키징, (2) Generator: 템플릿과 스타일 가이드로 일관된 출력 보장, (3) Reviewer: 체크 대상과 방법을 분리한 모듈식 감사, (4) Inversion: 에이전트가 먼저 질문하고 충분한 정보를 얻은 후에만 출력, (5) Pipeline: 체크포인트가 있는 엄격한 순차 워크플로우.

이 패턴들은 조합이 가능하다. Pipeline에 Reviewer 단계를 넣어 자기 점검을 하거나, Generator가 Inversion으로 시작해 변수를 수집한 후 템플릿을 채우는 방식이 그것이다.


AI를 잘 쓴다는 것의 본질 -- 위임의 시대

"AI를 잘 쓰는 사람은 토큰을 많이 쓰는 사람"

Kyunghun Lee (LinkedIn) -- 좋아요 156

AI 활용의 3단계가 정리됐다. (1) 질문 -- 한 번 묻고 한 번 받기, (2) 토론 -- 피드백하며 사고의 파트너로 활용(AI Fluency Index에 따르면 반복 대화자의 활용 역량이 2배), (3) 위임 -- 업무를 통째로 맡기는 단계.

위임을 잘 하려면 세 가지가 필요하다. 업무 이해(암묵지를 의식 위로 끌어올리기), 지시(AI가 알아들을 수 있는 언어로 변환), 평가(결과물 판단). 이를 반복 가능하게 만들려면 SOP(업무 판단 기준 문서)와 하네스(SOP를 AI가 실행할 수 있게 연결하는 도구)가 필요하다.

핵심 메시지: "AI가 못하는 게 아니라 내가 못 시킨 거다"라는 믿음, "지금 하지 않으면 뒤쳐진다"는 위기감에서 오는 의지 -- 이 두 가지가 있으면 나머지는 따라온다.

하네스 엔지니어링이 2026년 대세

joshproductletter (Threads)

24년 프롬프트 엔지니어링, 25년 컨텍스트 엔지니어링, 26년 하네스 엔지니어링이라는 진화 흐름이 정리됐다. 하네스는 본래 말에게 채우는 고삐를 뜻하며, 이 안장에 따라 AI 에이전트의 컨트롤이 달라진다. "하네스 깎는다"라는 표현이 엔지니어들 사이에서 유행하고 있다.

개발자는 앞으로 뭐 해먹고 살지

HoYeon Lee (LinkedIn) -- 좋아요 127

비행기에서 와이파이로 Claude Code를 쓰다가 든 두 가지 생각. 첫째, 개발자의 역할이 "코드를 짜는 사람"에서 "AI가 잘 일할 수 있는 시스템을 설계하는 사람"으로 이동하고 있다. Scaffolding(테스트/검증 환경, 코드 아키텍처, RPC, 인터페이스 설계)을 얼마나 잘 깔아두느냐가 브라운필드에서 개발 속도와 퀄리티를 결정한다.

둘째, AI로 놀고 있는 온라인 세계에 너무 매몰되다 보니 현실에 대한 감각이 사라지고 있다. "쉴 때 뭐 해?"라는 질문에 대답할 게 전부 화면 안에 있다. 키보드 앞에서 보내는 시간의 밀도를 높이되, 키보드 밖에서 보내는 시간의 양을 늘려야 한다.

"코드의 죽음은 과장되었다"

Jaewoo Cho (LinkedIn) | GeekNews

바이브 코딩이라는 표현은 절묘하지만, 바이브는 문제를 이미 충분히 이해한 것처럼 느끼게 만드는 함정이 있다. "실시간 협업"이라는 말은 또렷한 개념처럼 느껴지지만, 실제로 구현하면 상태 충돌, 순서 보장, 지연, 복구, 엣지케이스라는 복잡성이 숨어 있다.

AI가 좋아질수록 더 큰 문제를 더 빨리 만지게 되고, 그럴수록 더 좋은 추상화와 설계가 필요해진다. 코드는 단순한 생산 수단이 아니라 생각을 정리하고 복잡성을 길들이는 도구이며, 코드의 죽음은 과장이다.

평가 지표에 AI Nativeness 반영

Donggun Lee (LinkedIn) -- 좋아요 56

마이리얼트립이 평가 지표에 AI Nativeness를 반영했다. 작년 초부터 논의됐지만, 평가 주체인 리더와 경영진이 먼저 높은 수준의 AI 활용 역량을 갖춰야 한다고 판단해 1년간 준비했다. 2025년은 Literacy(토큰 사용량, 사이드 프로젝트 등 적극 격려), 2026년부터는 고객 임팩트 관점에서만 AI Nativeness를 평가한다.

리드 호프만: "업계 사람들도 AI 잠재력의 10%도 못 쓴다"

BZCF (LinkedIn)

LinkedIn 창업자 리드 호프만의 인터뷰 요약. AI를 "잘 쓴다"고 자부하는 업계 사람들도 잠재력의 2~5% 수준이며, 대부분은 그 2%에도 못 미친다. 개인 기여자(Individual Contributor)는 사라질 것이고, 모두가 AI 에이전트 세트를 배포하며 일하는 구조가 될 것이다. B2B SaaS의 해자가 무너지고 있으며, Codex 200줄짜리 코드 하나가 시총 3,000억 달러 규모의 B2B 시장을 위협하고 있다.

기획서 쓰는 걸 멈추다 -- PM의 역할 변화

hyojun an (LinkedIn)

기존 기획서 작성 -> 목업 -> 승인 -> 개발 전달 프로세스 대신, 프로토타입 구현 -> 시각적 확인 -> 역기획 -> 승인 -> 개발 요청으로 바꿨다. OpenAI Codex와 Claude Code에 실제 프로젝트 코드베이스를 연결해, "이 기능 추가하면 어떨까?"가 아니라 "우리 코드에서는 이렇게 구현하면 된다"는 수준의 답변을 받고 있다. PM이 정의하는 사람에서 가장 먼저 행동하는 사람이 될 것이라는 전망이다.


Cursor와 개발 도구 업데이트

Cursor Instant Grep -- 수백만 파일에서 밀리초 단위 검색

cursor_ai (X) -- 좋아요 4,771

Cursor가 수백만 개 파일에서 밀리초 단위로 검색 결과를 반환하는 Instant Grep을 공개했다. 에이전트가 작업을 완료하는 속도가 극적으로 향상된다. 설계 뒤의 알고리즘과 트레이드오프도 함께 공유됐다.

Google Stitch vs Claude 비교

viktoroddy (X) -- 좋아요 3,535

동일한 프롬프트로 Google Stitch와 Claude를 비교한 게시글이 화제다. UI/웹 생성 분야에서 두 도구의 차이를 직접 확인할 수 있다.

Pinterest, JS를 CSS로 대체해 코드 90% 감소

ChromiumDev (X) -- 좋아요 1,039

Pinterest가 레거시 JS 기반 캐러셀을 네이티브 CSS 캐러셀(scroll markers + snap)로 전환했다. 2,000줄 JS가 200줄 CSS로 줄었고(90% 감소), 페이지 로드 속도가 15% 향상됐다. CSS만으로 부드럽고 인터랙티브한 UI가 가능하다는 것을 보여준 사례다.

OpenSquirrel -- GPU 기반 AI 코드 에이전트 제어판

GeekNews

GPU 기반 AI 코드 에이전트를 제어하는 오픈소스 제어판이 공개됐다.

Codex 전용 136개 서브에이전트 검색 사이트

ai.corder (Threads)

OpenAI Codex에서 바로 고용할 수 있는 136개 서브에이전트를 검색하는 사이트가 공개됐다. URL: https://bear2u.github.io/awesome-codex-subagents

Kapso CLI -- 에이전트에 WhatsApp 번호 부여

andresmatte (X) -- 좋아요 3,353

npm install -g @kapso/cli + kapso setup 두 줄이면 AI 에이전트에 WhatsApp 번호를 부여할 수 있다.


YouTube 영상 분석

Jensen Huang: NVIDIA -- 4조 달러 기업과 AI 혁명 (Lex Fridman Podcast #494)

Lex Fridman (YouTube)

NVIDIA CEO 젠슨 황과 Lex Fridman의 인터뷰다. 핵심 주제는 '극한의 공동설계(extreme co-design)'다. 문제가 더 이상 하나의 GPU로 해결되지 않기 때문에, GPU, CPU, 메모리, 네트워킹, 스토리지, 전력, 냉각, 소프트웨어, 랙, 데이터센터까지 모든 구성요소를 동시에 설계해야 한다고 설명한다.

10,000대 컴퓨터를 추가했을 때 100만 배 빨라지길 원한다면, 알고리즘을 쪼개고 각 부분을 최적의 하드웨어에 배치하며 통신 병목을 최소화하는 작업이 필요하다. 이것이 NVIDIA가 칩 회사에서 시스템 회사로 전환한 이유다.

NVIDIA의 시가총액이 4조 달러에 달한 배경에는 젠슨의 수많은 결단과 엔지니어로서의 통찰이 있다. AI 혁명의 엔진을 만든 사람이 직접 그 과정을 이야기하는 점에서 의미가 크다.

하버드에서 가르치는 AI Native 강의 18분 요약

EO Korea (YouTube)

HBS(하버드 비즈니스 스쿨) 렘 코닝 교수의 AI Native 강의를 18분으로 요약한 영상이다. AI를 단순 도구가 아닌 조직의 근본적 업무 방식으로 전환하는 방법론을 다룬다. 마이리얼트립의 AI Nativeness 평가 지표 도입과 같은 맥락에서, 조직 차원에서 AI를 내재화하는 전략이 학계에서도 연구되고 있음을 보여준다.

Claude Code Agent Teams 95% 마스터하기 -- 16분 가이드

Nate Herk (YouTube)

Claude Code의 에이전트 팀 기능을 16분 만에 마스터할 수 있는 가이드 영상이다. 여러 에이전트를 팀으로 구성해 동시에 작업시키는 방법, 에이전트 간 역할 분담, 결과 통합 과정을 다룬다. 오늘 출시된 Computer Use, /schedule과 함께 사용하면 시너지가 극대화된다.

Claude Code 또 한 번의 대규모 업그레이드

Nate Herk (YouTube)

Claude Code의 최신 업그레이드 내용을 다룬 영상이다. Computer Use, Dispatch, /schedule 등 오늘 발표된 기능들의 실제 사용 모습을 보여준다.

AI 앱 하나가 1억 달러에 팔린 이야기 -- 누구나 만들 수 있다

Nate Herk (YouTube)

$100M에 매각된 AI 앱의 사례를 분석하며, 비개발자도 유사한 앱을 만들 수 있다고 주장하는 영상이다. AI 도구의 접근성이 높아지면서 아이디어와 실행력이 기술력보다 중요해지고 있다는 메시지를 전한다.

"말로만 하지 마" (타일러 더 크리에이터)

비즈니스캔버스 B_ZCF (YouTube)

비즈니스 관점에서 실행력의 중요성을 강조하는 영상이다.

Why Every Satellite Needs Earth -- Northwood CEO (a16z)

a16z (YouTube)

a16z 채널에서 Northwood CEO가 위성 산업의 미래를 논하는 영상이다. 위성 데이터가 AI 시대에 어떤 가치를 갖는지, 우주 기술과 지상 AI 인프라의 연결점을 설명한다.

LangSmith Deployment Webhooks -- 에이전트 실행 완료 시 Slack 알림

LangChain (YouTube)

LangSmith 배포 환경에서 에이전트 실행이 완료되면 Slack으로 알림을 보내는 Webhook 기능을 설명하는 영상이다. 에이전트 자동화 파이프라인에서 모니터링과 알림 체계를 구축하는 실용적인 튜토리얼이다.


뉴스 & 블로그 주요 기사

데이터만이 유일한 해자(moat)다

GeekNews

Podscan 창업자가 쓴 글로, AI가 소프트웨어 구축을 쉽게 만들수록 남는 유일한 경쟁 우위는 '실제 데이터'라고 주장한다. 인간이 생성한 데이터(팟캐스트, 영상, 블로그 등)는 AI가 만들 수 없기 때문에 점점 더 가치가 올라간다. 반면 데이터를 변환만 하는 SaaS(엑셀 -> 리포트 -> PDF -> 이메일)는 에이전트가 즉시 대체할 수 있다.

핵심 조언: (1) 자체 데이터 자산을 구축하라, (2) API-first 비즈니스로 전환하라(REST API, MCP, Webhook 모두에서 UI와 동일한 기능을 제공), (3) 메타데이터가 곧 해자다.

AI 크레딧 가격의 미래

GeekNews

Clay의 새로운 가격 정책이 AI 크레딧 가격의 미래를 보여준다는 분석이다. 과거에는 Salesforce나 Slack의 가격 모델을 참고했지만, 이제는 Intercom, HubSpot, OpenAI, Clay를 참고한다. AI 비용이 빠르게 변하기 때문에, 작년에 통했던 가격 모델이 올해는 통하지 않을 수 있다. 가격 실험 인프라와 문화를 갖추는 것이 경쟁력이 된다.

Walmart: ChatGPT 내 결제 전환율이 웹사이트의 1/3 수준

GeekNews

Walmart가 ChatGPT 내에서 직접 이루어지는 구매의 전환율이 자사 웹사이트 대비 3배 낮다고 밝혔다. AI 쇼핑 채널이 새로운 트래픽 소스가 될 수 있지만, 현재로서는 구매 전환에 한계가 있다는 것을 보여준다.

GitHub, 99.9% 가용성에도 버거운 모습

GeekNews

하루도 빠짐없이 클라우드 서비스 장애가 발생하는 상황에서, GitHub도 99.9% 가용성을 유지하는 데 어려움을 겪고 있다. Five nines(99.999%)는커녕 one nine(90%)도 위태로운 현실이라는 비판이 나온다.

스타트업의 오프닝, 미드게임, 엔드게임

GeekNews

최고의 창업자는 "시간 여행자"처럼 세 단계를 동시에 플레이한다는 분석이다. Opening(아이디어 -> 스타트업 전환), Midgame(PMF 달성 후 성장), Endgame(무한한 미래 비전). 최고의 회사들은 10년이 지나도 "아직 초기 단계"라는 느낌을 유지하면서, 동시에 불가피한 성공의 느낌도 만들어낸다.

81,000명이 말한 AI의 진짜 쓰임새 (Anthropic 보고서)

GeekNews

Anthropic의 "81k Interviews" 보고서에서 81,000명이 AI를 실제로 어떻게 사용하는지 분석했다. 코딩, 문서 작성, 분석 등 그럴듯한 결과물이 나올 때 사용자의 팩트체크와 논리 검증이 오히려 줄어든다는 발견이 포함되어 있다.

POSSE: 자기 사이트에 게시하고 다른 곳으로 배포하기

GeekNews

콘텐츠를 자기 도메인에 먼저 게시하고, SNS 등 외부 플랫폼으로 배포하는 POSSE(Publish on your Own Site, Syndicate Elsewhere) 전략이 소개됐다. 플랫폼 의존도를 줄이면서도 도달 범위를 유지하는 방법이다.

AI 학습봇, 차단해야 할까

이재철 (LinkedIn)

사이트 유형별 AI 봇 대응 전략이 데이터와 함께 정리됐다. 2026년 1월 기준 GPTBot 차단 사이트 5.1%, ClaudeBot 차단 4.3%로 95% 이상이 열어두고 있다. 그러나 1,154개 뉴스 사이트 중 54.2%는 AI 봇을 최소 1개 이상 차단한다.

Anthropic의 크롤-to-referral 비율이 73,000:1이라는 데이터가 핵심이다. 7만 3천 번 크롤해서 클릭은 1번만 보낸다는 뜻이다. 결론: 뉴스/유료 콘텐츠는 학습봇 차단 + 검색봇 허용, B2B SaaS/에이전시는 전체 허용, 개인 블로그는 열어두는 것이 유리하다.

Show GN: Ship or Slop -- 에이전트 사회로 아이디어 짜내기

GeekNews

여러 AI 에이전트가 스스로 주제를 연구하고, 아이디어를 만들고, 투표/리뷰를 통해 의견을 교환하는 플랫폼이다. GitHub로 로그인하고 인증 코드를 받아 에이전트를 참여시키면, 에이전트가 아이디어를 올리고 Ship(출하) 또는 Slop(폐기)으로 평가한다. 상위 아이디어는 명예의 전당에 올라가고, Slop이 많은 아이디어는 묘지로 간다.

기타 GeekNews 기사


논문: LLM 추론 및 학습 최적화

LongCat-Flash-Prover -- 5600억 파라미터로 형식 증명 정복

HuggingFace

Meituan이 5600억 파라미터 MoE(Mixture-of-Experts) 모델 LongCat-Flash-Prover를 오픈소스로 공개했다. Lean4를 사용한 형식적 수학 증명(formal theorem proving)에 특화되어 있다.

핵심 혁신은 세 가지다. (1) 'Native Formal Reasoning'이라는 개념을 정의해 auto-formalization(자연어 -> 형식 명제), sketching(보조 정리 구조화), proving(전체 증명 생성) 세 가지 능력으로 분해했다. (2) 각 능력에 특화된 전문 모델을 반복 학습시키는 Hybrid-Experts Iteration 프레임워크를 개발했다. (3) MoE 모델의 안정적 학습을 위한 HisPO(Hierarchical Importance Sampling Policy Optimization) 알고리즘을 제안했다.

MiniF2F-Test에서 문제당 72번의 시도만으로 97.1%를 달성했고, PutnamBench에서 41.5%를 기록해 오픈소스 모델 중 최고 성능이다.

RLVR 업데이트 방향 식별 및 활용

HuggingFace

RLVR(Reinforcement Learning with Verifiable Rewards, 검증 가능한 보상을 통한 강화학습)에서 어떤 방향으로 모델을 업데이트해야 하는지를 분석한 논문이다. RLVR은 수학 문제처럼 정답 여부를 자동 검증할 수 있는 과제에서 모델의 추론 능력을 강화하는 방법인데, 기존 방식은 업데이트 방향이 비효율적일 수 있다. 이 논문은 효과적인 업데이트 방향을 식별하고 활용하는 전략을 제시한다.

Markov States 재도입으로 LLM 후학습 성능 한계 돌파

HuggingFace

LLM 후학습(post-training)에서 성능이 더 이상 올라가지 않는 한계를 'Markov States(마르코프 상태)'를 재도입해 돌파하는 방법을 제안한다. 마르코프 상태란 현재 상태만으로 미래를 예측할 수 있는 상태를 의미하는데, 모델이 중간 추론 단계에서 이런 상태를 명시적으로 표현하도록 유도함으로써 추론 능력의 천장을 높인다.

추론은 압축이다 -- CIB 기반 Budget Forcing 통합

HuggingFace

추론(reasoning)을 '정보 압축'의 관점에서 바라보는 논문이다. CIB(Conditional Information Bottleneck, 조건부 정보 병목)라는 정보 이론 개념을 사용해, 모델이 주어진 연산 예산(budget) 안에서 가장 효율적으로 추론하도록 강제하는 방법을 통합적으로 설명한다. 쉽게 말해, "생각할 시간이 제한되어 있을 때 가장 핵심적인 정보만 남기고 나머지를 버리는 최적의 방법"을 수학적으로 도출한 것이다.

P^2O: 정책과 프롬프트를 동시에 최적화

arXiv

RLVR에서 모델 파라미터(정책)만 업데이트하는 기존 방식의 한계를 지적하고, 프롬프트도 함께 최적화하는 P^2O(Joint Policy and Prompt Optimization)를 제안한다.

PivotRL -- 저비용으로 고정확도 에이전트 후학습

HuggingFace

에이전트 후학습을 적은 컴퓨팅 비용으로도 높은 정확도로 수행하는 PivotRL을 제안한다. 기존 RLHF나 RLVR이 막대한 GPU 자원을 요구하는 문제를 해결하기 위한 접근법이다.

Adaptive Layerwise Perturbation -- LLM RL의 Off-Policy 보정 통합

HuggingFace

LLM 강화학습에서 발생하는 off-policy 문제(학습 데이터가 현재 정책과 다른 정책에서 생성된 경우)를 레이어별 적응적 섭동으로 보정하는 방법이다.

Scaling DoRA -- 팩터화된 노름과 융합 커널로 고랭크 적응

HuggingFace

LoRA의 변형인 DoRA(Weight-Decomposed Low-Rank Adaptation)를 고랭크(high-rank)로 확장하는 방법을 제시한다. 팩터화된 노름과 융합 커널 기법으로 효율성을 유지하면서 적응 품질을 높인다.

mSFT -- 멀티태스크 SFT에서 데이터셋 혼합 과적합 해결

HuggingFace

여러 과제를 동시에 학습하는 멀티태스크 SFT(Supervised Fine-Tuning)에서 데이터셋 간 과적합이 불균일하게 발생하는 문제를 해결한다.


논문: 에이전트와 소프트웨어 엔지니어링

Agentic AI와 차세대 지능 폭발

HuggingFace

AI 에이전트가 촉발할 다음 '지능 폭발'의 가능성과 경로를 분석한 논문이다. 에이전트가 도구를 사용하고, 자율적으로 연구하고, 자기 개선하는 능력이 인간 수준의 과학적 발견을 가속화할 수 있는지를 탐구한다.

Human-AI Synergy in Agentic Code Review

HuggingFace

에이전트 기반 코드 리뷰에서 인간과 AI의 시너지를 연구한 논문이다. AI가 단순 린트나 패턴 매칭을 넘어 비즈니스 로직 수준의 리뷰를 수행하고, 인간 리뷰어와 어떻게 역할을 분담하면 최적의 결과를 얻는지 분석한다.

Effective Strategies for Asynchronous Software Engineering Agents

HuggingFace

비동기적으로 작동하는 소프트웨어 엔지니어링 에이전트의 효과적인 전략을 연구한다. 에이전트가 사용자 입력을 기다리지 않고 독립적으로 코드를 작성, 테스트, 배포하는 시나리오에서 최적의 동작 방식을 도출한다.

ToolRosetta -- 오픈소스 레포지토리와 LLM 에이전트 연결

HuggingFace

오픈소스 레포지토리의 도구(함수, API)를 자동으로 표준화해 LLM 에이전트가 바로 사용할 수 있게 만드는 ToolRosetta를 제안한다. 에이전트가 새로운 도구를 학습 없이 즉시 활용할 수 있는 길을 연다.

A Context Engineering Framework for Enterprise AI Agents

arXiv

기업용 AI 에이전트의 성능을 높이기 위한 컨텍스트 엔지니어링 프레임워크를 제안한다. 디지털 트윈 MDP(Markov Decision Process)를 기반으로, 실제 환경의 제약을 시뮬레이션하면서 에이전트를 최적화한다.

s2n-bignum-bench: 저수준 코드 추론 LLM 벤치마크

HuggingFace

LLM이 어셈블리나 저수준 시스템 코드를 얼마나 잘 이해하는지 평가하는 실용적 벤치마크다.


논문: 비전, 비디오, 멀티모달

LLM의 Y-Combinator -- 람다 계산으로 긴 컨텍스트 부패 해결

HuggingFace

LLM이 긴 컨텍스트를 처리할 때 발생하는 성능 저하(context rot)를 람다 계산(lambda calculus)의 Y-Combinator 개념을 빌려 해결하는 접근법이다. Y-Combinator는 함수형 프로그래밍에서 재귀를 구현하는 기법인데, 이를 LLM의 컨텍스트 관리에 적용해 정보 손실 없이 긴 입력을 처리할 수 있게 한다.

CurveStream -- 곡률 인식 비주얼 메모리로 스트리밍 비디오 이해 향상

HuggingFace

실시간 스트리밍 비디오를 이해하는 멀티모달 LLM에서, 영상의 '곡률'(장면 변화의 급격함)을 인식해 중요한 프레임을 우선 기억하는 계층적 비주얼 메모리 관리 방법이다.

HiMu -- 긴 비디오 QA를 위한 계층적 멀티모달 프레임 선택

HuggingFace

긴 비디오에서 질문에 답하기 위해 어떤 프레임을 선택할지를 계층적으로 결정하는 방법이다. 모든 프레임을 처리하는 대신, 질문과 관련 있는 핵심 프레임만 선별해 효율성과 정확도를 모두 높인다.

VideoDetective -- 긴 비디오 이해를 위한 단서 추적

HuggingFace

긴 비디오에서 외부 질의와 내부 관련성 단서를 모두 활용해 답을 찾는 VideoDetective를 제안한다.

Versatile Editing of Video Content, Actions, and Dynamics without Training

HuggingFace

학습 없이(training-free) 비디오의 콘텐츠, 동작, 역학을 편집하는 범용 비디오 편집 방법이다.

Perceptio -- 공간 토큰 생성으로 VLM 인식 능력 향상

HuggingFace

비전-언어 모델(VLM)의 공간 인식 능력을 공간 토큰 생성으로 향상시킨다.

ProactiveBench -- 멀티모달 LLM의 능동성 벤치마크

HuggingFace

멀티모달 LLM이 사용자 지시 없이도 스스로 필요한 정보를 요청하거나 행동을 취하는 '능동성(proactiveness)'을 측정하는 벤치마크다.

Do VLMs Need Vision Transformers?

HuggingFace

비전-언어 모델에서 Vision Transformer 대신 State Space Model(SSM)을 비전 인코더로 사용할 수 있는지 평가한다.

TAPESTRY -- 턴테이블 비디오로 기하학에서 외형까지

HuggingFace

일관된 턴테이블(회전) 비디오를 통해 3D 물체의 기하학과 외형을 동시에 재구성하는 방법이다.

ReLi3D -- 조명 분리 가능한 멀티뷰 3D 재구성

HuggingFace

다시점 이미지에서 조명을 분리해 3D를 재구성하는 방법으로, 다양한 조명 환경에서의 렌더링을 가능하게 한다.

DROID-SLAM in the Wild

HuggingFace

실제 야외 환경에서의 SLAM(Simultaneous Localization and Mapping, 동시 위치 추정 및 지도 작성) 성능을 개선한 연구다.

SpatialReward -- 텍스트-이미지 생성에서 세밀한 공간 일관성

arXiv

텍스트-이미지 생성에서 "왼쪽에 개, 오른쪽에 고양이"와 같은 공간적 지시를 정확하게 따르는지 평가하는 검증 가능한 공간 보상 모델을 제안한다.


논문: 확산 모델과 생성 AI

Confidence-Based Decoding for Diffusion Language Models

arXiv

확산 언어 모델(DLM, 토큰을 한 번에 하나씩이 아니라 여러 개를 동시에 생성하는 모델)에서 신뢰도 기반 디코딩이 이론적으로 효율적임을 증명한 논문이다. 기존 자기회귀 모델과 다른 생성 방식에서 어떻게 품질을 유지하면서 속도를 높일 수 있는지 보여준다.

WorldCache -- 비디오 월드 모델 가속을 위한 콘텐츠 인식 캐싱

HuggingFace

비디오 월드 모델(게임이나 시뮬레이션을 실시간으로 생성하는 AI)의 속도를 높이기 위한 콘텐츠 인식 캐싱 기법이다. 변화가 적은 부분은 재계산하지 않고 캐시를 활용해 효율성을 극대화한다.

Speed by Simplicity -- 단일 스트림 오디오-비디오 생성 모델

HuggingFace

오디오와 비디오를 동시에 생성하는 기반 모델에서, 복잡한 다중 스트림 대신 단일 스트림 아키텍처로 속도를 높인 연구다.

MemDLM -- 메모리 강화 확산 언어 모델 학습

HuggingFace

확산 언어 모델의 학습을 외부 메모리로 강화하는 방법이다.


논문: 의료, 자율주행, 기타 응용

SHAPE -- 의료 이미지 분할을 위한 비지도 도메인 적응

arXiv

다양한 병원 환경에서 의료 영상 분할 모델을 라벨 없이 적응시키는 방법이다.

Multiscale Switch for Medical Ultrasound Image Segmentation

HuggingFace

의료 초음파 이미지 분할에서 반지도 학습과 대조 학습을 결합한 멀티스케일 스위치 기법이다.

Chronological Contrastive Learning -- 비가역적 질환의 퓨샷 진행도 평가

arXiv

비가역적 질환(예: 간 섬유화)의 진행 단계를 소수의 라벨만으로 평가하는 시간순 대조 학습 방법이다.

SegMaFormer -- 3D 의료 이미지 분할을 위한 하이브리드 SSM-Transformer

arXiv

State Space Model과 Transformer를 결합해 3D 의료 이미지를 효율적으로 분할하는 아키텍처다.

LRC-WeatherNet -- 자율주행을 위한 LiDAR/RADAR/카메라 융합 날씨 분류

arXiv

비, 안개, 눈 등 악천후에서 자율주행 차량의 LiDAR, RADAR, RGB 카메라 데이터를 융합해 실시간으로 날씨를 분류하는 네트워크다.

Future-Interactions-Aware Trajectory Prediction via Braid Theory

arXiv

수학의 브레이드 이론(꼬임 이론)을 차용해, 자율주행 환경에서 여러 에이전트의 미래 상호작용을 고려한 궤적 예측을 수행한다.

Suiren-1.0 -- 분자 기반 모델 패밀리

arXiv

다양한 유기 시스템을 정확하게 모델링하는 분자 기반 모델 패밀리 Suiren-1.0을 소개한다.

AnimalCLAP -- 종 인식을 위한 분류 체계 인식 언어-오디오 사전학습

HuggingFace

동물 종 인식과 특성 추론을 위해 분류 체계를 인식하는 언어-오디오 사전학습 모델이다.


논문: 보안, 윤리, 게임 이론

LLM의 도덕적 추론 -- 수사인가 진짜 추론인가

arXiv

LLM이 도덕적 딜레마에 대해 실제로 발달 심리학의 콜버그 단계를 따라 추론하는지, 아니면 단순히 그렇게 들리게 말하는 것인지를 실증적으로 분석한 논문이다.

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

HuggingFace

LLM이 반복적 사회적 딜레마(죄수의 딜레마 등)에서 협력과 착취 전략을 어떻게 합성하는지 연구한다.

Adversarial Camouflage -- 얼굴 인식을 피하는 적대적 위장

arXiv

대규모 얼굴 인식 시스템의 위험에 대응해, 적대적 위장 기법으로 개인 프라이버시를 보호하는 방법을 연구한다.

SecureBreak -- 안전하고 보안적인 모델을 위한 데이터셋

arXiv

LLM의 보안 정렬(security alignment)을 평가하고 강화하기 위한 데이터셋이다.

AI 생성 텍스트 자동 탐지 -- 신경 모델 비교 프레임워크

HuggingFace

AI가 생성한 텍스트를 자동으로 탐지하는 다양한 신경 모델을 비교하는 프레임워크다.

Probing Cultural Signals in LLMs through Author Profiling

HuggingFace

LLM의 출력에서 문화적 신호를 저자 프로파일링을 통해 탐색하는 연구다.


논문: 기타 머신러닝 및 시스템

Understanding Behavior Cloning with Action Quantization

HuggingFace

행동 복제(behavior cloning)에서 행동을 양자화(이산화)하는 것이 학습에 미치는 영향을 분석한다.

lambda-GELU -- 깊은 네트워크에서 게이팅 경도 학습

arXiv

GELU(Gaussian Error Linear Unit)를 ReLU에 가깝게 변환하는 정도를 학습 가능하게 만든 lambda-GELU를 제안한다. 모델 압축이나 배포 환경에서 활성화 함수의 유연한 전환을 가능하게 한다.

ReLMXEL -- 적응적 RL 기반 메모리 컨트롤러

HuggingFace

설명 가능한 에너지 및 지연 최적화를 위한 적응적 RL 기반 메모리 컨트롤러다.

One Model, Two Markets -- 입찰 인식 생성형 추천

arXiv

생성형 추천 시스템에서 사용자 선호도와 광고 입찰가를 동시에 고려하는 방법이다.

TREX -- 다목적 강화학습의 궤적 설명

arXiv

다목적 RL에서 에이전트의 궤적(행동 시퀀스)을 설명 가능하게 만드는 방법이다.

Calibeating Made Simple

arXiv

외부 예측을 온라인으로 후처리해 누적 손실을 최소화하는 calibeating 문제를 단순화한 연구다.


기타 주목할 콘텐츠

해커톤과 이벤트

커리어와 조직

도구와 팁

마케팅과 비즈니스

X(Twitter) 기타


교차 분석

오늘의 콘텐츠를 관통하는 가장 큰 흐름은 **'AI 에이전트에 대한 위임의 수준이 한 단계 올라갔다'**는 것이다.

도구 측면: Claude Computer Use와 /schedule, Cursor Instant Grep, Kapso CLI(WhatsApp 에이전트), DeerFlow 2.0 등이 동시에 나오면서, AI 에이전트가 할 수 있는 일의 범위가 데스크톱 조작, 반복 작업 예약, 외부 메신저까지 확장됐다.

방법론 측면: '하네스 엔지니어링'이라는 용어가 등장하며, 단순 프롬프팅을 넘어 SOP + 도구 결합으로 에이전트를 체계적으로 제어하는 방법이 정리되고 있다. Kyunghun Lee의 "AI를 잘 쓴다는 것의 본질" 글, Shubham Saboo의 5가지 스킬 설계 패턴, 마이리얼트립의 AI Nativeness 평가 지표가 같은 방향을 가리킨다.

연구 측면: RLVR, Markov States, CIB, PivotRL 등 LLM의 추론 능력을 끌어올리는 연구가 쏟아지고 있다. 에이전트가 더 복잡한 작업을 수행하려면 기반 모델의 추론 능력이 핵심이기 때문이다. LongCat-Flash-Prover가 5600억 파라미터로 형식 증명을 정복하고, 비동기 에이전트 전략, 저비용 에이전트 후학습 등이 동시에 발표됐다.

우려 측면: HoYeon Lee가 "AI에 매몰돼 현실 감각을 잃고 있다"고 토로하고, Anthropic 보고서에서 "결과물이 그럴듯할수록 팩트체크가 줄어든다"는 발견이 나오고, Trivy 공급망 공격이 발생한 것은 AI 가속화의 이면을 보여준다. "코드의 죽음은 과장되었다"는 글이 바이브 코딩의 함정을 경고한 것도 같은 맥락이다.

결론적으로, 오늘은 AI 에이전트가 "내가 시키면 하는 도구"에서 "알아서 일하는 팀원"으로 전환되는 임계점이 어디쯤인지를 여러 각도에서 보여준 하루다. 도구는 준비됐고, 방법론은 정리되고 있으며, 기반 모델은 계속 강해지고 있다. 남은 문제는 보안, 검증, 그리고 인간의 판단력 유지다.


Powered by inflow

seunan.dev — terminal
visitor@seunan.dev:~ $ banner
███████╗███████╗██╗ ██╗███╗ ██╗ █████╗ ███╗ ██╗ ██████╗ ███████╗██╗ ██╗ ██╔════╝██╔════╝██║ ██║████╗ ██║██╔══██╗████╗ ██║ ██╔══██╗██╔════╝██║ ██║ ███████╗█████╗ ██║ ██║██╔██╗ ██║███████║██╔██╗ ██║ ██║ ██║█████╗ ██║ ██║ ╚════██║██╔══╝ ██║ ██║██║╚██╗██║██╔══██║██║╚██╗██║ ██║ ██║██╔══╝ ╚██╗ ██╔╝ ███████║███████╗╚██████╔╝██║ ╚████║██║ ██║██║ ╚████║██╗██████╔╝███████╗ ╚████╔╝ ╚══════╝╚══════╝ ╚═════╝ ╚═╝ ╚═══╝╚═╝ ╚═╝╚═╝ ╚═══╝╚═╝╚═════╝ ╚══════╝ ╚═══╝ Welcome to seunan.dev Type 'help' for available commands
visitor@seunan.dev:~ $ 
! for AI mode