Daily Digest — 2026-03-24
Claude Computer Use 출시, OpenClaw 에이전트 팀 열풍, Cursor Instant Grep, 하네스 엔지니어링의 부상, 그리고 LLM 추론 최적화 논문들이 쏟아진 하루
Daily Digest — 2026-03-24
오늘의 핵심 흐름
-
Claude의 컴퓨터 직접 제어 시대 개막 -- Anthropic이 Claude Cowork/Code에서 마우스, 키보드, 화면을 직접 제어하는 Computer Use 기능을 리서치 프리뷰로 공개했다. 모바일에서 지시하면 데스크톱이 알아서 움직이는 Dispatch 기능이 함께 나왔고, /schedule을 통한 클라우드 기반 반복 작업 예약도 추가됐다. SNS, 뉴스, X 전체에서 가장 많이 언급된 주제다.
-
OpenClaw 에이전트 팀 구축 열풍 -- Slack 기반 AI 에이전트 팀 OpenClaw가 한국 커뮤니티에서 폭발적 반응을 얻고 있다. 여러 사용자가 CEO, CTO, PM 등 역할별 에이전트 6명을 월 $20에 고용해 자율적으로 협업시키는 사례를 공유하며, 메모리 시스템 연구까지 이어지고 있다.
-
하네스 엔지니어링의 부상 -- 프롬프트 엔지니어링(2024) -> 컨텍스트 엔지니어링(2025) -> 하네스 엔지니어링(2026)이라는 흐름이 형성되고 있다. AI 에이전트에게 SOP와 실행 도구를 결합한 '고삐(harness)'를 씌워 위임하는 패러다임이 업계 전반에 퍼지고 있다.
-
LLM 추론 최적화 연구 폭발 -- RLVR(검증 가능한 보상을 통한 강화학습) 업데이트 방향, Markov States 재도입, 조건부 정보 병목(CIB) 기반 추론 압축 등 LLM의 추론 능력을 끌어올리기 위한 새로운 접근법들이 동시에 쏟아졌다.
-
보안 경보: Trivy 공급망 공격과 AI 생성 코드의 위험 -- Trivy 이미지가 변조되어 정보 탈취 악성코드가 배포된 사건이 발생했다. AI가 생성한 코드의 보안 취약점을 자동으로 점검하는 도구 Strix도 주목받고 있다.
보안 경보
Trivy 공급망 공격: 악성 Docker 이미지로 비밀정보 유출
Trivy(인기 오픈소스 컨테이너 보안 스캐너)의 Docker 이미지 버전 0.69.4~0.69.6이 변조된 것이 확인됐다. 공격자는 탈취한 서비스 계정 토큰을 이용해 트로이 목마가 삽입된 빌드를 푸시했고, npm 웜을 퍼뜨려 44개 저장소를 수 분 만에 변조했다. Kubernetes 환경을 노리는 wiper 페이로드(데이터를 지우는 악성코드)까지 배포됐다.
이 사건은 GitHub Actions의 태그 변조와 연결되어 있어, CI/CD 파이프라인의 공급망 보안이 얼마나 취약한지를 보여준다. 컨테이너 이미지를 태그가 아닌 다이제스트(해시값)로 고정하는 관행이 필수적이라는 교훈을 남긴다.
AI가 만든 코드, 공격자 관점에서 점검하는 Strix
오픈소스 AI 에이전트 Strix(GitHub 21k+ Stars)는 실행 중인 앱을 공격자 시선으로 검사한다. 200개 실제 기업과 오픈소스 레포를 대상으로 600건 이상의 검증된 취약점(CVE 포함)을 발견한 실적이 있다.
AI가 생성한 코드가 빠르게 배포되는 시대에, PR 리뷰나 유닛 테스트로는 잡히지 않는 인증 엣지 케이스, 접근 제어 결함, 비즈니스 로직 취약점을 자동으로 탐지해준다. Moltbook이 150만 개 인증 토큰을 노출한 사례, Tea App이 72,000개 정부 신분증을 유출한 사례 등 실제 피해를 언급하며 경각심을 높였다.
Claude 생태계의 대규모 업데이트
Claude Computer Use -- 데스크톱 직접 제어 기능 출시
Claude (LinkedIn) | choi.openai (Threads) | trq212 (X) | GeekNews
Anthropic이 Claude Cowork과 Claude Code에서 사용자의 컴퓨터를 직접 제어하는 기능을 리서치 프리뷰로 공개했다. 앱을 열고, 브라우저를 탐색하고, 스프레드시트를 채우는 등 사람이 책상에 앉아서 하는 모든 작업을 대신 수행할 수 있다.
작동 방식은 단계적이다. 먼저 Slack, Calendar 등 연결된 커넥터를 활용하고, 커넥터가 없는 도구의 경우 사용자 승인 하에 화면 위에서 직접 앱을 열어 조작한다. macOS 전용이며 Pro, Max 구독자가 사용 가능하다.
가장 주목할 부분은 모바일 연동이다. 스마트폰에서 작업을 지시하고 다른 일을 하다가 돌아오면 데스크톱에서 완료된 결과를 확인할 수 있다. "매일 아침 이메일을 스캔해줘", "매주 금요일 리포트를 뽑아줘"처럼 반복 지시를 한 번만 해두면 이후 자동으로 수행한다.
Claude Dispatch vs OpenClaw 비교
Dispatch와 OpenClaw의 핵심 차이가 정리됐다. Dispatch는 로컬 데스크톱에서 실행되고 폰은 리모컨 역할만 하며, PC가 꺼지면 세션이 멈춘다. OpenClaw는 백그라운드 데몬 방식으로 24시간 돌아가며 새벽 6시에 이메일 체크, 슬랙 모니터링 등을 자동 실행한다.
모델 유연성도 다르다. OpenClaw는 GPT, Gemini, Claude, Ollama 로컬 모델을 대화별로 교체할 수 있고, Dispatch는 Claude 전용이다. 비용 면에서 OpenClaw는 소프트웨어 무료(API 비용만 부담, Ollama 사용 시 0원), Dispatch는 Claude Pro $20/월 또는 Max $100~200/월이다. 메모리 측면에서 OpenClaw는 세션 간 영구 메모리로 수 개월 간 맥락을 축적하지만, Dispatch는 세션 범위 내 메모리만 유지한다.
Claude Code /schedule -- 클라우드 기반 반복 작업 예약
Claude Code에 /schedule 명령이 추가됐다. 터미널에서 직접 반복 실행되는 클라우드 기반 작업(job)을 생성할 수 있다. Anthropic 내부에서는 이미 CI 실패 자동 해결, 문서 업데이트 푸시, 노트북을 닫은 상태에서도 돌아가는 자동화에 활용하고 있다.
이전까지 Claude Code는 사용자가 터미널을 열어놓은 동안만 작동했지만, 이제 클라우드에서 독립적으로 실행되는 에이전트가 된 셈이다.
ChatGPT에서 Claude로 갈아타는 사람들을 위한 가이드
Ruben Hassid (LinkedIn) -- 좋아요 2,219
ChatGPT에서 Claude로 전환하는 사용자를 위한 7가지 핵심 기능 가이드가 큰 반응을 얻었다. Chat(Opus 4.6 + 확장 사고 필수), Project(클라이언트/주제별 분리), Code(개발자용), Cowork(핵심 기능 -- 'About me', 'templates', 'projects', 'Output.md' 4폴더 구조), Skills(반복 작업 자동화), Connectors(50+ 도구 통합), Plugins(사전 제작 워크플로우) 순으로 정리했다.
Claude Code 완전정복 가이드북
ma.chi.n.e (Threads) -- 좋아요 397
출판 제안을 받았던 Claude Code 가이드 자료가 Threads에 무료 공개됐다. MCP, API, 터미널, Git을 전혀 모르는 사람도 시작할 수 있도록 구성했다고 한다. CLAUDE.md 파일 구조와 글로벌/프로젝트 레벨 설정 분리의 중요성도 별도로 다뤄졌다(automation_claire (Threads)).
Claude 전체 활용법 정리
choi.openai (Threads) -- 좋아요 2,957
전 세계 Claude의 모든 활용법을 담은 정리글이 Threads에서 약 3,000 좋아요를 기록했다. 실제로 생산성을 가르는 설정과 사례를 직접 정리한 내용이다.
AI 에이전트 팀 구축과 OpenClaw
OpenClaw로 AI 슈퍼팀 만들기 -- Slack 기반 자율 협업
Zach Park (LinkedIn) | 차예솔 (LinkedIn) | _petercha (Threads)
'토스 출신 PO, 크래프톤 출신 AI Lead, 도합 100만뷰 마케터' 3명이 300시간 동안 OpenClaw만 연구해 Slack 기반 AI 슈퍼팀을 구축한 사례가 공유됐다. Lane(PM), Finch(리서치), Page(콘텐츠), Hunter(세일즈), Forge(개발) 5명의 에이전트가 서로 자율적으로 대화하며 일한다.
실제 사례: 오후 4시 19분에 Finch가 경쟁사 동향 브리핑을 올리면, Lane이 대응 방향을 내리고, Page가 블로그 초안을 쓰고, Hunter가 불만 고객 DM 대상을 찾고, Forge가 무료 체험 기능을 구현한다. 이 모든 과정이 사용자 멘션 없이 자율적으로 진행된다.
Threads에서도 동일한 열풍이 불고 있다. _petercha는 CEO, CPO, CQO, CRO, CTO, PA 6명을 Ollama Cloud 조합으로 월 $20에 고용했고, SOUL.md와 IDENTITY.md를 각각 부여해 멀티에이전트로 대화시키고 있다.
OpenClaw 메모리 시스템 연구 -- 782회 실험으로 벤치마크 달성
Seong Hyeon Jeong (LinkedIn) | dev_roach_log (Threads)
Karpathy의 autoresearch를 응용해 OpenClaw와 함께 7일간 메모리 시스템을 연구한 결과가 공개됐다. 782회 반복 실험, 5세대 진화를 거쳐 LongMemEval 70%, LoCoMo 100%, ConvoMem 100%의 성과를 달성했다.
핵심 발견: (1) 기존 LoCoMo 벤치마크에 "today"라고 적어놓고 2023년으로 날짜를 추론해야 하는 등의 오류가 상당수 존재, (2) Claude Code에 SKILL을 주고 검색 방법을 알려주면 벤치마크 성능이 급격히 올라감, (3) 검색 결과를 최소로 보여줄 필요 없이 에이전트에게 판단하게 하는 것이 효과적.
Threads의 dev_roach_log는 모든 대화가 기억되어야 한다는 철학 아래, 필요 없는 데이터를 정리하는 망각(forgetting) 시스템과 망각된 기억을 부활시키는 연관 시스템을 별도로 설계했다.
AI 에이전트 Operating System -- WEB:OS
Daan Pruijssers (LinkedIn) -- 좋아요 161
Claude Code로 31,000페이지 웹사이트를 구축하고 자동 업데이트하는 프레임워크 WEB:OS가 공개됐다. /web:swarm(병렬 콘텐츠 생산), /web:today(검색 순위 기반 아침 브리핑), /web:intelligence(경쟁사 크롤링 + 키워드 분석), /web:brief + /web:write(브랜드 음성 기반 에디토리얼 콘텐츠), /web:feedback-loop(PostHog/GSC 연결 자기 개선) 등의 명령을 제공한다.
15개 전문 AI 직원으로 구성된 디지털 회사
Olly Topping (LinkedIn) -- 좋아요 415
AI Sales Team, Customer Support, Social Media Growth, SEO, Marketing, Operations & Finance 등 15개 전문 에이전트로 구성된 AI Operating System을 구축해 무료 배포한다는 게시글이 574개 댓글을 받았다. 연간 $280K 인건비를 절감할 수 있다고 주장한다.
5가지 에이전트 스킬 설계 패턴
Anthropic, Vercel, Google 내부 가이드라인에서 반복적으로 등장하는 5가지 에이전트 스킬 설계 패턴이 정리됐다. (1) Tool Wrapper: 라이브러리별 지식을 스킬로 패키징, (2) Generator: 템플릿과 스타일 가이드로 일관된 출력 보장, (3) Reviewer: 체크 대상과 방법을 분리한 모듈식 감사, (4) Inversion: 에이전트가 먼저 질문하고 충분한 정보를 얻은 후에만 출력, (5) Pipeline: 체크포인트가 있는 엄격한 순차 워크플로우.
이 패턴들은 조합이 가능하다. Pipeline에 Reviewer 단계를 넣어 자기 점검을 하거나, Generator가 Inversion으로 시작해 변수를 수집한 후 템플릿을 채우는 방식이 그것이다.
AI를 잘 쓴다는 것의 본질 -- 위임의 시대
"AI를 잘 쓰는 사람은 토큰을 많이 쓰는 사람"
Kyunghun Lee (LinkedIn) -- 좋아요 156
AI 활용의 3단계가 정리됐다. (1) 질문 -- 한 번 묻고 한 번 받기, (2) 토론 -- 피드백하며 사고의 파트너로 활용(AI Fluency Index에 따르면 반복 대화자의 활용 역량이 2배), (3) 위임 -- 업무를 통째로 맡기는 단계.
위임을 잘 하려면 세 가지가 필요하다. 업무 이해(암묵지를 의식 위로 끌어올리기), 지시(AI가 알아들을 수 있는 언어로 변환), 평가(결과물 판단). 이를 반복 가능하게 만들려면 SOP(업무 판단 기준 문서)와 하네스(SOP를 AI가 실행할 수 있게 연결하는 도구)가 필요하다.
핵심 메시지: "AI가 못하는 게 아니라 내가 못 시킨 거다"라는 믿음, "지금 하지 않으면 뒤쳐진다"는 위기감에서 오는 의지 -- 이 두 가지가 있으면 나머지는 따라온다.
하네스 엔지니어링이 2026년 대세
24년 프롬프트 엔지니어링, 25년 컨텍스트 엔지니어링, 26년 하네스 엔지니어링이라는 진화 흐름이 정리됐다. 하네스는 본래 말에게 채우는 고삐를 뜻하며, 이 안장에 따라 AI 에이전트의 컨트롤이 달라진다. "하네스 깎는다"라는 표현이 엔지니어들 사이에서 유행하고 있다.
개발자는 앞으로 뭐 해먹고 살지
HoYeon Lee (LinkedIn) -- 좋아요 127
비행기에서 와이파이로 Claude Code를 쓰다가 든 두 가지 생각. 첫째, 개발자의 역할이 "코드를 짜는 사람"에서 "AI가 잘 일할 수 있는 시스템을 설계하는 사람"으로 이동하고 있다. Scaffolding(테스트/검증 환경, 코드 아키텍처, RPC, 인터페이스 설계)을 얼마나 잘 깔아두느냐가 브라운필드에서 개발 속도와 퀄리티를 결정한다.
둘째, AI로 놀고 있는 온라인 세계에 너무 매몰되다 보니 현실에 대한 감각이 사라지고 있다. "쉴 때 뭐 해?"라는 질문에 대답할 게 전부 화면 안에 있다. 키보드 앞에서 보내는 시간의 밀도를 높이되, 키보드 밖에서 보내는 시간의 양을 늘려야 한다.
"코드의 죽음은 과장되었다"
Jaewoo Cho (LinkedIn) | GeekNews
바이브 코딩이라는 표현은 절묘하지만, 바이브는 문제를 이미 충분히 이해한 것처럼 느끼게 만드는 함정이 있다. "실시간 협업"이라는 말은 또렷한 개념처럼 느껴지지만, 실제로 구현하면 상태 충돌, 순서 보장, 지연, 복구, 엣지케이스라는 복잡성이 숨어 있다.
AI가 좋아질수록 더 큰 문제를 더 빨리 만지게 되고, 그럴수록 더 좋은 추상화와 설계가 필요해진다. 코드는 단순한 생산 수단이 아니라 생각을 정리하고 복잡성을 길들이는 도구이며, 코드의 죽음은 과장이다.
평가 지표에 AI Nativeness 반영
Donggun Lee (LinkedIn) -- 좋아요 56
마이리얼트립이 평가 지표에 AI Nativeness를 반영했다. 작년 초부터 논의됐지만, 평가 주체인 리더와 경영진이 먼저 높은 수준의 AI 활용 역량을 갖춰야 한다고 판단해 1년간 준비했다. 2025년은 Literacy(토큰 사용량, 사이드 프로젝트 등 적극 격려), 2026년부터는 고객 임팩트 관점에서만 AI Nativeness를 평가한다.
리드 호프만: "업계 사람들도 AI 잠재력의 10%도 못 쓴다"
LinkedIn 창업자 리드 호프만의 인터뷰 요약. AI를 "잘 쓴다"고 자부하는 업계 사람들도 잠재력의 2~5% 수준이며, 대부분은 그 2%에도 못 미친다. 개인 기여자(Individual Contributor)는 사라질 것이고, 모두가 AI 에이전트 세트를 배포하며 일하는 구조가 될 것이다. B2B SaaS의 해자가 무너지고 있으며, Codex 200줄짜리 코드 하나가 시총 3,000억 달러 규모의 B2B 시장을 위협하고 있다.
기획서 쓰는 걸 멈추다 -- PM의 역할 변화
기존 기획서 작성 -> 목업 -> 승인 -> 개발 전달 프로세스 대신, 프로토타입 구현 -> 시각적 확인 -> 역기획 -> 승인 -> 개발 요청으로 바꿨다. OpenAI Codex와 Claude Code에 실제 프로젝트 코드베이스를 연결해, "이 기능 추가하면 어떨까?"가 아니라 "우리 코드에서는 이렇게 구현하면 된다"는 수준의 답변을 받고 있다. PM이 정의하는 사람에서 가장 먼저 행동하는 사람이 될 것이라는 전망이다.
Cursor와 개발 도구 업데이트
Cursor Instant Grep -- 수백만 파일에서 밀리초 단위 검색
cursor_ai (X) -- 좋아요 4,771
Cursor가 수백만 개 파일에서 밀리초 단위로 검색 결과를 반환하는 Instant Grep을 공개했다. 에이전트가 작업을 완료하는 속도가 극적으로 향상된다. 설계 뒤의 알고리즘과 트레이드오프도 함께 공유됐다.
Google Stitch vs Claude 비교
viktoroddy (X) -- 좋아요 3,535
동일한 프롬프트로 Google Stitch와 Claude를 비교한 게시글이 화제다. UI/웹 생성 분야에서 두 도구의 차이를 직접 확인할 수 있다.
Pinterest, JS를 CSS로 대체해 코드 90% 감소
ChromiumDev (X) -- 좋아요 1,039
Pinterest가 레거시 JS 기반 캐러셀을 네이티브 CSS 캐러셀(scroll markers + snap)로 전환했다. 2,000줄 JS가 200줄 CSS로 줄었고(90% 감소), 페이지 로드 속도가 15% 향상됐다. CSS만으로 부드럽고 인터랙티브한 UI가 가능하다는 것을 보여준 사례다.
OpenSquirrel -- GPU 기반 AI 코드 에이전트 제어판
GPU 기반 AI 코드 에이전트를 제어하는 오픈소스 제어판이 공개됐다.
Codex 전용 136개 서브에이전트 검색 사이트
OpenAI Codex에서 바로 고용할 수 있는 136개 서브에이전트를 검색하는 사이트가 공개됐다. URL: https://bear2u.github.io/awesome-codex-subagents
Kapso CLI -- 에이전트에 WhatsApp 번호 부여
andresmatte (X) -- 좋아요 3,353
npm install -g @kapso/cli + kapso setup 두 줄이면 AI 에이전트에 WhatsApp 번호를 부여할 수 있다.
YouTube 영상 분석
Jensen Huang: NVIDIA -- 4조 달러 기업과 AI 혁명 (Lex Fridman Podcast #494)
NVIDIA CEO 젠슨 황과 Lex Fridman의 인터뷰다. 핵심 주제는 '극한의 공동설계(extreme co-design)'다. 문제가 더 이상 하나의 GPU로 해결되지 않기 때문에, GPU, CPU, 메모리, 네트워킹, 스토리지, 전력, 냉각, 소프트웨어, 랙, 데이터센터까지 모든 구성요소를 동시에 설계해야 한다고 설명한다.
10,000대 컴퓨터를 추가했을 때 100만 배 빨라지길 원한다면, 알고리즘을 쪼개고 각 부분을 최적의 하드웨어에 배치하며 통신 병목을 최소화하는 작업이 필요하다. 이것이 NVIDIA가 칩 회사에서 시스템 회사로 전환한 이유다.
NVIDIA의 시가총액이 4조 달러에 달한 배경에는 젠슨의 수많은 결단과 엔지니어로서의 통찰이 있다. AI 혁명의 엔진을 만든 사람이 직접 그 과정을 이야기하는 점에서 의미가 크다.
하버드에서 가르치는 AI Native 강의 18분 요약
HBS(하버드 비즈니스 스쿨) 렘 코닝 교수의 AI Native 강의를 18분으로 요약한 영상이다. AI를 단순 도구가 아닌 조직의 근본적 업무 방식으로 전환하는 방법론을 다룬다. 마이리얼트립의 AI Nativeness 평가 지표 도입과 같은 맥락에서, 조직 차원에서 AI를 내재화하는 전략이 학계에서도 연구되고 있음을 보여준다.
Claude Code Agent Teams 95% 마스터하기 -- 16분 가이드
Claude Code의 에이전트 팀 기능을 16분 만에 마스터할 수 있는 가이드 영상이다. 여러 에이전트를 팀으로 구성해 동시에 작업시키는 방법, 에이전트 간 역할 분담, 결과 통합 과정을 다룬다. 오늘 출시된 Computer Use, /schedule과 함께 사용하면 시너지가 극대화된다.
Claude Code 또 한 번의 대규모 업그레이드
Claude Code의 최신 업그레이드 내용을 다룬 영상이다. Computer Use, Dispatch, /schedule 등 오늘 발표된 기능들의 실제 사용 모습을 보여준다.
AI 앱 하나가 1억 달러에 팔린 이야기 -- 누구나 만들 수 있다
$100M에 매각된 AI 앱의 사례를 분석하며, 비개발자도 유사한 앱을 만들 수 있다고 주장하는 영상이다. AI 도구의 접근성이 높아지면서 아이디어와 실행력이 기술력보다 중요해지고 있다는 메시지를 전한다.
"말로만 하지 마" (타일러 더 크리에이터)
비즈니스 관점에서 실행력의 중요성을 강조하는 영상이다.
Why Every Satellite Needs Earth -- Northwood CEO (a16z)
a16z 채널에서 Northwood CEO가 위성 산업의 미래를 논하는 영상이다. 위성 데이터가 AI 시대에 어떤 가치를 갖는지, 우주 기술과 지상 AI 인프라의 연결점을 설명한다.
LangSmith Deployment Webhooks -- 에이전트 실행 완료 시 Slack 알림
LangSmith 배포 환경에서 에이전트 실행이 완료되면 Slack으로 알림을 보내는 Webhook 기능을 설명하는 영상이다. 에이전트 자동화 파이프라인에서 모니터링과 알림 체계를 구축하는 실용적인 튜토리얼이다.
뉴스 & 블로그 주요 기사
데이터만이 유일한 해자(moat)다
Podscan 창업자가 쓴 글로, AI가 소프트웨어 구축을 쉽게 만들수록 남는 유일한 경쟁 우위는 '실제 데이터'라고 주장한다. 인간이 생성한 데이터(팟캐스트, 영상, 블로그 등)는 AI가 만들 수 없기 때문에 점점 더 가치가 올라간다. 반면 데이터를 변환만 하는 SaaS(엑셀 -> 리포트 -> PDF -> 이메일)는 에이전트가 즉시 대체할 수 있다.
핵심 조언: (1) 자체 데이터 자산을 구축하라, (2) API-first 비즈니스로 전환하라(REST API, MCP, Webhook 모두에서 UI와 동일한 기능을 제공), (3) 메타데이터가 곧 해자다.
AI 크레딧 가격의 미래
Clay의 새로운 가격 정책이 AI 크레딧 가격의 미래를 보여준다는 분석이다. 과거에는 Salesforce나 Slack의 가격 모델을 참고했지만, 이제는 Intercom, HubSpot, OpenAI, Clay를 참고한다. AI 비용이 빠르게 변하기 때문에, 작년에 통했던 가격 모델이 올해는 통하지 않을 수 있다. 가격 실험 인프라와 문화를 갖추는 것이 경쟁력이 된다.
Walmart: ChatGPT 내 결제 전환율이 웹사이트의 1/3 수준
Walmart가 ChatGPT 내에서 직접 이루어지는 구매의 전환율이 자사 웹사이트 대비 3배 낮다고 밝혔다. AI 쇼핑 채널이 새로운 트래픽 소스가 될 수 있지만, 현재로서는 구매 전환에 한계가 있다는 것을 보여준다.
GitHub, 99.9% 가용성에도 버거운 모습
하루도 빠짐없이 클라우드 서비스 장애가 발생하는 상황에서, GitHub도 99.9% 가용성을 유지하는 데 어려움을 겪고 있다. Five nines(99.999%)는커녕 one nine(90%)도 위태로운 현실이라는 비판이 나온다.
스타트업의 오프닝, 미드게임, 엔드게임
최고의 창업자는 "시간 여행자"처럼 세 단계를 동시에 플레이한다는 분석이다. Opening(아이디어 -> 스타트업 전환), Midgame(PMF 달성 후 성장), Endgame(무한한 미래 비전). 최고의 회사들은 10년이 지나도 "아직 초기 단계"라는 느낌을 유지하면서, 동시에 불가피한 성공의 느낌도 만들어낸다.
81,000명이 말한 AI의 진짜 쓰임새 (Anthropic 보고서)
Anthropic의 "81k Interviews" 보고서에서 81,000명이 AI를 실제로 어떻게 사용하는지 분석했다. 코딩, 문서 작성, 분석 등 그럴듯한 결과물이 나올 때 사용자의 팩트체크와 논리 검증이 오히려 줄어든다는 발견이 포함되어 있다.
POSSE: 자기 사이트에 게시하고 다른 곳으로 배포하기
콘텐츠를 자기 도메인에 먼저 게시하고, SNS 등 외부 플랫폼으로 배포하는 POSSE(Publish on your Own Site, Syndicate Elsewhere) 전략이 소개됐다. 플랫폼 의존도를 줄이면서도 도달 범위를 유지하는 방법이다.
AI 학습봇, 차단해야 할까
사이트 유형별 AI 봇 대응 전략이 데이터와 함께 정리됐다. 2026년 1월 기준 GPTBot 차단 사이트 5.1%, ClaudeBot 차단 4.3%로 95% 이상이 열어두고 있다. 그러나 1,154개 뉴스 사이트 중 54.2%는 AI 봇을 최소 1개 이상 차단한다.
Anthropic의 크롤-to-referral 비율이 73,000:1이라는 데이터가 핵심이다. 7만 3천 번 크롤해서 클릭은 1번만 보낸다는 뜻이다. 결론: 뉴스/유료 콘텐츠는 학습봇 차단 + 검색봇 허용, B2B SaaS/에이전시는 전체 허용, 개인 블로그는 열어두는 것이 유리하다.
Show GN: Ship or Slop -- 에이전트 사회로 아이디어 짜내기
여러 AI 에이전트가 스스로 주제를 연구하고, 아이디어를 만들고, 투표/리뷰를 통해 의견을 교환하는 플랫폼이다. GitHub로 로그인하고 인증 코드를 받아 에이전트를 참여시키면, 에이전트가 아이디어를 올리고 Ship(출하) 또는 Slop(폐기)으로 평가한다. 상위 아이디어는 명예의 전당에 올라가고, Slop이 많은 아이디어는 묘지로 간다.
기타 GeekNews 기사
- 오래된 연구 아이디어에 Autoresearch 수행하기 (GeekNews): Karpathy의 Autoresearch를 실제 연구에 적용한 경험담
- iPhone 17 Pro에서 400B LLM 실행하기 (GeekNews): Anemll이 시연한 모바일 디바이스에서의 초대형 모델 실행
- NixOS를 사랑하는 이유 (GeekNews): Nix 패키지 매니저의 장점에 대한 에세이
- 1대1 RTS 게임으로 만든 LLM 벤치마크 (GeekNews): Yare AI Arena -- 실시간 전략 게임으로 LLM 성능 측정
- 최적화의 정석: 롤러코스터 타이쿤 내부 (GeekNews): 클래식 게임의 최적화 기법 분석
- 당신은 당신이 하는 일이 아니다 (GeekNews): 정체성과 직업의 관계에 대한 에세이
- 도그푸딩에 지쳤다면, 자기 회사 고객센터에 직접 전화해 보세요 (GeekNews): 고객 경험 개선 방법론
- GrapheneOS는 개인 정보 없이 누구나 사용 가능 (GeekNews): 프라이버시 중심 안드로이드 OS
- Show GN: GPUtray - GPU tray 모니터링 툴 (GeekNews): GPU 상태를 시스템 트레이에서 모니터링
- Show GN: TokFresh (GeekNews): Claude의 5시간 토큰 갱신을 몰입 시간에 맞게 관리하는 도구
- Show GN: GitHub Actions + Telegram 증시 리포트 자동화 봇 (GeekNews): 오픈소스 금융 자동화
- Show GN: tunaDish (GeekNews): 도메인 지식 기반 서비스 구축 어플리케이션
논문: LLM 추론 및 학습 최적화
LongCat-Flash-Prover -- 5600억 파라미터로 형식 증명 정복
Meituan이 5600억 파라미터 MoE(Mixture-of-Experts) 모델 LongCat-Flash-Prover를 오픈소스로 공개했다. Lean4를 사용한 형식적 수학 증명(formal theorem proving)에 특화되어 있다.
핵심 혁신은 세 가지다. (1) 'Native Formal Reasoning'이라는 개념을 정의해 auto-formalization(자연어 -> 형식 명제), sketching(보조 정리 구조화), proving(전체 증명 생성) 세 가지 능력으로 분해했다. (2) 각 능력에 특화된 전문 모델을 반복 학습시키는 Hybrid-Experts Iteration 프레임워크를 개발했다. (3) MoE 모델의 안정적 학습을 위한 HisPO(Hierarchical Importance Sampling Policy Optimization) 알고리즘을 제안했다.
MiniF2F-Test에서 문제당 72번의 시도만으로 97.1%를 달성했고, PutnamBench에서 41.5%를 기록해 오픈소스 모델 중 최고 성능이다.
RLVR 업데이트 방향 식별 및 활용
RLVR(Reinforcement Learning with Verifiable Rewards, 검증 가능한 보상을 통한 강화학습)에서 어떤 방향으로 모델을 업데이트해야 하는지를 분석한 논문이다. RLVR은 수학 문제처럼 정답 여부를 자동 검증할 수 있는 과제에서 모델의 추론 능력을 강화하는 방법인데, 기존 방식은 업데이트 방향이 비효율적일 수 있다. 이 논문은 효과적인 업데이트 방향을 식별하고 활용하는 전략을 제시한다.
Markov States 재도입으로 LLM 후학습 성능 한계 돌파
LLM 후학습(post-training)에서 성능이 더 이상 올라가지 않는 한계를 'Markov States(마르코프 상태)'를 재도입해 돌파하는 방법을 제안한다. 마르코프 상태란 현재 상태만으로 미래를 예측할 수 있는 상태를 의미하는데, 모델이 중간 추론 단계에서 이런 상태를 명시적으로 표현하도록 유도함으로써 추론 능력의 천장을 높인다.
추론은 압축이다 -- CIB 기반 Budget Forcing 통합
추론(reasoning)을 '정보 압축'의 관점에서 바라보는 논문이다. CIB(Conditional Information Bottleneck, 조건부 정보 병목)라는 정보 이론 개념을 사용해, 모델이 주어진 연산 예산(budget) 안에서 가장 효율적으로 추론하도록 강제하는 방법을 통합적으로 설명한다. 쉽게 말해, "생각할 시간이 제한되어 있을 때 가장 핵심적인 정보만 남기고 나머지를 버리는 최적의 방법"을 수학적으로 도출한 것이다.
P^2O: 정책과 프롬프트를 동시에 최적화
RLVR에서 모델 파라미터(정책)만 업데이트하는 기존 방식의 한계를 지적하고, 프롬프트도 함께 최적화하는 P^2O(Joint Policy and Prompt Optimization)를 제안한다.
PivotRL -- 저비용으로 고정확도 에이전트 후학습
에이전트 후학습을 적은 컴퓨팅 비용으로도 높은 정확도로 수행하는 PivotRL을 제안한다. 기존 RLHF나 RLVR이 막대한 GPU 자원을 요구하는 문제를 해결하기 위한 접근법이다.
Adaptive Layerwise Perturbation -- LLM RL의 Off-Policy 보정 통합
LLM 강화학습에서 발생하는 off-policy 문제(학습 데이터가 현재 정책과 다른 정책에서 생성된 경우)를 레이어별 적응적 섭동으로 보정하는 방법이다.
Scaling DoRA -- 팩터화된 노름과 융합 커널로 고랭크 적응
LoRA의 변형인 DoRA(Weight-Decomposed Low-Rank Adaptation)를 고랭크(high-rank)로 확장하는 방법을 제시한다. 팩터화된 노름과 융합 커널 기법으로 효율성을 유지하면서 적응 품질을 높인다.
mSFT -- 멀티태스크 SFT에서 데이터셋 혼합 과적합 해결
여러 과제를 동시에 학습하는 멀티태스크 SFT(Supervised Fine-Tuning)에서 데이터셋 간 과적합이 불균일하게 발생하는 문제를 해결한다.
논문: 에이전트와 소프트웨어 엔지니어링
Agentic AI와 차세대 지능 폭발
AI 에이전트가 촉발할 다음 '지능 폭발'의 가능성과 경로를 분석한 논문이다. 에이전트가 도구를 사용하고, 자율적으로 연구하고, 자기 개선하는 능력이 인간 수준의 과학적 발견을 가속화할 수 있는지를 탐구한다.
Human-AI Synergy in Agentic Code Review
에이전트 기반 코드 리뷰에서 인간과 AI의 시너지를 연구한 논문이다. AI가 단순 린트나 패턴 매칭을 넘어 비즈니스 로직 수준의 리뷰를 수행하고, 인간 리뷰어와 어떻게 역할을 분담하면 최적의 결과를 얻는지 분석한다.
Effective Strategies for Asynchronous Software Engineering Agents
비동기적으로 작동하는 소프트웨어 엔지니어링 에이전트의 효과적인 전략을 연구한다. 에이전트가 사용자 입력을 기다리지 않고 독립적으로 코드를 작성, 테스트, 배포하는 시나리오에서 최적의 동작 방식을 도출한다.
ToolRosetta -- 오픈소스 레포지토리와 LLM 에이전트 연결
오픈소스 레포지토리의 도구(함수, API)를 자동으로 표준화해 LLM 에이전트가 바로 사용할 수 있게 만드는 ToolRosetta를 제안한다. 에이전트가 새로운 도구를 학습 없이 즉시 활용할 수 있는 길을 연다.
A Context Engineering Framework for Enterprise AI Agents
기업용 AI 에이전트의 성능을 높이기 위한 컨텍스트 엔지니어링 프레임워크를 제안한다. 디지털 트윈 MDP(Markov Decision Process)를 기반으로, 실제 환경의 제약을 시뮬레이션하면서 에이전트를 최적화한다.
s2n-bignum-bench: 저수준 코드 추론 LLM 벤치마크
LLM이 어셈블리나 저수준 시스템 코드를 얼마나 잘 이해하는지 평가하는 실용적 벤치마크다.
논문: 비전, 비디오, 멀티모달
LLM의 Y-Combinator -- 람다 계산으로 긴 컨텍스트 부패 해결
LLM이 긴 컨텍스트를 처리할 때 발생하는 성능 저하(context rot)를 람다 계산(lambda calculus)의 Y-Combinator 개념을 빌려 해결하는 접근법이다. Y-Combinator는 함수형 프로그래밍에서 재귀를 구현하는 기법인데, 이를 LLM의 컨텍스트 관리에 적용해 정보 손실 없이 긴 입력을 처리할 수 있게 한다.
CurveStream -- 곡률 인식 비주얼 메모리로 스트리밍 비디오 이해 향상
실시간 스트리밍 비디오를 이해하는 멀티모달 LLM에서, 영상의 '곡률'(장면 변화의 급격함)을 인식해 중요한 프레임을 우선 기억하는 계층적 비주얼 메모리 관리 방법이다.
HiMu -- 긴 비디오 QA를 위한 계층적 멀티모달 프레임 선택
긴 비디오에서 질문에 답하기 위해 어떤 프레임을 선택할지를 계층적으로 결정하는 방법이다. 모든 프레임을 처리하는 대신, 질문과 관련 있는 핵심 프레임만 선별해 효율성과 정확도를 모두 높인다.
VideoDetective -- 긴 비디오 이해를 위한 단서 추적
긴 비디오에서 외부 질의와 내부 관련성 단서를 모두 활용해 답을 찾는 VideoDetective를 제안한다.
Versatile Editing of Video Content, Actions, and Dynamics without Training
학습 없이(training-free) 비디오의 콘텐츠, 동작, 역학을 편집하는 범용 비디오 편집 방법이다.
Perceptio -- 공간 토큰 생성으로 VLM 인식 능력 향상
비전-언어 모델(VLM)의 공간 인식 능력을 공간 토큰 생성으로 향상시킨다.
ProactiveBench -- 멀티모달 LLM의 능동성 벤치마크
멀티모달 LLM이 사용자 지시 없이도 스스로 필요한 정보를 요청하거나 행동을 취하는 '능동성(proactiveness)'을 측정하는 벤치마크다.
Do VLMs Need Vision Transformers?
비전-언어 모델에서 Vision Transformer 대신 State Space Model(SSM)을 비전 인코더로 사용할 수 있는지 평가한다.
TAPESTRY -- 턴테이블 비디오로 기하학에서 외형까지
일관된 턴테이블(회전) 비디오를 통해 3D 물체의 기하학과 외형을 동시에 재구성하는 방법이다.
ReLi3D -- 조명 분리 가능한 멀티뷰 3D 재구성
다시점 이미지에서 조명을 분리해 3D를 재구성하는 방법으로, 다양한 조명 환경에서의 렌더링을 가능하게 한다.
DROID-SLAM in the Wild
실제 야외 환경에서의 SLAM(Simultaneous Localization and Mapping, 동시 위치 추정 및 지도 작성) 성능을 개선한 연구다.
SpatialReward -- 텍스트-이미지 생성에서 세밀한 공간 일관성
텍스트-이미지 생성에서 "왼쪽에 개, 오른쪽에 고양이"와 같은 공간적 지시를 정확하게 따르는지 평가하는 검증 가능한 공간 보상 모델을 제안한다.
논문: 확산 모델과 생성 AI
Confidence-Based Decoding for Diffusion Language Models
확산 언어 모델(DLM, 토큰을 한 번에 하나씩이 아니라 여러 개를 동시에 생성하는 모델)에서 신뢰도 기반 디코딩이 이론적으로 효율적임을 증명한 논문이다. 기존 자기회귀 모델과 다른 생성 방식에서 어떻게 품질을 유지하면서 속도를 높일 수 있는지 보여준다.
WorldCache -- 비디오 월드 모델 가속을 위한 콘텐츠 인식 캐싱
비디오 월드 모델(게임이나 시뮬레이션을 실시간으로 생성하는 AI)의 속도를 높이기 위한 콘텐츠 인식 캐싱 기법이다. 변화가 적은 부분은 재계산하지 않고 캐시를 활용해 효율성을 극대화한다.
Speed by Simplicity -- 단일 스트림 오디오-비디오 생성 모델
오디오와 비디오를 동시에 생성하는 기반 모델에서, 복잡한 다중 스트림 대신 단일 스트림 아키텍처로 속도를 높인 연구다.
MemDLM -- 메모리 강화 확산 언어 모델 학습
확산 언어 모델의 학습을 외부 메모리로 강화하는 방법이다.
논문: 의료, 자율주행, 기타 응용
SHAPE -- 의료 이미지 분할을 위한 비지도 도메인 적응
다양한 병원 환경에서 의료 영상 분할 모델을 라벨 없이 적응시키는 방법이다.
Multiscale Switch for Medical Ultrasound Image Segmentation
의료 초음파 이미지 분할에서 반지도 학습과 대조 학습을 결합한 멀티스케일 스위치 기법이다.
Chronological Contrastive Learning -- 비가역적 질환의 퓨샷 진행도 평가
비가역적 질환(예: 간 섬유화)의 진행 단계를 소수의 라벨만으로 평가하는 시간순 대조 학습 방법이다.
SegMaFormer -- 3D 의료 이미지 분할을 위한 하이브리드 SSM-Transformer
State Space Model과 Transformer를 결합해 3D 의료 이미지를 효율적으로 분할하는 아키텍처다.
LRC-WeatherNet -- 자율주행을 위한 LiDAR/RADAR/카메라 융합 날씨 분류
비, 안개, 눈 등 악천후에서 자율주행 차량의 LiDAR, RADAR, RGB 카메라 데이터를 융합해 실시간으로 날씨를 분류하는 네트워크다.
Future-Interactions-Aware Trajectory Prediction via Braid Theory
수학의 브레이드 이론(꼬임 이론)을 차용해, 자율주행 환경에서 여러 에이전트의 미래 상호작용을 고려한 궤적 예측을 수행한다.
Suiren-1.0 -- 분자 기반 모델 패밀리
다양한 유기 시스템을 정확하게 모델링하는 분자 기반 모델 패밀리 Suiren-1.0을 소개한다.
AnimalCLAP -- 종 인식을 위한 분류 체계 인식 언어-오디오 사전학습
동물 종 인식과 특성 추론을 위해 분류 체계를 인식하는 언어-오디오 사전학습 모델이다.
논문: 보안, 윤리, 게임 이론
LLM의 도덕적 추론 -- 수사인가 진짜 추론인가
LLM이 도덕적 딜레마에 대해 실제로 발달 심리학의 콜버그 단계를 따라 추론하는지, 아니면 단순히 그렇게 들리게 말하는 것인지를 실증적으로 분석한 논문이다.
Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas
LLM이 반복적 사회적 딜레마(죄수의 딜레마 등)에서 협력과 착취 전략을 어떻게 합성하는지 연구한다.
Adversarial Camouflage -- 얼굴 인식을 피하는 적대적 위장
대규모 얼굴 인식 시스템의 위험에 대응해, 적대적 위장 기법으로 개인 프라이버시를 보호하는 방법을 연구한다.
SecureBreak -- 안전하고 보안적인 모델을 위한 데이터셋
LLM의 보안 정렬(security alignment)을 평가하고 강화하기 위한 데이터셋이다.
AI 생성 텍스트 자동 탐지 -- 신경 모델 비교 프레임워크
AI가 생성한 텍스트를 자동으로 탐지하는 다양한 신경 모델을 비교하는 프레임워크다.
Probing Cultural Signals in LLMs through Author Profiling
LLM의 출력에서 문화적 신호를 저자 프로파일링을 통해 탐색하는 연구다.
논문: 기타 머신러닝 및 시스템
Understanding Behavior Cloning with Action Quantization
행동 복제(behavior cloning)에서 행동을 양자화(이산화)하는 것이 학습에 미치는 영향을 분석한다.
lambda-GELU -- 깊은 네트워크에서 게이팅 경도 학습
GELU(Gaussian Error Linear Unit)를 ReLU에 가깝게 변환하는 정도를 학습 가능하게 만든 lambda-GELU를 제안한다. 모델 압축이나 배포 환경에서 활성화 함수의 유연한 전환을 가능하게 한다.
ReLMXEL -- 적응적 RL 기반 메모리 컨트롤러
설명 가능한 에너지 및 지연 최적화를 위한 적응적 RL 기반 메모리 컨트롤러다.
One Model, Two Markets -- 입찰 인식 생성형 추천
생성형 추천 시스템에서 사용자 선호도와 광고 입찰가를 동시에 고려하는 방법이다.
TREX -- 다목적 강화학습의 궤적 설명
다목적 RL에서 에이전트의 궤적(행동 시퀀스)을 설명 가능하게 만드는 방법이다.
Calibeating Made Simple
외부 예측을 온라인으로 후처리해 누적 손실을 최소화하는 calibeating 문제를 단순화한 연구다.
기타 주목할 콘텐츠
해커톤과 이벤트
- Cursor Seoul Hackathon 2nd -- Eurekathon: 세계 최초 사우나 해커톤. 2026년 4월 4일, AQUAFIELD 고양에서 개최. 약 20팀, 참가자 전원 Cursor 크레딧 + 굿즈 제공. (Sijin Jeon (LinkedIn) | sireal_co (Threads))
- 흑백개발자 THE 해커톤: 이준석 의원, 이태양 토스 공동창업자 등이 참가한 실사용자 반응 기반 해커톤. Jiwoon Won은 바이럴 플랫폼 '오분'(ovoon.me)을, startkim1214는 대화 기반 AI 에이전트 자동 생성 서비스 '오토미'(auto-me.app)를 만들었다.
- 위민후코드코리아 멀티에이전트 시스템 방탈출 워크숍: 4월 17일, Microsoft Agent Framework 기반 멀티에이전트 시스템 구축 원데이 워크숍.
커리어와 조직
- 권오현 전 삼성전자 회장의 조언 (Somewon Yoon (LinkedIn)): "진짜 1등이 되려면 내가 더 잘할 수 있는 게 아니라, 나만이 할 수 있는 걸 찾아야 한다", "리더가 매출만 질문하면 그 조직은 평생 발전을 못 한다."
- 성과보다 평판과 노출이 커리어의 90% (Dongmi Choi (LinkedIn)): 싱가포르 금융권 전문가 Eric Sim 인터뷰. 단순함이 만드는 압도적 존재감.
- 가짜연구소 시즌 12 (Pseudo Lab (LinkedIn)): 206명의 연구자/개발자가 매일 저녁 자발적으로 모여 AI/DS 지식을 나누는 시간표 공개.
도구와 팁
- OpenDataLoader PDF -- GitHub 트렌딩 1위 (Sangkwun Kang (LinkedIn)): PDF를 AI가 읽기 좋은 마크다운으로 변환. 단순 페이지는 Java, 복잡한 페이지는 Docling(IBM 오픈소스)으로 처리.
- Claude MCP로 팀 분석 히스토리 관리 (이장근 (LinkedIn)): alive-analysis-mcp를 설치하면 Claude가 직접 분석 히스토리에 접근. "결제 관련 분석 찾아줘"하면 검색, 요약, 연결.
- 타임박싱 옵시디언 플러그인 (Mingyu Jeong (LinkedIn)): Brain Dump -> Top Priorities -> Timeboxing을 Daily 문서 안에서 수행하는 옵시디언 플러그인.
- PathRAG + Google Spanner (Sungmin Kim (LinkedIn)): 기존 GraphRAG의 한계(정보 단절, 노이즈)를 경로 기반 추출로 해결하는 PathRAG를 Google Spanner 위에 구현.
- Jina Reader (aisolutiondev (Threads)): URL 앞에 https://r.jina.ai/를 붙이면 웹 페이지의 핵심 콘텐츠만 마크다운으로 변환. 무료.
- DeerFlow 2.0 (aisolutiondev (Threads)): 바이트댄스가 오픈소스로 공개한 슈퍼 에이전트 하네스. 서브에이전트, 메모리, 샌드박스, IM 채널, Claude Code 통합. LangGraph 기반.
- Seedance 2.0 공식 출시 (choi.openai (Threads)): Dreamina의 다중 모달 비디오 모델. 텍스트, 이미지, 비디오를 모두 참조해 영상 생성.
- 중국 Wan 모델로 격투 게임 실시간 생성 (choi.openai (Threads)): 킹오브파이터즈 격투 화면을 사용자 입력에 맞춰 실시간 영상으로 생성.
마케팅과 비즈니스
- 타입캐스트 x MBC 무한도전 AI 음성 재현 (타입캐스트 (LinkedIn)): 1시간 녹음 데이터, 30분 학습으로 박명수/정준하 목소리를 AI로 구현.
- AI로 Google/Meta 광고 캠페인 2분 만에 생성 (Ira Bodnar (LinkedIn)): 비즈니스와 타겟을 설명하면 RSA 카피, 키워드, 입찰 전략까지 자동 생성.
- AI 영업 자동화로 해외 30개국 공략 (heo._pro (Threads)): AI에게 해외 영업을 맡기자 독일, 베트남 등에서 매일 문의가 들어오기 시작.
- 1인 개발자 캐나다에서 6개 서비스 운영 (lucas.dev.kr (Threads)): 취업 실패 후 혼자 앱 만들기 시작해 1년 반 만에 구독 매출 월 $1K 달성.
- Y Combinator 아이디어 병목 (EO planet (LinkedIn)): AI가 실행을 쉽게 만들었지만, 같은 정보 소스를 공유하는 창업자들이 비슷한 아이디어만 내놓는 문제.
X(Twitter) 기타
- Austen -- 엔지니어 무료 양성 프로그램 (X): 오스틴으로 비행기 + 숙소 + 식사 + AI 교육 제공, $200K~$1M 취업까지 연결. 비용 무료.
- Theo: "I'm not scared of Anthropic" (X): Claude의 급성장에도 불구하고 두렵지 않다는 반응.
- levelsio: Air Canada LaGuardia 사고 (X): ATC 관련 항공 사고 보도.
- n8n 가이드 출간 기념 이벤트 (X): n8n 활용 가이드북 출간.
- 유튜브 쇼핑에 알리익스프레스 공식 파트너 추가 (nextgen.kr (Threads)): 크리에이터가 상품을 콘텐츠에 태그해 소개 가능.
교차 분석
오늘의 콘텐츠를 관통하는 가장 큰 흐름은 **'AI 에이전트에 대한 위임의 수준이 한 단계 올라갔다'**는 것이다.
도구 측면: Claude Computer Use와 /schedule, Cursor Instant Grep, Kapso CLI(WhatsApp 에이전트), DeerFlow 2.0 등이 동시에 나오면서, AI 에이전트가 할 수 있는 일의 범위가 데스크톱 조작, 반복 작업 예약, 외부 메신저까지 확장됐다.
방법론 측면: '하네스 엔지니어링'이라는 용어가 등장하며, 단순 프롬프팅을 넘어 SOP + 도구 결합으로 에이전트를 체계적으로 제어하는 방법이 정리되고 있다. Kyunghun Lee의 "AI를 잘 쓴다는 것의 본질" 글, Shubham Saboo의 5가지 스킬 설계 패턴, 마이리얼트립의 AI Nativeness 평가 지표가 같은 방향을 가리킨다.
연구 측면: RLVR, Markov States, CIB, PivotRL 등 LLM의 추론 능력을 끌어올리는 연구가 쏟아지고 있다. 에이전트가 더 복잡한 작업을 수행하려면 기반 모델의 추론 능력이 핵심이기 때문이다. LongCat-Flash-Prover가 5600억 파라미터로 형식 증명을 정복하고, 비동기 에이전트 전략, 저비용 에이전트 후학습 등이 동시에 발표됐다.
우려 측면: HoYeon Lee가 "AI에 매몰돼 현실 감각을 잃고 있다"고 토로하고, Anthropic 보고서에서 "결과물이 그럴듯할수록 팩트체크가 줄어든다"는 발견이 나오고, Trivy 공급망 공격이 발생한 것은 AI 가속화의 이면을 보여준다. "코드의 죽음은 과장되었다"는 글이 바이브 코딩의 함정을 경고한 것도 같은 맥락이다.
결론적으로, 오늘은 AI 에이전트가 "내가 시키면 하는 도구"에서 "알아서 일하는 팀원"으로 전환되는 임계점이 어디쯤인지를 여러 각도에서 보여준 하루다. 도구는 준비됐고, 방법론은 정리되고 있으며, 기반 모델은 계속 강해지고 있다. 남은 문제는 보안, 검증, 그리고 인간의 판단력 유지다.
Powered by inflow