Daily Digest — 2026-04-08
보안형 AI 공개 보류, 코딩 에이전트 하네스 경쟁, 지식 시스템 재편, 멀티모달 연구 확장이 한꺼번에 진행된 날
Daily Digest — 2026-04-08
오늘의 핵심 흐름
- 보안 역량이 강한 모델은 공개보다 통제가 먼저다. Anthropic의 Project Glasswing·Claude Mythos 제한 배포, OpenClaw 계열 포렌식·안전성 연구, PLC 공격과 랜섬웨어 실명 공개가 한 축으로 묶인다.
- 코딩 에이전트 경쟁의 승부처는 모델이 아니라 하네스다. Claude Code 품질 회귀 논란, 멀티 에이전트 오케스트레이션 비판, Agent Skills·RTK·Hook·Design Mode 사례가 모두 운영 레이어의 중요성을 보여준다.
- 지식 시스템이 다시 제품성과 생산성의 핵심이 되고 있다. LLM-Wiki, 메모리 궁전, FileGram, Memory Intelligence Agent, Paper Espresso, ResearchEVO가 개인 메모리와 연구 자동화를 같은 축으로 연결한다.
- 멀티모달·추론 연구는 성능보다 구조를 묻는 단계로 넘어갔다. reasoning compression, KV 압축, 평가 방법론, world model, degraded image understanding, visual reasoning RL, spatial editing 같은 주제가 동시다발적으로 확장됐다.
- 비즈니스와 조직은 AI를 기능이 아니라 운영 체계로 받아들이고 있다. 광고 크리에이티브 자동화, SEO 브리프 생산, AI-native firm, 채널톡·위펀 사례, 개인 창업 해자 논의가 모두 실행 시스템화로 수렴한다.
보안 경보
오늘은 보안 관련 항목이 단순 뉴스가 아니라 제품 출시 전략, 오픈소스 에이전트 생태계, 국가 인프라, 규제·컴플라이언스 연구까지 동시에 연결됐다. 특히 강한 보안 모델의 제한 배포, 에이전트 스킬 생태계의 자산 유출 위험, 그리고 실제 인프라 공격 사례가 함께 등장했다.
Project Glasswing으로 핵심 소프트웨어 보안 강화
- 작성자: Anthropic | 플랫폼: linkedin | 좋아요: 5352
Anthropic이 Claude Mythos Preview를 활용해 핵심 소프트웨어의 취약점을 찾는 Project Glasswing을 공개했다. AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks와 협력해 세계가 의존하는 시스템의 결함을 찾고 고치겠다는 내용이다. 모델은 이미 수천 개의 고위험 취약점을 찾아냈지만, 일반 공개 대신 안전장치 검증과 방어용 활용에 초점을 두고 있다.
AI 코딩 툴의 보안 문제와 OutSystems
- 작성자: Charly Wargnier | 플랫폼: linkedin | 좋아요: 15
AI 코딩 툴이 빠르지만 보안 유출과 시스템 붕괴를 일으킬 수 있다는 문제를 짚고, 이를 막는 OutSystems의 새 솔루션을 본다. 제어되지 않는 AI가 기업 시스템을 깨뜨린다는 경고다.
Claude Mythos가 베일을 벗고 있다
- 작성자: 강정호 | 플랫폼: linkedin | 좋아요: 1
소스코드 유출 사고 직후 Anthropic이 차세대 플래그십 모델 Claude Mythos를 일부 얼리 액세스 고객에게 테스트 중이라고 소개한다. 발표 시점의 아이러니까지 짚는다.
토스의 서비스 취약점 분석 자동화
- 작성자: seon_woos | 플랫폼: threads | 좋아요: 117
토스가 LLM과 MCP, RAG를 활용해 서비스 취약점 분석을 자동화한 글을 공유한다. AI를 코드 작성뿐 아니라 보안 분석에도 적용하는 사례다.
바이브코더가 보안에 쓸 수 있는 하루 10분 프롬프트
- 작성자: tatum_hq | 플랫폼: threads | 좋아요: 88
배포 전에 10분만 써도 되는 보안 점검 프롬프트를 공유하려는 글이다. 바이브코딩 결과물을 출시 전에 최소한의 보안 관문으로 거르려는 목적이다.
너무 뛰어나서 공개를 보류한다
- 작성자: aicoffeechat | 플랫폼: threads | 좋아요: 86
Anthropic이 Mythos Preview를 공개했지만 일반 사용자에게는 제공하지 않을 정도로 강력하다고 설명한다. 수천 개의 제로데이 취약점을 찾은 모델이 다가올 AI 보안 시대의 기준을 바꾼다는 분석이다.
양자 컴퓨팅 시점에 대한 암호공학 엔지니어의 관점
- 플랫폼: geeknews | 분량: 2297 words | 좋아요: -
이 글은 최근 몇 달 사이 공개된 두 연구를 계기로, 양자내성 암호 전환의 시급성이 다시 높아졌다고 말한다. Google은 256-bit elliptic curves를 깨는 데 필요한 logical qubit과 gate 수를 크게 낮춰 잡았고, 다른 연구는 비국소 연결이 있으면 물리 qubit 10,000개 수준에서도 가능성을 열어뒀다.
저자는 타임라인이 여전히 불확실하다고 하면서도, 하드웨어 개선·알고리즘 개선·오류정정 완화가 동시에 진행 중이라는 점이 중요하다고 본다. 즉 “아직 멀었다”는 안도감보다, 준비 시간을 잃고 있다는 인식이 더 필요하다는 주장이다.
이 글은 양자 위협을 과장하지 않으면서도 무시하지 않는 쪽에 선다. Bitcoin 쪽 논의와도 같은 축에 있고, 실제 대응은 암호 교체 계획과 자산 이동 시나리오를 먼저 정리하는 일이다.
Anthropic의 최강 보안 AI "Claude Mythos", 일반 공개 대신 선택된 파트너에게만 제한 배포
- 플랫폼: geeknews | 분량: 1301 words | 좋아요: -
이 글은 Anthropic이 최신 모델 Claude Mythos Preview를 일반 공개하지 않고, 제한된 파트너에게만 먼저 풀었다는 점을 정리한다. 이유는 단순히 성능이 좋아서가 아니라, 사이버보안 연구 능력이 너무 강해서 산업 전체가 준비할 시간을 줘야 한다는 판단 때문이다.
모델은 일반 범용 모델이지만, 소개 문구에서 이미 수천 개의 high-severity 취약점을 찾아냈고 주요 OS와 웹브라우저 전반에 걸친 결과가 언급된다. 이 때문에 공개 전략 자체가 제품 발표보다 Project Glasswing 같은 방어 준비와 더 가깝다.
26번의 상세 기술 보고서와 같은 맥락이다. 여기서는 공개보다 제한 배포가 먼저라는 Anthropic의 위험 관리 방식을 읽는 게 핵심이다.
독일 경찰, GandCrab·REvil 랜섬웨어 조직의 러시아인 수장 실명 공개
- 플랫폼: geeknews | 분량: 1073 words | 좋아요: -
독일 BKA는 UNKN로 알려진 인물이 실제로는 Daniil Maksimovich Shchukin이며, GandCrab과 REvil의 수장이라고 밝혔다. 이 조직들은 double extortion을 사실상 대중화한 랜섬웨어 그룹으로, 독일 내에서만 130건 이상의 파괴·갈취 행위와 연결된다.
기사의 핵심은 익명 해커의 신원이 공개되었다는 사실보다, 랜섬웨어 생태계가 얼마나 오래 이어졌는지다. 2018년 GandCrab 등장부터 2021년 피해, 그리고 2023년 DOJ 자산몰수 관련 문서까지 연결되며, 사건이 단일 범죄가 아니라 장기 추적의 결과임을 보여준다.
실무적으로는 랜섬웨어 대응에서 수사기관 공조와 크립토 추적이 얼마나 중요한지 다시 보여주는 사례다.
Adobe가 Creative Cloud 설치 여부를 감지하기 위해 hosts 파일을 수정함
- 플랫폼: geeknews | 분량: 152 words | 좋아요: -
이 글은 Adobe Creative Cloud가 설치 여부를 확인하려고 hosts 파일에 항목을 추가한다는 점을 지적한다. 사용자가 adobe.com/home에 접속하면 detect-ccd.creativecloud.adobe.com/cc.png를 통해 감지하는 구조라고 설명한다.
문제는 단순한 감지보다 시스템 hosts 파일을 건드린다는 사실 자체다. 운영체제 차원 설정을 앱 측에서 만지는 행위라서, 배포·진단·보안 관점에서 불쾌감이 큰 패턴이다.
Assessing Claude Mythos Preview's cybersecurity capabilities
- 플랫폼: hackernews | 분량: 14278 words | 좋아요: -
이 Anthropic 보고서는 Claude Mythos Preview가 사이버보안 작업에서 얼마나 강한지 정량적으로 보여준다. 결론부터 말하면, 이 모델은 모든 주요 OS와 웹브라우저에서 zero-day를 찾아 exploitable하게 만들 수 있고, 그래서 Project Glasswing이라는 제한 배포 방어 프로젝트가 동시에 시작됐다.
수치도 강하다. 약 1,000개 오픈소스 저장소와 7,000개 진입점에 걸친 실험에서, Opus 4.6은 주로 tier 1~2 수준이었지만 Mythos Preview는 595개의 tier 1/2 크래시, 몇 개의 tier 3/4, 그리고 10개의 tier 5 완전 제어 탈취를 기록했다. Firefox 실험에서는 working exploit 181회, register control 29회가 나왔고, 198개 수동 검토 보고서에서 severity 판단은 89%가 정확히 일치했고 98%가 한 단계 이내였다.
사례는 더 충격적이다. 27년 된 OpenBSD SACK 버그, 16년 된 FFmpeg H.264 취약점, 17년 된 FreeBSD NFS RCE CVE-2026-4747, memory-safe VMM의 guest-to-host corruption, Linux kernel privilege escalation, 모든 주요 브라우저의 JIT heap spray까지 이어진다. 보고서는 99% 이상이 아직 패치되지 않았다고 밝히며, 방어 측면에서는 KASLR, W^X, 하네스 설계, 책임 있는 disclosure 프로세스가 얼마나 중요한지 강조한다.
Iranian-Affiliated Cyber Actors Exploit PLCs Across US Critical Infrastructure
- 플랫폼: hackernews | 분량: 3199 words | 좋아요: -
이 CISA 권고문은 이란 연계 APT가 인터넷 노출 PLC를 노려 미국 핵심 인프라를 흔들고 있다고 경고한다. 대상은 Rockwell Automation/Allen-Bradley PLC를 포함한 OT 장비이며, 정부·수자원·에너지 부문에서 project file 조작과 HMI/SCADA 화면 변경으로 운영 중단과 금전 손실이 발생했다.
관찰된 초기 접근은 해외 기반 IP와 Rockwell의 Studio 5000 Logix Designer 같은 도구를 통한 접속이었다. 악성 트래픽은 44818, 2222, 102, 22, 502 같은 OT/공통 포트를 노렸고, Dropbear SSH 배포와 T0883, T1565, T0885, T1219 매핑도 제시된다.
대응 조치는 아주 실용적이다. PLC를 인터넷에서 분리하고, 게이트웨이/방화벽/MFA를 두며, 물리 mode switch를 run으로 두고, 백업과 패치, 불필요한 서비스 비활성화, IOCs 점검을 즉시 하라고 권고한다. 같은 주제의 2023년 PLC 공격 사례와도 직접 이어진다.
Bitcoin and quantum computing
- 플랫폼: hackernews | 분량: 2456 words | 좋아요: -
이 글은 Bitcoin의 서명이 양자컴퓨터가 현실화되면 깨진다는 점을 전제하고, 그에 대한 대응이 얼마나 어려운지 정리한다. 핵심 질문은 CRQC가 언제 나타나는지와, Bitcoin이 soft fork와 지갑 이동을 포함한 업그레이드를 실제로 합의할 수 있는지다.
저자는 CRQC 가능성이 여러 타임라인에서 non-zero라고 보지만, 업그레이드 경로의 합의가 보장된 것은 아니라고 말한다. 즉 기술적으로만이 아니라 거버넌스적으로도 “Bitcoin이 제때 바뀔 수 있는가”가 문제다.
29번의 양자 암호 글과 같은 축에 있으며, 투자자와 사용자 모두에게는 자산 이동 계획을 미리 세우라는 경고로 읽힌다.
Cells for NetBSD: kernel-enforced, jail-like isolation
- 플랫폼: hackernews | 분량: 1832 words | 좋아요: -
Cells for NetBSD는 chroot와 Xen 사이의 빈틈을 메우는 커널 강제 격리 계층이다. 단순 컨테이너 얘기가 아니라, 프로세스 격리, hardening profile, supervised service execution, lifecycle management를 한 호스트 안에서 묶는 쪽에 가깝다.
기능 목록에는 host-centric networking, port ownership, built-in supervisor/logging, telemetry, volume management, backup/restore, cellmgr, cellui, Prometheus-compatible metrics까지 포함된다. 문서와 FAQ는 “컨테이너 플랫폼이 아니다”라는 점을 분명히 하며, NetBSD의 jail-like 모델을 현대적으로 확장하려고 한다.
이는 운영체제 수준 격리를 다시 설계하는 프로젝트로 볼 수 있다. 가벼운 VM과 커널 격리의 중간층을 찾는 팀에 맞는다.
Anthropic's Project Glasswing sounds necessary to me
- 플랫폼: hackernews | 분량: 1301 words | 좋아요: -
이 글은 Simon Willison이 Anthropic의 Project Glasswing과 제한 배포 전략을 두고 “필요한 조치”라고 평가한 논평이다. 그는 Mythos Preview가 단순히 강한 모델이 아니라, 산업 전체가 대비해야 할 정도로 위험한 보안 역량을 가졌다고 본다.
핵심 인상은 26번 보고서와 같은 사실을 다른 목소리로 확인해 준다는 점이다. thousands of high-severity vulnerabilities와 major OS/browser 전반의 취약점 발견은, 공개를 늦추는 것이 오히려 책임 있는 선택일 수 있다는 논리를 뒷받침한다.
Ex-Meta worker investigated for downloading 30k private Facebook photos
- 플랫폼: hackernews | 분량: 401 words | 좋아요: -
전 Meta 직원이 Facebook 사용자 사진 약 30,000장을 다운로드한 혐의로 조사받고 있다. 그는 보안 검사를 피하면서 개인 사진에 접근하는 프로그램을 설계한 것으로 의심되며, 사건은 런던 메트로폴리탄 경찰의 사이버 범죄 수사로 이어졌다.
Meta는 내부에서 이미 1년 이상 전에 침해를 발견했고, 즉시 해고와 법집행기관 통보를 했다고 밝혔다. 경찰은 2025년 11월에 30대 남성을 체포했고, 회사는 영향을 받은 사용자에게 통지한 뒤 보안 시스템을 강화했다.
이 사건은 메타의 이전 벌금과 비밀번호 저장 사고까지 이어지는, 반복되는 개인정보 보호 리스크의 연장선에 있다.
USD Purchasing Power in Real Time Since 2000
- 플랫폼: hackernews | 분량: 67 words | 좋아요: -
이 페이지는 2000년 1월부터 지금까지 1달러의 실질 구매력이 얼마나 줄었는지를 실시간으로 보여준다. 데이터는 BLS CPI-U, CUUR0000SA0를 사용하며, 장기 CPI 추세를 현재 시점까지 보간해 초 단위로 갱신한다.
짧지만 의도는 분명하다. 화폐의 명목가치와 실질가치가 다르다는 사실을 시각적으로 즉시 체감하게 만든다.
메타 메모
- 반복되는 패턴: AI 에이전트는 프롬프트보다 하네스와 검증이 중요해졌고, 보안 모델은 모델 성능보다 배포 통제와 책임 있는 disclosure가 중요해졌다.
- 반복되는 패턴: 온디바이스/로컬 AI, 디지털 전용 서비스, 장비의 인터넷 노출, 노동시장 이탈처럼
중앙 집중 → 분산/로컬/제약으로 바뀌는 흐름이 많다. - 논문/SNS와 이어질 주제 힌트:
KV-cache, agent orchestration, LLM 보안 평가, OT/PLC 방어, 양자내성 암호, IPv6 전환, 로컬 음성 인식, AI 생성물의 출처 검증.
Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw
- 플랫폼: Hugging Face | 분량: 8099 words
이 논문은 Gmail, Stripe, 파일시스템까지 연결된 개인용 AI 에이전트 OpenClaw의 실제 공격면을 정면으로 다룬다. 기존 평가는 샌드박스나 시뮬레이션에 머무는 경우가 많아, 장기 메모리와 신원 설정, 실행 가능한 스킬이 함께 얽힌 실환경 위험을 제대로 드러내지 못한다는 문제가 있었다.
저자들은 persistent state를 Capability, Identity, Knowledge의 CIK 세 축으로 나누는 taxonomy를 제안하고, 이를 기반으로 12개 공격 시나리오를 실사용 인스턴스에서 시험했다. 네 개 백본 모델은 Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, GPT-5.4이며, CIK 중 하나만 오염돼도 평균 공격 성공률이 24.6%에서 64-74%로 뛰어오른다.
수치도 분명하다. Knowledge 공격의 평균 ASR은 74.4%, Capability는 68.3%, Identity는 64.3%였고, 가장 강한 모델인 Opus 4.6조차 기준선 10.0%에서 3배 이상 악화됐다. 방어 실험에서도 가장 강한 방어가 Capability 공격에 63.8% 성공률을 남겼고, 파일 보호는 악성 주입의 97%를 막지만 정상 업데이트까지 함께 차단했다.
결론적으로 이 연구는 문제가 특정 모델의 취약함이 아니라 에이전트 구조 자체에 있음을 보여준다. 프로젝트 페이지도 함께 공개되어 있어, 후속 연구는 개별 프롬프트 방어보다 persistent file을 전제로 한 구조적 방어로 옮겨가야 한다는 점을 분명히 한다.
Type-Checked Compliance: Deterministic Guardrails for Agentic Financial Systems Using Lean 4 Theorem Proving
- 플랫폼: Hugging Face | 분량: 6184 words
이 글은 금융 도메인에서의 agentic AI를 "확률적 모델"로만 두면 안 된다고 주장한다. SEC, FINRA, OCC처럼 엄격한 규제가 걸린 환경에서는, NeMo Guardrails나 Guardrails AI 같은 확률적 가드레일만으로는 다변수 규제 조건을 보장하기 어렵다는 것이 출발점이다.
제안은 Lean-Agent Protocol이다. Aristotle 같은 neural-symbolic 모델이 자연어 정책을 Lean 4 코드로 auto-formalize하고, 모든 agent action을 정리된 conjecture로 바꿔 Lean kernel이 증명할 수 있을 때만 실행을 허용한다. 즉, 실행 여부를 문자열 필터가 아니라 정리 증명으로 결정한다.
논문은 이 구조가 SEC Rule 15c3-5, FINRA Rule 3110, OCC Bulletin 2011-12, CFPB explainability 요구를 충족할 수 있다고 본다. 본문에서는 Lean 기반 Cedar 검증이 평균 5마이크로초, 대응 Rust 평가가 7마이크로초라고 인용해 실시간성도 주장하며, Aristotle의 2025 IMO 6문제 중 5문제 해결 사례를 auto-formalization 역량의 근거로 든다. 코드와 live demo도 공개됐다.
이 논문의 성격은 완성형 제품보다 실용 아키텍처 제안에 가깝다. 그래서 숫자보다도 "컴플라이언스를 증명 가능한 수준으로 바꿀 수 있는가"라는 질문을 전면에 세운다.
Reciprocal Trust and Distrust in Artificial Intelligence Systems: The Hard Problem of Regulation
- 플랫폼: arXiv | 분량: 13280 words
이 글은 AI 규제의 핵심 문제를 “AI를 얼마나 신뢰할 것인가”에서 “AI와 인간 사이에 상호적인 trust/distrust 관계가 가능한가”로 옮긴다. 저자는 AI가 단순한 도구가 아니라, 제한적 의미에서 행위성을 가진 아티팩트로 간주되어야 한다고 주장한다.
기존 한계는 명확하다. 대부분의 규제 담론은 인간이 AI를 신뢰할 수 있는지에만 초점을 맞추지만, 실제로는 AI가 인간 입력을 신뢰하거나 불신하는 방식도 규제 문제를 만든다. 저자는 Serpukhov-15 핵 오경보와 Chernobyl 사고를 가정한 counterfactual 사례를 통해, AI에게 충분한 자율성을 주되 오판을 억제하는 규제 균형이 왜 어려운지를 설명한다.
이 논문은 실험 논문이 아니라 개념 논문이다. 그래서 결과는 정량 수치가 아니라, reciprocal trust/distrust가 규제 설계, 책임 귀속, 위험 분배에 어떤 딜레마를 만드는지에 대한 이론적 정리로 제시된다.
실무적으로는 “AI를 신뢰할 수 있는가”가 아니라 “AI가 언제 인간을 신뢰하지 말아야 하는가”라는 질문을 제도적으로 다뤄야 한다는 점이 핵심 메시지다.
Swiss-Bench 003: Evaluating LLM Reliability and Adversarial Security for Swiss Regulatory Contexts
- 플랫폼: arXiv | 분량: 9597 words
이 논문은 스위스 규제 맥락에서 LLM의 production reliability와 adversarial security를 한 프레임으로 평가해야 한다고 주장한다. 기존 Swiss-focused benchmark는 이런 두 축을 함께 operationalize하지 못했다는 점이 문제다.
저자들은 HAAS를 6개에서 8개 차원으로 확장한 SBP-003를 제안한다. 808개의 Swiss-specific item을 4개 언어(DE/FR/IT/EN)에서 평가하며, Swiss TruthfulQA, Swiss IFEval, Swiss SimpleQA, Swiss NIAH, Swiss PII-Scope, System Prompt Leakage, Swiss German Comprehension을 포함한다.
결과는 reliability와 security의 간극이 매우 크다는 점을 보여준다. D7 self-graded reliability는 73–94%였지만, D8 adversarial security는 20–61%였고, system prompt leakage resistance는 24.8–88.2%로 편차가 컸다. PII extraction defense는 모든 모델에서 14–42%로 약했다.
구체적으로는 Qwen 3.5 Plus가 D7 94.4%로 최고였고, GPT-oss 120B가 D8 60.7%로 최고였다. 데이터는 benchmark contamination 방지를 위해 공개하지 않았고, 2026-04-04 시점 OpenRouter 모델 스냅샷을 사용했다.
LUDOBENCH: Evaluating LLM Behavioural Decision-Making Through Spot-Based Board Game Scenarios in Ludo
- 플랫폼: arXiv | 분량: 8748 words
이 논문은 stochastic multi-agent board game인 Ludo에서 LLM의 전략적 판단을 평가하는 benchmark를 만든다. 기존 chess/go/poker/diplomacy 벤치마크가 놓친 “dice-driven, multi-piece, complete-information” 조합을 새로 다룬다는 점이 출발점이다.
LudoBench는 480개의 handcrafted spot scenario를 12개 decision category로 나누고, 4-player simulator와 game-theory baseline(expectiminimax / expectimax-MaxN)을 함께 제공한다. persona 조건 5개와 grudge-paired history framing으로, rule compliance와 framing sensitivity를 분리해 본다.
실험은 6개 모델을 5개 persona 조건에서 평가했으며, 모든 모델이 game-theory baseline과 일치하는 비율은 40–46%에 그쳤다. DeepSeek-Chat과 Claude-3.5-Haiku는 illegal move 비율이 1% 미만이었지만, Qwen-2.5-7B는 약 40%로 크게 불안정했다.
전략적으로는 finishers와 builders라는 두 archetype으로 갈렸다. finishers는 piece를 끝내는 데 강하지만 전개가 약하고, builders는 전개는 잘하지만 마무리를 못 했다. 코드, 480개 spot dataset, model output은 anonymous.4open.science/r/LudoBench-5CBF/에 공개됐다.
Foundations for Agentic AI Investigations from the Forensic Analysis of OpenClaw
- 플랫폼: arXiv | 분량: 8528 words
이 논문은 agentic AI가 digital investigation의 대상이 되는 시점에, 그 내부 상태와 행동을 어떻게 복원할 것인지 묻는다. 저자들은 widely used single-agent assistant인 OpenClaw를 대상으로 static code analysis와 differential forensic analysis를 수행했다.
기존 디지털 포렌식은 rule-based software에 맞춰져 있어서, LLM-mediated planning, persistent memory, tool execution이 섞인 agentic system을 다루기 어렵다. 그래서 이 논문은 recoverable traces를 interaction loop의 각 단계별로 분류하고 상관관계를 분석한다.
결과로 제안된 것은 다섯 개의 artifact plane이다. reasoning & cognition, identity & configuration, knowledge & recall, communication & I/O, actions & effects가 그것이며, session transcript, cron jobs, subagent runs, memory.sqlite 같은 로컬 아티팩트가 각각의 plane에 매핑된다.
실험 환경은 VirtualBox 위 Debian GNU/Linux 13(Trixie), OpenClaw version 2026.2.2-3이었다. supplementary repository와 artifact-examiner 도구는 github.com/jgru/forensic-analysis-of-openclaw에 공개됐다.
HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference
- 플랫폼: arXiv | 분량: 8489 words
이 논문은 multimodal LLM에서 KV cache가 이미지·비디오 토큰 때문에 너무 빨리 커져 inference가 느려지는 문제를 다룬다. token-level, layer-level, head-level compression이 있어도, head별로 서로 다른 compression strategy가 필요하다는 점이 기존 한계다.
HybridKV는 head를 static/dynamic으로 분류하고, top-down budget allocation 뒤에 static head에는 text-prior pruning, dynamic head에는 chunk-wise retrieval을 적용한다. 분류는 prefill stage의 text-centric sparsity score로 하고, budget은 head type과 individual head 수준에서 단계적으로 나눈다.
실험은 11개 multimodal benchmark에서 Qwen2.5-VL-7B를 중심으로 수행됐다. 10% KV budget에서 cache memory는 최대 7.9x 줄었고, decoding은 1.52x 빨라졌으며, full cache와 거의 같은 성능을 유지했다.
효율 표에서도 차이가 분명하다. Qwen2.5-VL-7B Video-ChatGPT 기준 full cache는 1.73 GB / 58.94 ms/token인데, HybridKV 10%는 0.22 GB / 38.65 ms/token이었다. threshold는 θ=0.9, share coefficient는 r=0.75가 최적이었다.
메타 메모
- 반복되는 연구 흐름은
효율 vs 정밀도의 균형이다. diffusion, KV cache, bandit, KBQA, traffic control, semantic oracle처럼 서로 다른 영역에서도 “비싼 추론을 언제 줄일 수 있는가”가 반복해서 등장한다. - 또 다른 공통축은
평가의 재정의다. 정확도 자체보다 재현성, 보안, 해석가능성, task-alignment, process evidence를 함께 보려는 흐름이 강하다. - 다른 배치/뉴스/SNS와 이어질 힌트는 세 가지다.
agentic AI forensics,regulatory benchmark,few-step / low-budget inference는 각각 보안·정책·인프라 쪽으로 확장되기 쉬운 주제다.
PECKER: A Precisely Efficient Critical Knowledge Erasure Recipe For Machine Unlearning in Diffusion Models
- 플랫폼: arXiv | 분량: 5585 words
생성형 확산모델에서 machine unlearning은 규제 준수와 안전성 때문에 중요하지만, 기존 방법은 대개 느리고 계산비용이 큽니다. 이 논문은 문제의 원인을 잘못 방향이 잡힌 gradient update로 보고, 타깃 데이터를 잊는 데 실제로 중요한 파라미터에만 업데이트를 집중시키는 PECKER를 제안합니다.
PECKER는 distillation 프레임워크 안에서 saliency mask를 사용해 잊어야 할 개념이나 클래스에 기여하는 파라미터를 우선 업데이트합니다. 그 결과 불필요한 gradient 계산을 줄이고 수렴을 안정화하면서, unlearning 효율과 속도를 함께 높입니다. 즉, "더 많이 업데이트"하는 대신 "더 정확히 업데이트"하는 접근입니다.
CIFAR-10과 STL-10에서 class forgetting과 concept forgetting을 평가한 결과, PECKER는 관련 개념을 더 빠르게 지우면서도 true image distribution에 더 가깝게 맞추거나 기존 방법을 능가했습니다. 이 논문은 확산모델의 unlearning이 단순한 최적화 문제가 아니라, 어떤 파라미터를 건드려야 하는지에 대한 선택 문제라는 점을 분명히 합니다.
On the Robustness of Diffusion-Based Image Compression to Bit-Flip Errors
- 플랫폼: arXiv | 분량: 5398 words
이 논문은 이미지 압축에서 흔히 보는 rate-distortion-perception 관점에 더해, 저장·전송 중 발생하는 bit-flip 오류에 대한 강인성을 정면으로 다룹니다. 저자들은 Reverse Channel Coding(RCC) 기반 diffusion compressor가 기존의 classical codec과 learned codec보다 비트 오류에 훨씬 강하다고 보이고, 이를 바탕으로 Robust Turbo-DDCM을 제안합니다.
실험은 Kodak24와 DIV2K에서 512x512 이미지를 대상으로 수행됐고, Binary Symmetric Channel로 BER을 주어 bit flip을 시뮬레이션했습니다. 비교 대상은 JPEG, BPG, ILLM, StableCodec, DiffC, DDCM, Turbo-DDCM, 그리고 새로 제안한 Robust Turbo-DDCM입니다. 평가 지표는 PSNR, LPIPS, FID, corrupted file 비율이었고, BER 10^-4와 10^-3에서 결과를 제시했습니다.
핵심 수치는 분명합니다. BER 10^-4에서 Robust Turbo-DDCM은 Kodak24에서 PSNR 24.05±2.90, LPIPS 0.15±0.07, FID 27.46±0.19, corrupted 0.00%를 기록했고, DIV2K에서는 22.03±3.07, 0.17±0.08, 31.54±0.19, 0.00%였습니다. BER 10^-3에서도 Kodak24 22.57±2.58, 0.20±0.08, 30.15±0.57, 0.00%, DIV2K 20.74±2.69, 0.21±0.09, 34.71±0.40, 0.00%로 가장 안정적이었습니다. 대가로 bit-rate는 올라가지만, 불안정한 채널 환경에서 ECC 의존도를 줄일 수 있다는 점이 의의입니다.
CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models
- 플랫폼: arXiv | 분량: 4343 words
이 논문은 LLM이 cloud-native software architecture를 실제로 이해하는지 평가할 벤치마크가 없다는 문제에서 출발합니다. CAKE는 Bloom의 revised taxonomy를 바탕으로 recall, analyze, design, implement의 4개 인지 수준과 5개 cloud-native topic을 포괄하는 188개의 expert-validated 질문으로 구성됩니다.
평가는 22개 모델 구성(0.5B~70B)에서 수행됐고, MCQ는 3회 majority voting, free-response는 LLM-as-a-judge 방식으로 채점했습니다. 총 130 MCQ와 58 FR로 이뤄졌으며, 모델군은 Qwen, Llama, Mistral, GPT 4개 family를 포함합니다. 공개 벤치마크와 실험 아티팩트도 제공됩니다.
결과적으로 MCQ는 3B 이상에서 거의 천장에 도달했고, 최고 정확도는 99.2%였습니다. 반면 free-response는 훨씬 넓은 분포를 보여 GPT-5-Mini가 overall 4.52, Mistral 14B가 4.33을 기록했고, implement level에서는 Mistral 14B가 4.54/5까지 도달했습니다. unanimous answer의 정확도는 89.5%였지만 split-majority는 55.0%에 그쳐, conviction 자체가 유용한 confidence signal임도 확인했습니다.
Evaluating Learner Representations for Differentiation Prior to Instructional Outcomes
- 플랫폼: arXiv | 분량: 2967 words
교육용 AI에서 learner representation이 중요한 이유는, 학습 결과가 아직 없거나 맥락 의존적일 때도 학생 간 차이를 보존해야 하기 때문입니다. 이 논문은 instructional outcomes 대신 representation 자체가 learner들을 얼마나 구분 가능하게 만드는지 평가하는 distinctiveness 개념을 제안합니다.
분석은 미국 R1 연구대학의 graduate CS course에서 수집한 39명의 학생 로그를 사용합니다. 질문 단위 표현은 Sentence Transformers의 all-MiniLM-L6-v2로 384차원 임베딩을 만들고, learner-level 표현은 instructional-need score, 추천 텍스트 임베딩, interaction history를 합친 45차원 signature로 구성합니다. 두 표현을 같은 similarity rule 아래에서 비교합니다.
결과는 learner-level 표현의 우위를 분명히 보여 줍니다. distinctiveness는 1.435±0.093으로 question-level 1.072±0.063보다 높았고, silhouette는 0.507 vs 0.028, pairwise verification ROC-AUC는 0.878 vs 0.626, uniqueness가 사라지는 threshold는 0.3409 vs 0.052였습니다. 즉, 개별 질문보다 학습자 수준의 집계 표현이 사전 배치 전 differentiation을 더 안정적으로 드러냅니다.
메타 메모
- LLM은 단독 생성기보다, 규칙 엔진·그래프·에이전트·벤치마크 안에 들어가는 구조화된 구성요소로 쓰이는 흐름이 강합니다. 해석 가능성, 감사 가능성, confidence signal 같은 메타 정보가 점점 더 중요해지고 있습니다.
- 효율성과 강건성이 반복되는 축입니다. PEFT/SAFT, saliency mask, token-efficient serialization, zero-cost monitoring, bit-flip robustness처럼 비용을 줄이면서도 실패 모드를 제어하는 설계가 여러 도메인에서 동시에 보입니다.
- 평가 방식도 단일 점수에서 벗어나는 중입니다. F1만이 아니라 IoU/DSC, MCQ+free-response, distinctiveness, conviction, corrupted file 비율처럼 작업에 맞는 구조적 지표를 함께 봐야 한다는 메시지가 공통적으로 드러납니다.
AI 에이전트 · 코딩 하네스
Claude AI Agent Skills로 토큰 비용 90% 절감
- 작성자: Rakesh Gohel | 플랫폼: linkedin | 좋아요: 1130
Agent Skills를 system prompt처럼 한 번에 다 넣는 것이 아니라, SKILL.md 본문, 메타데이터, 번들 자산을 필요할 때만 나눠 불러오는 3층 구조로 이해해야 한다고 설명한다. 이 구조가 토큰 절감, 실행 속도 개선, 워크플로 맥락 보존에 유리하고, skill description이 trigger 정확도를 좌우한다고 정리한다.
Claude Code 잘 사용하기 세미나
- 작성자: Youngdong Kim | 플랫폼: linkedin | 좋아요: 340
전사 세미나에서 Context Engineering, Harness 설계, CLAUDE.md 운영, SDD/TDD, Plan Mode, 멀티 에이전트 패턴, 실전 워크플로우를 묶어 Claude Code 활용법을 발표했다. 89장 슬라이드 전부를 Claude Code로 만들었고, 발표 제작 과정 자체도 마지막 섹션에서 사례로 공유했다.
Vibe Kanban으로 AI 코딩 에이전트 병렬 오케스트레이션
- 작성자: Sumanth P | 플랫폼: linkedin | 좋아요: 159
Claude Code, Gemini CLI, Codex 같은 여러 AI 코딩 에이전트를 한 대시보드에서 병렬로 돌리는 도구를 소개한다. 개발자는 직접 코딩보다 계획, 리뷰, 조율에 더 시간을 쓰게 된다는 흐름을 보여준다.
K-skill 업데이트와 생활형 유틸리티
- 작성자: Jeffrey Kim | 플랫폼: linkedin | 좋아요: 51
한국인을 위한 K-skill을 업데이트하며 근처 가장 싼 주유소 찾기 같은 실생활 유틸리티를 소개한다. 에이전트형 자동화보다 일상 문제 해결 쪽에 초점을 둔다.
OpenClaw가 소크라테스가 되는 워크플로
- 작성자: JAEGYU LEE | 플랫폼: linkedin | 좋아요: 34
Slack이나 Discord에서 ooo interview, ooo seed, ooo run을 입력하면 에이전트가 질문을 이어가며 요구사항을 정리하고 Seed 스펙 생성과 실행까지 이어지는 워크플로를 설명한다. 사람에게 질문하며 설계를 수렴하는 방식이다.
Utility는 eval과 action 사이를 잇는다
- 작성자: Sonam Pankaj | 플랫폼: linkedin | 좋아요: 25
프로덕션 에이전트에는 과거 trajectory와 결과를 반영하는 Utility가 필요하다고 설명한다. eval이 정답 여부를 판단한다면 Utility는 다음 행동에 영향을 주는 learnable score다.
Paperclip, Gastown, Claude Code Agent Teams
- 작성자: Seonggyu Lee | 플랫폼: linkedin | 좋아요: 21
제로 휴먼 컴퍼니형 에이전트 조직이 주목받는 가운데, 여러 에이전트를 회사나 도시처럼 편성해 운영해 본 실험담이다. 개발과 미디어 에이전시를 돌리며 약 5,000달러의 토큰 비용을 썼다고 한다.
Claude Code 시스템 프롬프트의 29개 블록
- 작성자: Jeongmin Lee | 플랫폼: linkedin | 좋아요: 11
유출된 Claude Code 코드베이스를 뜯어보니 시스템 프롬프트가 정적 문자열이 아니라 29개 블록을 조건부로 조립하는 동적 컨텍스트 엔진이었다고 분석한다. 모델 내부 설계에 대한 실증적 관찰이다.
LLM 토큰 사용량을 줄이는 CLI 프록시 RTK
- 작성자: JJO LAB | 플랫폼: linkedin | 좋아요: 0
LLM 토큰 사용량을 60~90% 줄이는 고성능 CLI 프록시 RTK를 정리한 링크 공유다. 구체 설명은 없고 자료 소개 성격이 강하다.
Agent Skills를 오픈소스로 공개
- 작성자: choi.openai | 플랫폼: threads | 좋아요: 196
Addy Osmani가 AI 코딩 에이전트용 Agent Skills를 공개했고, 6개의 간단한 명령어로 설계, 테스트, 코드 리뷰, 배포를 강제할 수 있다고 설명한다. AI가 검증 단계를 건너뛰지 못하게 만드는 구조다.
hermes-CCC 소개
- 작성자: alex_ai_mcp | 플랫폼: threads | 좋아요: 142
Anthropic의 서드파티 OAuth 제한으로 Hermes Agent 사용이 어려워진 상황에서 대안을 소개한다. Claude 연동 문제를 우회하려는 도구로 보인다.
하니스는 끝났습니다
- 작성자: yeon.gyu.kim | 플랫폼: threads | 좋아요: 120
oh-my-openagent를 만드는 입장에서 요즘 모두가 하니스를 이야기하는 걸 보며, 하니스의 시대가 끝났다는 느낌을 받았다고 말한다. 에이전트 실행 환경의 흐름 변화에 대한 한 줄 평이다.
Addy Osmani와 AI 에이전트 습관 설계
- 작성자: unclejobs.ai | 플랫폼: threads | 좋아요: 96
Google에서 14년 일한 Addy Osmani가 AI 에이전트에 습관을 심고 싶어 한다는 맥락으로 Chrome DevTools, Lighthouse, Core Web Vitals를 언급한다. 에이전트 품질 측정을 브라우저 레벨로 끌어오려는 흐름이다.
Hermes Agent v0.7.0
- 작성자: unclejobs.ai | 플랫폼: threads | 좋아요: 95
Nous Research의 오픈소스 AI 에이전트 Hermes Agent v0.7.0이 나왔고, 168개 PR과 46개 이슈를 처리한 The Resilience Release라고 소개한다. 자가 개선형 에이전트가 프로덕션급으로 올라왔다는 주장이다.
Claude Code 업무 환경 세팅
- 작성자: 1.ta.ai | 플랫폼: threads | 좋아요: 54
cmux 터미널, ssh/tailscale 원격제어, oh my zshrc 자동완성, Projects 워크스페이스, alias 등으로 Claude Code 작업 환경을 다듬는 팁을 공유한다. 작은 편의 설정이 누적 생산성을 만든다는 내용이다.
한달에 클코로 1억 6천만원 사용 중
- 작성자: qjc.ai | 플랫폼: threads | 좋아요: 25
Anthropic이 준 200달러가 30분이면 사라진다며 Claude Code 사용량이 엄청나다고 농담한다. 제품을 거의 종교처럼 대하는 과장된 표현이다.
Claude Code가 웹사이트를 한 번에 복제하는 스킬
- 작성자: oliviscusAI | 플랫폼: x | 좋아요: 3277
Chrome MCP로 웹사이트의 글꼴, 색상, 레이아웃을 직접 읽어 한 번의 프롬프트로 거의 완벽하게 복제하는 Claude Code 스킬을 소개한다. 100% 오픈소스라는 점을 강조한다.
Claude Code 토큰 대시보드
- 작성자: PawelHuryn | 플랫폼: x | 좋아요: 799
Claude Code가 서브스크립션 토큰 사용량을 자세히 보여주지 않아서, 로컬 파일을 읽는 대시보드를 만들었다고 한다. 프로젝트별·모델별 사용량을 추적하려는 도구다.
LLM은 OS 없는 CPU 같다
- 작성자: akshay_pachaar | 플랫폼: x | 좋아요: 435
raw LLM은 계산은 하지만 혼자서는 쓸모가 없고, agent harness가 바로 OS 역할을 한다는 비유를 제시한다. 하니스가 모델 위에 필요한 환경과 기능을 얹는다는 설명이다.
Claude Code 2.1.94 릴리스
- 작성자: ClaudeCodeLog | 플랫폼: x | 좋아요: 358
Claude Code 2.1.94가 배포됐고 CLI 변경 25개, 시스템 프롬프트 변경 2개가 있었다고 정리한다. 주요 변경으로는 default effort 상향과 MEMORY.md 처리 방식 개선이 있다.
프롬프트에서 하네스까지 - AI 에이전틱 패턴 4년의 기록
- 플랫폼: geeknews | 분량: 20009 words | 좋아요: -
이 글은 2022~2026년 사이 AI 개발 방식이 Prompt Engineering → Context Engineering → Harness Engineering으로 바뀌었다고 정리한다. 이전 패러다임이 약속을 지키지 못했고, 그래서 엄밀함이 사라진 게 아니라 프롬프트에서 컨텍스트, 다시 하네스로 이동했다는 점이 핵심이다.
초반에는 GitHub Copilot, ChatGPT, Andrej Karpathy의 “영어가 곧 프로그래밍 언어”라는 감각과 Andrew Ng의 4대 패턴을 돌아본다. 이후 Cursor, 바이브 코딩, Anthropic의 Write/Select/Compress/Isolate, Google ADK의 컨텍스트 스택, MCP, 스킬/서브에이전트/스웜, Context Hub, 메모리까지 이어지며, 2026년의 핵심 지표가 프롬프트 품질이 아니라 KV-cache hit rate와 하네스 복잡도라는 점을 강조한다.
실전 메시지는 보안과 검증이다. 글은 Lethal Trifecta와 2인 규칙, 에이전트 분해와 협업의 한계, 하네스 설계가 생산성보다 중요한 이유를 반복해서 보여준다. 같은 계열의 글인 뒤의 멀티 에이전트 오케스트레이션 글, 코드 에이전트 오케스트라 글과 직접 연결된다.
멀티 에이전트 오케스트레이션은 왜 잘 안 되는가?
- 플랫폼: geeknews | 분량: 10197 words | 좋아요: -
이 글은 Claude Code 에이전트 팀, Gastown, Paperclip을 직접 써 보며 멀티 에이전트가 항상 이득이 아니라는 점을 정리한다. $5,000어치 토큰을 태운 경험을 바탕으로, 잘 되는 영역은 분명하지만 구조적 병목이 더 뚜렷하다고 본다.
핵심 병목은 Context Collapse, Ghost Delegation, Verification Error 세 가지다. 에이전트가 전체 맥락을 못 보고, 위임이 끊기고, 검증이 허술해지는 문제 때문에 “에이전트 수”보다 “오케스트레이터 설계”가 더 중요해진다.
결론은 스웜이 아니라 공유 환경과 느슨한 영역 분리가 답이라는 쪽이다. 도메인별로 깊게, 영역 간에는 느슨하게 묶고, 먼저 풀릴 문제를 고르는 판별 기준을 세워야 한다는 점에서 6번의 코드 에이전트 오케스트라 글과 같은 문제의식을 공유한다.
Claude Code, 2월 업데이트 이후 복잡한 엔지니어링 작업에서 사용 불가 수준으로 품질 저하
- 플랫폼: geeknews | 분량: 4575 words | 좋아요: -
이 글은 Anthropic에 올린 문제 제기로, 2026년 2월 이후 Claude Code가 복잡한 엔지니어링 작업에서 눈에 띄게 퇴화했다고 주장한다. 단순한 체감이 아니라, 로그와 장기 관찰을 근거로 thinking redaction 타이밍, 사고 깊이, 도구 사용 패턴이 바뀌었다고 본다.
특히 read:edit ratio가 무너지고, 파일을 충분히 읽지 않은 채 편집부터 들어가며, 같은 파일을 반복 수정하는 일이 늘었다고 정리한다. 또 research-first → edit-first로 바뀌면서 품질은 떨어지고 비용은 올라갔고, stop hook과 시점 분석까지 포함해 문제를 계량하려고 시도했다.
이 글의 실용 포인트는 모델 성능 토론보다 검증 관찰 체계다. 복잡한 작업에서 “얼마나 읽고, 얼마나 검증하고, 얼마나 오래 생각하는가”를 기록해야 regression을 잡을 수 있다는 점을 보여준다.
코드 에이전트 오케스트라 - 멀티 에이전트 코딩을 제대로 작동시키는 법
- 플랫폼: geeknews | 분량: 4506 words | 좋아요: -
이 강연 정리는 AI 코딩이 “한 명의 AI와 페어링”하던 단계에서 “에이전트 팀을 관리”하는 단계로 넘어왔다는 선언으로 시작한다. 8단계 AI-assisted coding, conductor에서 orchestrator로의 전환, 단일 에이전트의 ceiling이 왜 생기는지까지 흐름이 명확하다.
핵심 패턴은 Subagents, Agent Teams, Orchestration at scale 세 가지다. Claude Code web, GitHub Copilot coding agent, Jules, OpenAI Codex web, Cursor Cloud Agents, Vibe Kanban 같은 도구를 비교하면서, 멀티 모델 라우팅, worktree lifecycle script, 인간이 직접 관리하는 AGENTS.md가 왜 품질 게이트가 되는지 설명한다.
후반부의 메시지는 Delegate the tasks, not the judgment다. 제약 조건이 분명하고 검증이 가능한 작업만 넘기고, 스펙과 품질 게이트를 먼저 설계해야 한다는 점에서 2번과 4번 글의 하네스/오케스트레이션 논점과 정확히 맞물린다.
agent-skills - AI 코딩 에이전트를 위한 프로덕션급 엔지니어링 스킬 모음
- 플랫폼: geeknews | 분량: 1453 words | 좋아요: -
이 저장소는 AI 코딩 에이전트가 따라야 할 프로덕션급 워크플로를 스킬로 패키징한 프로젝트다. DEFINE → PLAN → BUILD → VERIFY → REVIEW → SHIP 흐름을 표준화해서, senior engineer가 하던 품질 게이트를 에이전트가 일관되게 밟게 만드는 것이 목적이다.
총 19개의 스킬, 에이전트 퍼소나, 체크리스트, 프로젝트 구조 설명이 포함되어 있고, 명령어 중심으로 빠르게 시작할 수 있다. 핵심은 “프롬프트 하나로 끝내는 것”이 아니라, 작업 단계별로 분리된 규칙을 따라가게 만드는 점이다.
2번과 6번의 하네스/오케스트레이션 논의를 실제 레포 구조로 옮긴 예시로 볼 수 있다. 즉, 에이전트를 똑똑하게 만들기보다 에이전트가 실수하기 어렵게 만드는 쪽이다.
Emergent Compositional Communication for Latent World Properties
- 플랫폼: Hugging Face | 분량: 12026 words
이 논문은 frozen video feature에서 보이지 않는 물리 속성, 예를 들어 elasticity, friction, mass ratio를 discrete하고 compositional한 코드로 뽑아낼 수 있는지 묻습니다. 답은 multi-agent communication pressure와 Gumbel-Softmax bottleneck, iterated learning을 결합하면 가능하다는 것입니다.
backbone 비교도 중요합니다. 공간적으로 보이는 물리에서는 DINOv2가 ramp task에서 98.3%로 V-JEPA 2의 95.1%보다 낫지만, collision처럼 dynamics-only인 경우에는 V-JEPA 2가 87.4%로 DINOv2의 77.7%를 이깁니다(d=2.74). scale-matched와 frame-matched control을 넣어도 이 차이는 유지되며, 이는 pretraining 방식이 communicable information을 결정한다는 뜻입니다.
구조적으로는 4 agents, 80 seeds에서 100%가 near-perfect compositionality에 도달했고 PosDis는 0.999, holdout accuracy는 98.3%였습니다. 2 agents는 54% 수준이고, cross-property reasoning은 93.8%, outcome prediction은 25x compression에서도 88.7%, action-conditioned planning은 91.5%였습니다. real video에서는 mass comparison accuracy가 85.6%였고, key agent를 zeroing하면 7.8pp 떨어지며 p=0.022, d=1.87이었습니다.
Synthetic Sandbox for Training Machine Learning Engineering Agents
- 플랫폼: Hugging Face | 분량: 11808 words
MLE 에이전트는 SWE와 달리 검증 자체가 비쌉니다. 데이터 전처리, 학습, metric evaluation을 모두 돌려야 해서 on-policy RL이 사실상 막히는 것이 이 논문의 출발점입니다.
SandMLE는 seed task를 작은 synthetic sandbox로 바꾸는 multi-agent framework입니다. Task amplification/specification, code-driven data generation, automated evaluation sandbox, task description synthesis의 네 단계로 구성되며, 각 task는 50~200 샘플로 제한해 실행 시간을 줄입니다. trajectory-level GRPO와 dense reward, selective masking도 포함됩니다.
정량적으로는 execution time을 13배 이상 줄였고, MLE-bench-lite에서 Qwen3-8B/14B/30B-A3B 계열에 대해 relative medal rate가 20.3%~66.9% 개선됐습니다. MLE-Dojo에서는 unseen agentic scaffold에 대해 HumanRank가 최대 32.4% 더 좋았습니다. seed task 60개, 대형 모델 reference, 그리고 micro-scale 환경이라는 조합이 핵심입니다.
지식 시스템 · 연구 자동화
Karpathy 트윗과 LLM-Wiki
- 작성자: Sanguine Kim | 플랫폼: linkedin | 좋아요: 63
LLM 토큰 대부분이 코드가 아니라 지식에 쓰이고 있다는 Karpathy의 관찰을 인용하며, 그에 맞는 해법은 RAG가 아니라 Wiki라고 말한다. 지식 저장 방식의 초점 이동을 강조한다.
SIGIR2026 논문 채택
- 작성자: Youngjoon Jang | 플랫폼: linkedin | 좋아요: 54
Dense retrieval에서 score distribution이 knowledge distillation에 중요하다는 논문이 SIGIR2026에 채택됐다고 알린다. 논문 제목과 저자를 함께 공유하는 학술 성과 소식이다.
사람처럼 기억하는 AI용 메모리 궁전
- 작성자: AlphaSignal | 플랫폼: linkedin | 좋아요: 50
MemPalace는 대화를 로컬에 저장하고 기억 궁전 방식으로 구조화하는 오픈소스 시스템이다. AI 대화를 인간식 공간 기억 모델로 정리하려는 시도다.
OmC에 내장된 프로젝트 스코프 위키
- 작성자: Yeachan Heo | 플랫폼: linkedin | 좋아요: 45
Karpathy의 LLM-Wiki를 따로 쓰지 않아도 OmC에 프로젝트 단위 위키가 내장돼 있다고 말한다. 설치하고 쓰기만 하면 된다는 식으로 사용 허들을 낮춘다.
Karpathy가 말한 걸 48시간 만에 Graphify로 구현
- 작성자: Seungpil Lee | 플랫폼: linkedin | 좋아요: 11
Karpathy의 LLM Knowledge Bases 아이디어를 보고 누군가 48시간 만에 Graphify 오픈소스를 만들었다는 이야기다. 폴더를 지식 그래프로 바꾸는 도구다.
실무에서 쓰는 AI에이전트 PDF 양산하기
- 작성자: specal1849 | 플랫폼: threads | 좋아요: 83
비개발자도 Claude, GPT, Codex, Gemini, AI Studio 등으로 MD를 PDF로 바꾸는 기초 방법을 따라 할 수 있게 정리한다. 전자책과 PDF 산출을 자동화하려는 실무형 가이드다.
Hermes LLM Wiki 사용기
- 작성자: geumverse_ai | 플랫폼: threads | 좋아요: 48
Obsidian 기반 지식 저장소를 Hermes Agent에 붙여 hermes update로 쓸 수 있는 Karpathy의 LLM-Wiki를 소개한다. 연구/문서 저장소를 에이전트 워크플로에 통합하는 사례다.
에르메스 LLM Wiki 사용 흐름
- 작성자: ai_younggle_man | 플랫폼: threads | 좋아요: 10
땡기는 사이트나 글을 찾은 뒤 Lightpanda로 마크다운을 추출하고 Hermes LLM Wiki로 정리하는 워크플로를 소개한다. 정보 수집과 정리를 자동화하는 실제 사용 예다.
Karpathy가 말한 지식 그래프를 바로 만든 Graphify
- 작성자: socialwithaayan | 플랫폼: x | 좋아요: 11436
Karpathy가 LLM Knowledge Bases 워크플로를 언급한 지 48시간 만에 GitHub에 Graphify가 등장했다고 알린다. 어떤 폴더든 지식 그래프로 바꾸는 도구다.
Feynman: 초고속 AI 연구 에이전트
- 작성자: aigleeson | 플랫폼: x | 좋아요: 2717
주제를 넣으면 논문을 검색하고, 결과를 종합하고, 실제 출처로 모든 주장을 검증한 뒤 인용이 붙은 리서치 브리프를 주는 오픈소스 연구 에이전트 Feynman을 소개한다. 챗봇이 아니라 연구 도구라는 점이 핵심이다.
Memory Intelligence Agent
- 플랫폼: Hugging Face | 분량: 13255 words
Deep research agent는 도구를 잘 쓰는 것만으로는 부족하고, 경험을 축적하는 memory system이 필요합니다. 이 논문은 기존 trajectory retrieval 중심 메모리가 memory evolution과 storage/retrieval cost에서 한계가 있다고 봅니다.
제안하는 MIA는 Manager-Planner-Executor 구조입니다. Memory Manager는 압축된 과거 trajectory를 저장하고, Planner는 parametric memory agent로 검색 계획을 세우며, Executor는 그 계획을 따라 탐색과 분석을 수행합니다. 여기에 alternating RL, test-time learning, parametric/non-parametric memory 간 bidirectional conversion, reflection, unsupervised judgment를 결합합니다.
11개 benchmark에서 성능이 확인됐고, GPT-5.4는 LiveVQA에서 최대 9%, HotpotQA에서 6%까지 더 좋아졌습니다. Qwen2.5-VL-7B Executor를 쓰더라도 평균 31% 향상으로 Qwen2.5-VL-32B보다 18% 앞섰고, unsupervised setting도 supervised와 비슷한 수준에 도달했습니다. self-evolution은 여러 training iteration에 걸쳐 계속 개선됩니다.
SkillX: Automatically Constructing Skill Knowledge Bases for Agents
- 플랫폼: Hugging Face | 분량: 11492 words
에이전트가 경험을 쌓더라도 각자 따로 배워서 비슷한 행동을 중복 발견하는 문제가 있습니다. SkillX는 이런 비효율을 줄이기 위해 reusable한 skill knowledge base를 자동으로 만드는 프레임워크입니다.
설계는 세 층입니다. Planning skills, functional skills, atomic skills로 경험을 계층화하고, rollout에서 추출한 스킬을 iterative refinement로 고치며, exploratory expansion으로 seed data 밖의 새로운 스킬도 검증합니다. backbone은 GLM-4.6이고, 평가 대상은 AppWorld, BFCL-v3, τ²-Bench입니다.
플러그인 형태의 skill library를 weaker base agent에 붙였을 때 task success와 execution efficiency가 함께 좋아졌고, 전체적으로는 약 10% 수준의 성능 향상이 보고됩니다. multi-level skill design이 다른 경험 표현보다 낫고, iterative refinement와 skill expansion이 일반화에 추가 이득을 줍니다. 코드는 곧 공개될 예정이라고 명시합니다.
메타 메모
- 반복되는 연구 흐름은
open recipe + benchmark + efficiency조합입니다. Vero, CLEAR, MIA, SandMLE, SkillX 모두 공개 데이터나 공개 코드, 혹은 공개 가능한 재사용 단위를 전면에 둡니다. - 또 하나의 축은
평가 지표의 재정의입니다. accuracy만 보지 않고 geometric distortion, PRIDE, PTE, memory footprint, execution latency처럼 실제 실패 원인을 직접 재는 방향이 강합니다. - 교차 주제로는
agent memory,tool use,multi-stage RL,synthetic environments,robustness under shift가 이어집니다. 이번 묶음은 비전-언어, 로봇, 도구 사용, 장기 추론을 하나의 공통 언어로 묶고 있습니다. - 다음 배치나 SNS에서 이어 볼 힌트는
공개 RL recipe,degradation-aware multimodal,hierarchical skills,hardware-aware efficiency,tokenization tax같은 키워드입니다.
OpenWorldLib: A Unified Codebase and Definition of Advanced World Models
- 플랫폼: Hugging Face | 분량: 11367 words
이 논문은 world model을 둘러싼 개념이 너무 넓고 제각각이라, 같은 용어를 쓰더라도 서로 다른 시스템을 가리키는 혼란이 크다고 본다. 그래서 단순한 모델 제안이 아니라, advanced world models를 설명하기 위한 공통 정의와 공통 코드베이스를 함께 제시한다.
핵심 정의는 world model을 perception 중심의 프레임워크로 보고, interaction과 long-term memory를 갖춰 복잡한 세계를 이해하고 예측하는 시스템으로 정리하는 것이다. 이 정의를 바탕으로 OpenWorldLib는 다양한 작업의 모델을 하나의 표준화된 inference framework 안에 묶어 재사용과 협업 추론을 쉽게 만든다.
결과물은 성능 벤치마크보다 표준화와 연결성에 초점이 있다. 프로젝트는 GitHub 코드 저장소와 문서 링크를 함께 공개했고, 향후 world model 연구의 capability taxonomy와 구현 관행을 정리하는 기준점 역할을 한다. 이 배치는 “무엇이 world model인가”를 먼저 정리해야 이후의 성능 비교도 의미가 생긴다는 입장에 가깝다.
MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale
- 플랫폼: Hugging Face | 분량: 10153 words
문서 파싱에서 병목은 모델 구조보다 데이터 엔지니어링에 있다는 것이 이 논문의 출발점이다. 서로 다른 아키텍처와 파라미터 규모의 SOTA 모델들이 같은 hard sample에서 비슷하게 실패한다는 관찰을 근거로, 성능의 한계를 training data의 품질과 커버리지 문제로 본다.
MinerU2.5-Pro는 1.2B 파라미터의 기존 MinerU2.5 구조를 그대로 고정한 채, 데이터 엔진과 학습 전략만으로 성능을 끌어올린다. Diversity-and-Difficulty-Aware Sampling으로 데이터 규모를 1,000만 미만에서 6,550만 개로 늘리고, Cross-Model Consistency Verification으로 난이도와 annotation 신뢰도를 점검하며, Judge-and-Refine로 hard sample의 라벨 품질을 개선한다. 이후 large-scale pre-training, hard sample fine-tuning, GRPO alignment의 3단계 학습을 적용한다.
평가는 OmniDocBench v1.5의 element-matching bias를 수정한 OmniDocBench v1.6과 Hard subset을 기준으로 진행된다. 결과는 95.69점으로, 같은 아키텍처 baseline보다 2.71점 높고, 200배 이상 큰 모델들을 포함한 기존 방법을 모두 넘었다. 코드 저장소와 1.2B 모델 링크가 함께 공개되어 있어 재현 가능성도 분명하다.
FileGram: Grounding Agent Personalization in File-System Behavioral Traces
- 플랫폼: Hugging Face | 분량: 9187 words
로컬 파일 시스템 안에서 협업하는 에이전트는 빠르게 늘고 있지만, personalization은 데이터 부족 때문에 여전히 약하다. 프라이버시 제약과 실제 멀티모달 trace를 함께 모으기 어려운 현실 때문에, 기존 방식은 대체로 대화 중심에 머물고 파일 작업의 풍부한 행동 흔적을 충분히 쓰지 못한다.
FileGram은 이 빈틈을 메우기 위한 framework다. FileGramEngine은 실제에 가까운 workflow를 시뮬레이션해 세밀한 multimodal action sequence를 대규모로 만들고, FileGramBench는 profile reconstruction, trace disentanglement, persona drift detection, multimodal grounding을 진단한다. FileGramOS는 대화 요약이 아니라 atomic action과 content delta로부터 사용자 프로필을 구성해 procedural, semantic, episodic channel로 압축한다.
실험 결과 FileGramBench는 기존 memory system들에게도 꽤 어려운 벤치마크로 남았고, FileGramEngine과 FileGramOS가 실제로 효과가 있음을 보여준다. 저자들은 프레임워크를 open-sourcing했다고 명시하며, file-system 행동 trace를 기반으로 하는 personalized memory 연구의 기준선을 만들고자 한다.
FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification
- 플랫폼: Hugging Face | 분량: 4728 words
이 논문은 LLM 기반 리뷰어가 원고 본문만 읽고 평가할 때 생기는 취약점을 겨눈다. 그런 시스템은 발표 방식에 민감하고, 근거가 관련 연구나 공개 코드에 있을 때 약하다.
FactReview는 세 단계를 묶는다. 주요 claim과 결과를 추출하고, 주변 문헌과 비교해 기술적 위치를 정리한 뒤, 코드가 있으면 bounded budget 안에서 실행해 중심 실험 주장을 검증한다. 최종 출력은 짧은 review와 evidence report이며, 각 claim을 Supported, Supported by the paper, Partially supported, In conflict, Inconclusive 중 하나로 라벨링한다.
CompGCN 사례에서는 link prediction과 node classification 결과는 논문과 잘 맞았지만, MUTAG graph classification에서는 재현 결과 88.4%가 논문이 제시한 strongest baseline 92.6%를 넘지 못해 broader claim이 부분적으로만 지지됐다. 코드도 GitHub에 공개됐다.
의의는 "최종 판정"을 자동화하는 데 있지 않고, 리뷰에 필요한 근거 수집과 claim-level 검증을 자동화하는 데 있다. 그래서 사람 리뷰어를 대체하기보다 보조하는 쪽에 더 가깝다.
Paper Espresso: From Paper Overload to Research Insight
- 플랫폼: Hugging Face | 분량: 4396 words
과학 출판 속도가 빨라지면서 연구자가 전체 흐름을 따라가는 일이 점점 어려워졌다. 이 논문은 그런 정보 과부하를 줄이기 위해, 트렌딩 논문을 자동으로 찾고 요약하고 분석하는 open-source 플랫폼 Paper Espresso를 제안한다.
시스템은 Hugging Face Daily Papers와 arXiv에서 논문을 수집한 뒤, LLM으로 structured summary, topical labels, keywords를 생성한다. 이어서 daily, weekly, monthly 수준의 topic consolidation을 수행해 연구 흐름을 한눈에 보이게 만든다.
35개월의 연속 운영 동안 13,388편의 논문, 51,036명의 저자, 40,565개의 fine-grained topic, 6,673개의 coarse-grained topic을 처리했다. 평균 fine-grained topic 수는 3.03개, 평균 upvote는 23.4개였고, 2025년 중반에는 reinforcement learning for LLM reasoning이 급증했으며 가장 새로운 논문은 median upvote가 2.0배 높았다. 라이브 데모도 Hugging Face Spaces에서 공개됐다.
이 논문은 단순 요약기가 아니라, 연구 트렌드를 longitudinal하게 보는 관측소에 가깝다. 후속 배치의 뉴스레터나 SNS 신호와 연결하면, 어떤 주제가 실제로 커뮤니티 반응을 얻는지 추적하기 좋다.
메타 메모
- 이번 배치에서는 persistent agent safety, streaming video interaction, evolving information benchmark처럼 "시간에 따라 상태가 바뀌는 시스템"을 다루는 연구가 반복된다. 정적인 평가보다 live/deployed 환경, update, memory, planning, and execution까지 포함한 평가로 옮겨가고 있다.
- 또 하나의 흐름은 "근거 있는 자동화"다. 코드 실행으로 claim을 검증하거나, Lean으로 컴플라이언스를 증명하거나, 트렌딩 논문을 구조화해 장기 추세를 보는 식으로, LLM을 단순 생성기가 아니라 검증·분석 인프라로 쓰는 방향이 강하다.
Joint Knowledge Base Completion and Question Answering by Combining Large Language Models and Small Language Models
- 플랫폼: arXiv | 분량: 11023 words
이 논문은 KBC와 KBQA를 따로 최적화하지 말고, 서로 보완하도록 joint framework로 묶어야 한다는 문제의식에서 출발한다. 기존 연구는 주로 SLM만 활용했고, LLM의 reasoning 능력은 충분히 쓰지 못했다는 한계가 있었다.
저자들은 JCQL을 제안한다. KBC 쪽에서는 SLM으로 triple completion을 수행하고, KBQA 쪽에서는 LLM agent의 reasoning path에 SLM 기반 KBC 모델을 action으로 끼워 넣어 hallucination과 비용을 줄인다. 반대로 KBQA의 reasoning path를 KBC의 추가 학습 데이터로 넣어 incremental fine-tuning도 수행한다.
실험은 WebQSP(4,000 questions)와 CWQ(약 30,000 questions)에서 수행됐고, KB는 Wikidata 서브셋을 사용했다. 30%/50% KB 설정에서 JCQL은 KBC MRR 기준으로 WebQSP 0.603/0.630, CWQ 0.588/0.614를 기록해 모든 baseline을 넘어섰다.
KBQA에서도 JCQL_GPT-4o-mini가 WebQSP 0.730/0.738, CWQ 0.502/0.508의 Hits@1로 최고 성능이었다. 효율 면에서도 WebQSP 5.1–5.2초, CWQ 15.9–16.6초로 경쟁 방법보다 빠르며, 데이터와 source code는 공개됐다.
ResearchEVO: An End-to-End Framework for Automated Scientific Discovery and Documentation
- 플랫폼: arXiv | 분량: 10095 words
이 논문은 과학적 돌파가 “발견”과 “설명”의 두 단계로 이루어진다는 전제에서 출발한다. 기존 자동 연구 시스템은 발견만 자동화하거나, 설명만 자동화했지, 둘을 하나의 파이프라인으로 연결하지는 못했다는 것이 문제다.
ResearchEVO는 bi-dimensional co-evolution으로 알고리즘 로직과 구조를 동시에 진화시키고, 그 결과를 sentence-level RAG와 anti-hallucination verification을 통해 publication-ready paper로 바꾸는 end-to-end 프레임워크다. 논문은 QEC와 PINN 두 개의 실제 과학 문제에서 이를 검증한다.
QEC에서는 real Google quantum hardware data를 사용해 surface-code MWPM decoder용 topologically-aware edge weights를 발견했고, PINN에서는 trust-region loss adaptor와 residual backbone을 가진 알고리즘을 찾았다. 후속 writing phase는 각각을 이론에 연결해, zero fabricated citations의 compilable LaTeX manuscript를 생성했다.
평가 설계도 구체적이다. QEC는 32 configurations, bootstrap CI, paired sign tests를 사용했고, PINN은 3 benchmarks와 10 seeds로 검증했다. 이 논문은 “코드를 찾는 것”과 “논문을 쓰는 것” 사이의 간극을 가장 직접적으로 메우려는 시도다.
From Large Language Model Predicates to Logic Tensor Networks: Neurosymbolic Offer Validation in Regulated Procurement
- 플랫폼: arXiv | 분량: 6072 words
규제 환경의 공공기관 조달 문서는 단순히 "유효한 제안서인지" 맞히는 것만으로는 부족하고, 왜 그렇게 판단했는지까지 법적으로 설명되어야 합니다. 이 논문은 기존의 블랙박스 분류기와 순수 규칙 기반 시스템 사이의 간극을 메우기 위해, LLM이 문서에서 속성 값을 추출하고 LTN(Logic Tensor Network)이 이를 규칙과 함께 통합해 결정을 내리는 신경-심볼릭 파이프라인을 제안합니다.
구체적으로는 200개 PDF 문서로 구성된 실제 코퍼스를 사용했고, 그중 35%가 유효한 제안서였습니다. 8개 도메인 predicate를 11개 파생 채널로 확장해 다루며, 로컬 배포한 Qwen2.5-14B-Instruct를 기본 추출기, Qwen2.5-32B-Instruct를 fallback으로 사용했습니다. BM25, semantic reranking, cross-encoder를 거쳐 MCSR와 CISC 두 방식으로 predicate truth value를 산출하고, LTN에서 BCE로 게이팅 파라미터를 학습합니다.
결과는 해석 가능성과 성능의 균형을 보여줍니다. 순수 LTN은 F1 0.899±0.064로 가장 강했고, MCSR-BestConf+LTN은 0.874±0.043, MCSR-TopProb+LTN은 0.849±0.049였습니다. BERT baseline은 0.859±0.097, LLM(BM25+Semantic-CE)은 Qwen2.5-14B에서 0.843±0.059, 32B에서 0.884±0.058, IE+deterministic rules는 0.807±0.056, CISC+LTN은 0.782±0.060이었습니다. GDPR 제약 때문에 계산은 모두 내부 인프라에서 수행됐고, 핵심 의의는 수치만이 아니라 predicate value, rule truth value, 대응 텍스트 조각까지 함께 제시하는 감사 가능성입니다.
Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring
- 플랫폼: arXiv | 분량: 3568 words
이 논문은 LLM 에이전트가 논문 작성이나 코드 생성이 아니라, 딥러닝 실험의 전 과정을 24/7 자동으로 돌릴 수 있는가를 다룹니다. 제안 프레임워크는 Think → Execute → Monitor → Reflect 루프를 중심으로, 모니터링 구간에서는 LLM 호출을 아예 하지 않는 Zero-Cost Monitoring을 핵심 원리로 둡니다.
구조는 두 층의 고정 크기 메모리와 최소 도구 집합을 가진 leader-worker 아키텍처로 구성됩니다. training은 90~99%의 wall-clock time을 차지하는데, 이 구간에서는 process 체크와 log file 읽기만 수행하므로 API 비용이 들지 않습니다. 4개 GPU 서버에서 4개의 동시 프로젝트를 30일 이상 운영했으며, Claude Sonnet backbone과 prompt caching을 사용했습니다.
운영 결과는 500+ autonomous cycles, longest continuous operation 30+ days, best single-project improvement 52%, average LLM cost per 24h cycle $0.08입니다. dry-run이 18%의 실험을 사전 차단했고, post-dry-run crash rate는 3% 미만이었습니다. 또한 15개 이상 도구를 주는 일반적 에이전트 대비 35개 도구만 주어 per-call token overhead를 약 73% 줄였고, polling 기반 접근 대비 1020배 비용 절감을 달성했습니다.
추론 · 메모리 · 평가 연구
LightThinker++: From Reasoning Compression to Memory Management
- 플랫폼: Hugging Face | 분량: 18441 words
긴 사고 흔적을 그대로 유지하는 방식은 LLM 추론 비용을 빠르게 키웁니다. 이 논문은 중간 생각을 의미 단위로 압축하는 LightThinker를 출발점으로 삼고, 압축이 복잡한 추론에서 정보 손실을 일으킨다는 한계를 LightThinker++로 보완합니다.
핵심은 explicit adaptive memory management입니다. 즉, 기억을 단순한 압축이 아니라 behavioral-level memory primitive로 다루고, trajectory synthesis와 pruning, quality control로 기억을 갱신합니다. 이 구조는 장기 추론에서 “무엇을 기억하고 무엇을 버릴지”를 모델이 직접 관리하도록 만듭니다.
정량적으로는 LightThinker가 peak token usage를 70% 줄이고 inference time을 26% 줄이면서도 정확도 손실을 최소화했습니다. LightThinker++는 같은 context budget에서 peak token usage를 69.9% 줄이면서 정확도를 2.42% 올렸고, long-horizon agentic task에서는 80 rounds를 넘어도 안정적인 footprint를 유지하며 평균 14.8% 성능 향상을 보였습니다. 코드도 공개되어 있습니다.
Adam's Law: Textual Frequency Law on Large Language Models
- 플랫폼: Hugging Face | 분량: 14118 words
이 작업은 LLM에서 textual frequency를 본격적인 변수로 다룹니다. 같은 의미의 문장이라도 더 자주 등장하는 표현이 prompting과 fine-tuning 모두에서 더 유리하다는 가설을 Textual Frequency Law(TFL)로 정식화합니다.
구현은 세 갈래입니다. 온라인 코퍼스로 sentence-level frequency를 추정하고, paraphraser로 입력을 더 frequent한 표현으로 바꾸며, TFD(Textual Frequency Distillation)로 story completion 기반 보정을 수행합니다. 마지막으로 CTFT(Curriculum Textual Frequency Training)로 낮은 빈도에서 높은 빈도 순으로 fine-tuning합니다.
TFPD라는 자체 데이터셋은 GSM8K에서 738쌍, FLORES-200에서 526쌍을 만들었고, 100개 언어를 prompting에 사용했습니다. 평가에는 DeepSeek-V3 671B, GPT-4o-mini, doubao-1.5-pro-32k, qwen2.5-7b-instruct, Llama-3.3-70B-Instruct가 쓰였고, COMET은 37개 언어를 지원했습니다. 결과적으로 high-frequency partition이 모든 baseline에서 더 낫고, translation에서는 BLEU/chrF/COMET 개선이 대체로 1 point 미만의 손실 범위 안에서 확인됩니다.
Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models
- 플랫폼: Hugging Face | 분량: 11883 words
diffusion LLM은 이론상 decoding order를 자유롭게 바꿀 수 있지만, 실제로는 random-order decoding이 품질을 깎는 경우가 많습니다. low-confidence remasking은 Pass@1을 올리지만 탐색을 줄여 Pass@k를 악화시키는 양면성을 만듭니다.
논문은 이 현상을 confidence gating과 entropy cap으로 정식화하고, quality와 exploration을 함께 최적화하는 target distribution을 유도한 뒤 Independent Metropolis-Hastings sampler로 근사합니다. 이 접근은 local token confidence만 보는 전략의 한계를 넘어, completion 공간 전체의 가능성을 함께 본다는 점이 핵심입니다.
실험은 LLaDA와 WeDLM을 대상으로 MATH500, AIME24/25, HumanEval, MBPP에서 수행됐고, random remasking과 low-confidence remasking보다 더 나은 trade-off를 보였습니다. figure 수준에서는 Pass@1과 Pass@16의 Pareto frontier가 개선된다고 제시합니다.
Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
- 플랫폼: Hugging Face | 분량: 11623 words
Tool-Integrated Reasoning에서는 tool call 자체가 지연과 KV-cache eviction을 유발하고, 긴 tool response가 decode cost를 계속 키웁니다. 이 논문은 단순 token count나 tool call count로는 이런 실제 비용을 설명할 수 없다고 보고, PTE(Prefill Token Equivalents)를 제안합니다.
PTE는 prefill과 decode의 비대칭성을 hardware-aware하게 하나의 척도로 합친 지표입니다. 저자들은 high-concurrency industrial setting에서 wall-clock latency와의 정합성을 검증하고, 다양한 hardware profile에서도 ranking이 유지되는지 확인했습니다. 평가 대상은 5개 TIR benchmark입니다.
실험에서는 4개의 inefficiency pattern, 즉 Confirmatory Tool Usage, Tool-Mixing, Lack of Tool Priors, Tool Format Collapse를 식별했습니다. 또 같은 정확도라도 PTE가 orders of magnitude 차이로 벌어질 수 있음을 보여줍니다. 예를 들어 Qwen3-235B-Thinking은 AIME25에서 Qwen3-235B-Instruct 대비 정확도가 16.7% 오르지만 PTE는 1.8배가 되고, SimpleQA에서는 정확도가 3.4% 떨어지면서 PTE는 4.2배로 커집니다. 코드는 공개되어 있습니다.
Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems
- 플랫폼: Hugging Face | 분량: 11420 words
RLVR는 추론 능력을 끌어올렸지만, 현재 정책으로는 절대 풀리지 않는 문제에서는 보상이 0이 되어 더 이상 학습이 진행되지 않는다는 한계가 있다. 이 논문은 그 막다른 지점을 “더 어려운 문제를 계속 밀어붙이는 것”이 아니라 “문제 형식을 재구성해 학습 가능한 구간으로 옮기는 것”으로 본다.
제안한 Cog-DRIFT는 open-ended 문제를 4-choice, 10-choice, cloze 같은 더 단순한 형식으로 바꾸고, 이를 난이도 순서로 정렬한 적응형 커리큘럼으로 학습한다. 핵심은 MCQ가 가장 인지 부하가 낮고, cloze가 그보다 어렵고, open-ended가 가장 어렵다는 경험적 순서를 이용해 예제별로 다음 단계로 승급시키는 점이다.
실험은 BigMath-Hard, OmniMATH-Hard, AIME 2024/2025, GPQA-Diamond, Date Understanding 등 6개 벤치마크와 Qwen3-4B-Instruct-2507, Llama3.2-3B-Instruct 두 모델에서 수행됐다. 원래 풀리지 않던 hard 문제에서 Qwen은 +10.11%, Llama는 +8.64%의 절대 향상을 보였고, 평균적으로는 second-best baseline 대비 각각 +4.72%, +3.23%를 기록했다. 또한 4-choice zero-shot accuracy는 33.8%로 random baseline 25%를 넘어섰고, transfer 평가에서는 11.1%/15.5%/18.9%까지 올라갔다. pass@k에서도 k=128에서 AIME2024, AIME2025, GPQA가 각각 +3.33%, +3.33%, +2.02% 개선됐다. 학습 데이터는 958개, 실험은 4개의 A6000 GPU에서 수행됐다.
Can LLMs Learn to Reason Robustly under Noisy Supervision?
- 플랫폼: Hugging Face | 분량: 10134 words
RLVR는 perfect label이 있다는 전제에서 잘 작동하지만, 실제로는 expert scarcity 때문에 noisy label이 섞일 수밖에 없다. 이 논문은 그 노이즈를 supervised classification처럼 단순히 “틀린 라벨”로 보지 않고, rollout을 실제로 유도할 수 있느냐에 따라 inactive noisy label과 active noisy label로 나눠 분석한다.
관찰된 Early Correctness Coherence는 중요한 포인트다. noisy sample도 학습 초반에는 clean sample과 비슷하게 정확도가 오르다가, 이후에야 서로 다른 궤적으로 갈라진다. 이 현상을 이용해 제안한 Online Label Refinement는 majority-voted answer의 rollout pass rate가 상승하고 과거 일관성도 안정적일 때, 잠재적으로 noisy한 라벨을 점진적으로 교정한다.
평가는 AIME24/25, AMC, MATH-500, Minerva, Olympiad 등 6개의 in-distribution 수학 추론 벤치마크와 ARC-c, GPQA-diamond, MMLU-pro 같은 3개의 OOD 작업에서 수행됐다. noise ratio 0.1~0.9 범위에서 OLR은 in-distribution에서 평균 3.6%~3.9%, OOD에서 3.3%~4.6%의 향상을 보였다. 코드도 GitHub에 공개되어 있다.
TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
- 플랫폼: Hugging Face | 분량: 9030 words
긴 추론을 돌리면 KV cache가 금방 병목이 된다. 기존 compression 방법은 post-RoPE query의 attention score로 key 중요도를 추정하지만, RoPE 때문에 query가 위치에 따라 회전해 대표성이 떨어지고 top-key selection이 불안정해진다는 문제가 있다.
TriAttention은 이 문제를 pre-RoPE 공간에서 다시 본다. Q와 K가 고정된 non-zero center 주변에 집중되는 Q/K concentration을 관찰하고, 이 중심들이 특정 거리의 key를 더 잘 보게 만든다는 점을 trigonometric series로 모델링한다. 그 결과 key position과 Q/K norm을 함께 써서 중요도를 추정한다.
성능은 AIME25에서 32K-token generation 기준으로 제시된다. TriAttention은 Full Attention과 같은 reasoning accuracy를 유지하면서 throughput은 2.5배 높이고 KV memory는 10.7배 줄였다. 반면 같은 효율대의 기존 baseline은 정확도가 절반 수준에 머물렀고, 이 방법은 OpenClaw를 consumer GPU 한 장에서도 돌릴 수 있게 만든다. 코드도 GitHub에 공개되어 있다.
Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
- 플랫폼: Hugging Face | 분량: 8420 words
GRPO는 널리 쓰이지만, 실패한 rollout을 한꺼번에 벌주는 방식이라 토큰 수준의 정교한 교정이 약하다. SDPO는 logit-level supervision으로 더 촘촘하게 개선되지만, 오래 학습하면 self-distillation의 신뢰성이 떨어지고 late-stage collapse가 생긴다.
SRPO는 이 둘을 sample routing으로 합친다. 맞은 sample은 GRPO의 reward-aligned reinforcement로 보내고, 틀린 sample은 SDPO의 targeted correction으로 보낸다. 여기에 entropy-aware dynamic weighting을 더해, 불확실한 distillation target은 억제하고 confident target에 더 큰 비중을 둔다.
다섯 개 benchmark와 두 개 model scale에서 평가한 결과, SRPO는 SDPO의 빠른 초반 개선과 GRPO의 장기 안정성을 동시에 유지했다. Qwen3-8B에서는 five-benchmark average가 GRPO 대비 3.4%, SDPO 대비 6.3% 높았고, per-step compute cost도 최대 17.2% 줄었다. 응답 길이도 과도하게 늘지 않아 실용적인 post-training 대안으로 보인다.
POEMetric: The Last Stanza of Humanity
- 플랫폼: Hugging Face | 분량: 8198 words
이 논문은 LLM이 시를 잘 쓰는지보다, 인간 시인과 비교하면 어디가 부족한지를 묻는다. 평가 축도 단순한 form accuracy를 넘어서, 창의성, 어휘 다양성, idiosyncrasy, emotional resonance, imagery, literary devices까지 포함한다.
데이터셋은 203편의 영어 시로 이루어진 human poem corpus이며, 7개의 고정 형식과 meter, rhyme pattern, theme이 주석 처리돼 있다. 여기에 30개의 LLM이 같은 형식과 주제로 시를 생성해 총 6,090편의 LLM poem이 만들어졌고, rule-based evaluation과 Gemini-2.5-Pro judge를 인간 전문가 평가로 검증했다.
결과는 인간 우위가 분명하다. 최고 모델은 form accuracy 4.26, theme alignment 4.99를 기록했지만, 인간 시인은 creativity 4.02, idiosyncrasy 3.95, emotional resonance 4.06, imagery 4.49, literary devices 4.67에서 더 높았고, overall poem quality도 인간 4.22 대 최고 LLM 3.20으로 격차가 뚜렷했다. 코드와 데이터도 GitHub에 공개되어 있다.
메타 메모
- RLVR와 post-training에서 hard problem, noisy supervision, sample routing처럼 학습 신호의 질을 어떻게 복구할지가 반복된다.
- data-centric 개선이 구조 변경보다 더 큰 효율을 주는 사례가 늘고 있으며, 문서 파싱과 파일시스템 에이전트처럼 데이터 엔진과 벤치마크 설계가 성능의 중심이 된다.
- multimodal과 retrieval에서는 explicit reasoning의 비용을 줄이기 위해 latent reasoning, mechanistic interpretability, modality bias 분석이 함께 움직인다.
- 세로로 보면 추론, 멀티모달, 로보틱스, 창작평가가 따로 보이지만, 가로로는 “표현을 바꾸거나 신호를 재배치해 학습 가능성을 높인다”는 공통 주제가 강하다.
Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies
- 플랫폼: Hugging Face | 분량: 7461 words
Test-Time Learning은 에피소드가 반복되는 동안 에이전트가 점점 나아지게 하지만, 기존 방법은 적응 정책을 손으로 설계하는 데 의존한다. 이 논문은 그런 휴리스틱이 아니라, 환경에서 실제로 잘 작동하는 적응 정책을 학습해야 한다고 본다.
제안한 Meta-TTL은 적응 정책 탐색을 bi-level optimization으로 바꾼다. inner loop에서는 표준 TTL을 수행해 후보 정책이 연속 에피소드에서 오류를 얼마나 잘 고치는지 측정하고, outer loop에서는 다양한 훈련 작업 위에서 evolutionary search로 정책 자체를 최적화한다.
Jericho와 WebArena-Lite에서 in-distribution과 out-of-distribution 모두 평가했으며, 여러 meta-agent backbone에서 수동 baselines보다 일관되게 좋았다. 예를 들어 Jericho ID에서는 GPT-5의 W-AUC가 0.18에서 0.41로 상승했다. 코드도 GitHub에 공개됐다.
의미는 간단하다. "테스트 때 학습"의 성능을 사람의 직관 대신 최적화 문제로 다룰 수 있음을 보였고, 그 정책이 학습 분포를 넘어 어느 정도 전이된다는 점도 확인했다.
Self-Execution Simulation Improves Coding Models
- 플랫폼: Hugging Face | 분량: 7444 words
이 논문은 코드 LLM이 자기 자신이 만든 프로그램의 실행 결과를 제대로 예측하지 못하는 문제를 정면으로 겨눈다. 저자들은 실행을 "맞히는 능력"을 학습하면 경쟁 프로그래밍 성능 자체가 올라갈 수 있다고 보고, self-execution simulation을 핵심 축으로 삼았다.
방법은 두 갈래다. supervised fine-tuning은 natural language execution trace를 사용해 단계별 실행 설명을 학습하고, reinforcement learning with verifiable rewards는 (code, input) 쌍에 대해 stdout을 예측하게 만든다. 이 과정에서 output prediction과 self-predicted execution feedback을 결합해 self-verification과 iterative self-fixing을 가능하게 한다.
데이터 스케일도 크다. 일반 Python 함수는 약 3,000만 개, CodeContests에서 모은 경쟁 프로그래밍 문제는 3.5만 개이며, 이를 바탕으로 약 8,000만 개의 execution description과 11.5만 개의 CP 설명을 만든다. Llama3-70B-Instruct와 Qwen3-32B-FP8을 활용했고, 여러 competitive programming benchmark에서 기존 reasoning 방식보다 일관된 개선을 보였다.
이 연구의 의의는 코딩 모델을 "코드를 생성하는 모델"에서 "코드가 실제로 어떻게 실행되는지 시뮬레이션할 수 있는 모델"로 확장했다는 점이다. 초록에는 별도 공개 링크가 명시되지 않지만, 실험 설계 자체가 후속 재현 연구에 바로 쓰기 좋은 형태다.
Can Large Language Models Reinvent Foundational Algorithms?
- 플랫폼: arXiv | 분량: 17059 words
이 논문은 LLM이 기존의 알고리즘을 단순히 재현하는 수준을 넘어, 파운데이셔널 알고리즘 자체를 다시 발명할 수 있는지를 묻는다. 저자들은 Dijkstra, Euclid 같은 알고리즘이 훈련 데이터에 포함된 상태에서, “정말로 알고리즘을 모르는 상태”를 만드는 것이 어려운 문제라고 본다.
기존 방식처럼 처음부터 새 모델을 학습하는 것은 비용이 너무 크기 때문에, 저자들은 Unlearn-and-Reinvent 파이프라인을 제안한다. 먼저 GRPO 기반 온-폴리시 unlearning으로 특정 알고리즘 지식을 지우고, 이후 Python 인터프리터와 생성형 verifier를 붙인 재발명 환경에서 모델이 다시 알고리즘을 구성하는지 본다.
실험은 10개 목표 알고리즘, 3개 강한 open-weight 모델, 3개 힌트 수준으로 진행됐다. 가장 강한 모델인 Qwen3-4B-Thinking-2507은 힌트가 없을 때 50%, level 1에서 70%, level 2에서 90%의 재발명 성공률을 보였고, Strassen 알고리즘은 test-time RL을 붙였을 때 hint level 2에서 성공했다.
의미는 분명하다. LLM은 일부 알고리즘을 “재구성”할 수 있지만, KMP·Manacher·Strassen처럼 구조가 복잡한 경우에는 여전히 취약하다. 코드 공개는 GitHub Algo-Reinvention/algo-reinvention으로 제공된다.
LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals
- 플랫폼: arXiv | 분량: 7970 words
이 논문은 chain-of-thought를 단순한 토큰 생성이 아니라 representation space 위의 trajectory로 본다. 문제의식은 reasoning이 어떤 구조로 전개되는지, 그리고 정답 여부가 그 과정에서 언제 드러나는지를 해석할 수 있느냐에 있다.
기존 접근은 최종 답만 보거나 coarse한 프롬프트 수준 분석에 머무는 경우가 많았다. 저자들은 step-specific subspace가 layer depth에 따라 더 잘 분리된다는 점을 보였고, 이런 구조는 이미 base model에 존재하며 reasoning training은 그것을 새로 만들기보다 termination-related subspace로의 수렴을 빠르게 만든다고 설명한다.
정량 결과도 분명하다. early step에서는 정답과 오답 경로가 비슷하지만 late stage에서 체계적으로 갈라지고, 이 차이를 이용하면 mid-reasoning 단계에서 최종 정답 여부를 ROC-AUC up to 0.87로 예측할 수 있다. 더 나아가 trajectory-based steering으로 reasoning correction과 length control까지 가능하게 만들었다.
이 논문의 의의는 reasoning을 해석 가능한 geometry로 다룰 수 있다는 점이다. 코드 공개는 본문에서 명시되지 않았지만, 공개 벤치마크와 inference-time control을 결합한 해석 연구로 볼 수 있다.
JTON: A Token-Efficient JSON Superset with Zen Grid Tabular Encoding for Large Language Models
- 플랫폼: arXiv | 분량: 4985 words
LLM이 구조화된 데이터를 다룰 때 가장 큰 비용 중 하나는 직렬화 포맷의 중복입니다. 이 논문은 JSON의 타입 시스템을 유지하면서도 표 형태 데이터를 더 압축적으로 표현하는 JSON superset인 JTON을 제안하고, 핵심 인코딩 방식으로 Zen Grid를 사용합니다.
JTON은 테이블의 컬럼 헤더를 한 번만 두고 값들을 세미콜론 기반으로 압축해 반복되는 키 이름 낭비를 줄입니다. 실험은 7개 실제 도메인에서 수행됐고, Zen Grid는 JSON compact 대비 15~60%의 토큰 절감을 보였으며 평균 절감률은 28.5%였습니다. bare_strings 옵션을 쓰면 32%까지 올라갑니다. 이해도 테스트에서는 10개 LLM에서 JSON 대비 순증 +0.3pp가 나왔고, 생성 테스트에서는 12개 LLM이 few-shot과 zero-shot 모두에서 100% 구문적 유효성을 보였습니다.
구현 측면도 명확합니다. Rust/PyO3 레퍼런스 구현은 SIMD 가속 파싱으로 Python json 모듈 대비 1.4배 속도를 달성했습니다. 코드, 683-vector 테스트 스위트, 실험 데이터가 모두 공개되어 있어, 이 논문은 단순 포맷 제안이 아니라 실제 LLM-native structured data pipeline을 겨냥한 설계로 읽힙니다.
Turbulence-like 5/3 spectral scaling in contextual representations of language as a complex system
- 플랫폼: arXiv | 분량: 3476 words
이 논문은 언어를 복잡계로 보고, transformer 기반 contextual embedding에서 연속적인 token trajectory가 어떤 스케일 법칙을 따르는지 분석합니다. 텍스트를 고차원 임베딩 공간의 경로로 바꾸고 token sequence를 따라 embedding-step signal의 주파수 스펙트럼을 보면, 넓은 구간에서 5/3에 가까운 power law가 나타납니다.
흥미로운 점은 이 스케일링이 인간이 쓴 텍스트뿐 아니라 AI가 생성한 텍스트에서도 안정적으로 보인다는 것입니다. 반면 static word embedding에서는 사라지고 token order를 랜덤화해도 무너집니다. 즉, 이 현상은 단순한 어휘 통계가 아니라 문맥 의존적, 다중 스케일의 의미 통합을 반영한다고 해석할 수 있습니다.
저자들은 이를 Kolmogorov turbulence 스펙트럼에 비유하며, 언어 표현이 scale-free하고 self-similar한 구조를 가진다는 가설을 제시합니다. 실용적으로는 모델과 언어를 가리지 않는 복잡성 벤치마크로 쓸 수 있다는 점이 핵심입니다.
멀티모달 · 비전 · 생성 연구
Vero: An Open RL Recipe for General Visual Reasoning
- 플랫폼: Hugging Face | 분량: 18072 words
이 논문은 차트, 과학, 공간 추론, open-ended task를 모두 포괄하는 범용 visual reasoner를 어떻게 만들지 묻습니다. 기존 상위 성능 VLM의 레시피가 폐쇄형 RL 파이프라인과 비공개 데이터에 묶여 있다는 점을 문제로 보고, 완전히 공개된 RL recipe를 제시합니다.
제안 방식은 59개 데이터셋에서 모은 600K 샘플의 Vero-600K와 6개 task category, 그리고 task-routed reward입니다. VeroEval은 30개 benchmark로 구성되며, data filtering, mixture strategy, reward design을 체계적으로 분해해 공개합니다.
성과는 꽤 분명합니다. Vero는 4개 base model에서 평균 3.6~5.3점 향상을 보였고, Qwen3-VL-8B-Instruct 기준으로 30개 benchmark 중 23개에서 Qwen3-VL-8B-Thinking을 앞섰습니다. Vero-Qwen3T-8B는 24/30 benchmark에서 더 좋았고, CharXiv Reason에서 +6.9, CountQA에서 +5.8을 기록했습니다. 핵심 메시지는 broad task coverage와 uniform mixture weighting이 RL 성능을 좌우한다는 점이며, data/code/models가 모두 공개됩니다.
LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
- 플랫폼: Hugging Face | 분량: 13708 words
VLA 모델은 로봇 조작에서 강하지만, 제한된 데이터로 fine-tuning할 때 특정 지시문 표현에 과적합하는 문제가 있습니다. 이 논문은 paraphrase robustness를 분리해서 측정할 수 있는 LIBERO-Para를 제안합니다.
벤치마크는 action expression과 object reference를 독립적으로 흔드는 2축 설계이고, 43개의 linguistically grounded type으로 세분화됩니다. 기존 LIBERO 계열과 달리 paraphrase를 task-level semantic change와 섞지 않고, PRIDE라는 지표로 lexical shift와 syntactic variation을 함께 반영합니다.
7개 VLA 구성(0.6B7.5B)에서 paraphrasing은 2252pp 성능 하락을 만들었고, 그중 object-level lexical variation이 가장 큰 원인이었습니다. 실패의 8096%는 execution error가 아니라 planning-level trajectory divergence였으며, object-preserved 조건과 object-paraphrased 조건 사이의 격차는 19.851.0pp에 달했습니다. 코드와 weights도 공개되어 있습니다.
CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
- 플랫폼: Hugging Face | 분량: 13259 words
이 논문은 blur, noise, compression, low illumination 같은 degradation이 unified multimodal model의 이해 성능을 크게 떨어뜨리지만, 모델이 가진 generative pathway를 제대로 활용하지 못하고 있다는 점을 문제로 봅니다. 즉, generation과 understanding이 한 모델 안에 있어도 실제로는 분리되어 작동합니다.
CLEAR는 세 단계입니다. degradation-aware dataset으로 generate-then-answer 패턴을 먼저 학습하고, Latent Representation Bridge로 decode-reencode 우회를 없애며, Interleaved GRPO로 answer-correctness reward 아래에서 text reasoning과 visual generation을 공동 최적화합니다. MMD-Bench는 16개 corruption type과 3단계 severity를 6개 benchmark에 적용하고, 별도로 R-Bench-Dis도 봅니다.
정량적으로는 Bagel이 hard degradation에서 7.29점, 즉 10.9% 상대 하락을 보인 반면 CLEAR-RL은 drop을 5.56점(7.8%)으로 줄여 robustness gap을 24% 낮췄습니다. improvement는 clean에서 +4.11이던 것이 hard에서 +5.39로 더 커졌고, generation trigger rate는 low/mid/high degradation에서 5.2%/12.2%/36.4%로 증가했습니다. MMVP와 RealWorldQA는 각각 46.6%, 41.7%까지 generation을 호출했습니다. 코드와 데이터는 공개되어 있습니다.
Do Audio-Visual Large Language Models Really See and Hear?
- 플랫폼: Hugging Face | 분량: 9690 words
Audio-Visual LLM이 진짜로 오디오와 비주얼을 함께 이해하는지, 아니면 겉으로만 멀티모달인지가 이 논문의 질문이다. 저자들은 첫 mechanistic interpretability study로서, 층별로 audio와 visual 특징이 어떻게 변하고 섞이는지 분석한다.
핵심 관찰은 intermediate layer에서는 audio semantics가 꽤 풍부하게 존재하지만, 최종 text generation 단계에서는 그 신호가 잘 드러나지 않는다는 점이다. 특히 audio와 vision이 충돌할 때, deeper fusion layer가 visual representation을 지나치게 우선해 audio cue를 눌러버린다.
이 불균형은 단순한 추론 실수가 아니라 training 배치의 결과로 보인다. AVLLM의 audio behavior가 결국 base vision-language model의 습관과 매우 유사하게 나타나며, audio supervision에 대한 추가 정렬이 충분하지 않았다는 해석이 제시된다. 즉, 이 논문은 “멀티모달이라 불리지만 실제로는 시각 편향이 강하다”는 구조적 문제를 드러낸다.
AvatarPointillist: AutoRegressive 4D Gaussian Avatarization
- 플랫폼: Hugging Face | 분량: 8311 words
이 논문은 한 장의 portrait에서 동적으로 움직이는 4D Gaussian avatar를 만드는 문제를 다룬다. 핵심은 point cloud를 한 번에 생성하지 않고, decoder-only Transformer가 autoregressive 방식으로 Gaussian Splatting용 점군을 순차 생성한다는 점이다.
이 방식은 subject의 복잡도에 따라 point density와 총 point 수를 스스로 조절할 수 있게 해준다. 생성 단계에서는 각 point의 binding information도 함께 예측하고, 이후 전용 Gaussian decoder가 이를 render 가능한 Gaussian attribute로 바꾼다. latent feature를 디코더에 condition하는 설계는 단계 간 상호작용을 높여 fidelity를 끌어올린다.
실험은 high-quality, photorealistic, controllable avatar를 생성할 수 있음을 보인다. figure 설명상 생성 순서는 bottom-to-top, left-to-right로 진행되며, hair나 dense beard처럼 구조가 복잡한 부분도 적응적으로 표현한다. 저자들은 코드 공개를 예고하고 있어, 후속 연구에서 재사용 가능성이 높다.
AURA: Always-On Understanding and Real-Time Assistance via Video Streams
- 플랫폼: Hugging Face | 분량: 7709 words
기존 VideoLLM은 비디오 이해 성능은 좋지만, 대부분 오프라인 전제에 맞춰져 있어 실시간 스트림처럼 계속 관찰하고 즉시 반응해야 하는 환경에는 약하다. 최근 streaming VideoLLM도 등장했지만, trigger-response 파이프라인에 의존하거나 캡션형 narration에 머물러 open-ended QA와 장기 상호작용을 충분히 처리하지 못했다.
AURA는 이런 한계를 넘기 위해 설계된 end-to-end streaming visual interaction framework다. context management, data construction, training objectives, deployment optimization을 한 묶음으로 다루며, 하나의 unified VideoLLM이 스트림을 계속 처리하면서 실시간 질문응답과 proactive response를 모두 수행하도록 만든다.
실험에서는 streaming benchmark들에서 SOTA를 달성했고, 실제 demo 시스템은 ASR/TTS를 포함해 2 FPS로 동작한다. 배포는 80G accelerator 2개 기준이며, 모델과 real-time inference framework를 함께 공개해 후속 연구가 바로 이어질 수 있게 했다.
핵심 의의는 비디오 이해를 "한 번 보고 답하는" 방식에서 "계속 보고 대응하는" 방식으로 바꿨다는 점이다. 장기 스트리밍 상호작용이 필요한 감시, 보조, 원격 협업 시나리오에서 바로 활용 가능한 방향을 제시한다.
ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration
- 플랫폼: Hugging Face | 분량: 6540 words
인간 중심 비디오 합성은 주체와 장면을 각각 세밀하게 제어해야 하는데, 기존 방식은 precise control과 generative flexibility를 동시에 얻기 어렵고 3D 전처리도 무겁다. 그래서 실제 적용성을 해치지 않으면서도, 사람 동작과 환경 맥락을 따로 다루는 구성이 필요했다.
ONE-SHOT은 생성 과정을 disentangled signal로 분해한다. canonical-space injection으로 인간 동작을 환경 단서와 분리해 cross-attention에 넣고, Dynamic-Grounded-RoPE로 heuristic 3D alignment 없이 공간 대응을 잡는다. 여기에 Hybrid Context Integration을 더해 minute-level long-horizon synthesis에서도 주체와 장면의 일관성을 유지한다.
기반 모델은 pretrained VFM인 Wan2.1이며, point cloud, depth map, identity appearance, context memory, motion sequence를 함께 받아 동작한다. 실험에서는 기존 SOTA보다 더 나은 구조 제어와 창의적 다양성을 보였고, 프로젝트 페이지도 공개됐다.
정리하면, 이 논문은 인간-환경 비디오 합성을 3D 파이프라인 의존에서 조금 더 가벼운 표현 분해 방식으로 옮긴다. 실제 편집과 생성이 섞인 워크플로에 잘 맞는다.
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
- 플랫폼: Hugging Face | 분량: 5336 words
이미지 spatial editing은 객체 배치와 카메라 시점을 정밀하게 바꾸는 작업이지만, 기존 모델은 언어적 지시만으로 그런 기하학적 조작을 안정적으로 하지 못한다. 결과가 그럴듯해 보여도 실제로는 viewpoint나 framing이 어긋나는 경우가 많아 별도 평가 체계가 필요했다.
SpatialEdit는 이를 위해 두 축을 분리한다. SpatialEdit-Bench는 viewpoint reconstruction과 framing analysis를 통해 perceptual plausibility와 geometric fidelity를 함께 측정하고, SpatialEdit-500k는 Blender 기반 합성 파이프라인으로 다양한 배경과 카메라 궤적을 갖는 synthetic dataset을 만든다. 객체 중심과 카메라 중심 조작 모두에 대해 정확한 ground truth 변환을 제공하는 점이 핵심이다.
여기에 기반한 SpatialEdit-16B baseline은 general editing에서는 경쟁력 있고 spatial manipulation에서는 기존 방법을 크게 앞선다. 데이터셋 규모는 50만 장이며, 모든 리소스가 GitHub에 공개될 예정이라고 밝힌다.
이 논문이 중요한 이유는 이미지 편집을 단순한 스타일 변환이 아니라 geometry-aware control 문제로 재정의했기 때문이다. 그래서 후속 연구가 "보기 좋은 결과"와 "정확한 변환"을 따로 평가할 수 있다.
DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning
- 플랫폼: Hugging Face | 분량: 5256 words
world-action model은 vision-language-action과 world model을 잇는 중간층이지만, 기존 접근은 2D appearance나 latent representation에 치우쳐 기하학적 grounding이 약했다. 자율주행처럼 물리 공간이 중요한 영역에서는 이 약점이 곧 계획 품질 저하로 이어진다.
DriveDreamer-Policy는 language instruction, multi-view image, action을 처리하는 LLM과 depth, future video, action을 각각 생성하는 세 개의 lightweight generator로 구성된다. geometry-aware world representation을 학습해 미래 예측과 motion planning을 함께 안내하는 unified driving model이라는 점이 핵심이다.
Navsim v1과 v2에서 89.2 PDMS, 88.7 EPDMS를 기록해 기존 world-model 기반 방법보다 우수했고, future video와 depth prediction 품질도 더 높았다. depth를 명시적으로 학습하면 planning robustness가 좋아진다는 ablation 결과도 제시한다.
결국 이 연구는 주행 모델을 "무엇이 보이는가"뿐 아니라 "공간적으로 어떻게 이어지는가"까지 포함하는 표현으로 끌어올린다. 모듈형 구조라 latency를 제어하기도 쉽다.
Automatic dental superimposition of 3D intraorals and 2D photographs for human identification
- 플랫폼: arXiv | 분량: 8923 words
이 논문은 치아 morphology 비교를 자동화해 인간 식별을 돕는 문제를 다룬다. 안면 사진이나 소셜 미디어 사진만 남아 있는 경우, ante-mortem 기록 부족 때문에 기존 dental comparison이 현장 적용에서 막힌다는 점이 문제다.
해결책으로 3D intraoral scan과 2D 사진을 3D-2D registration 문제로 보고, landmark 기반과 region 기반의 두 접근을 제안한다. Landmark 쪽은 PnP+f를 Posest로 풀고, region 쪽은 치아 segmentation과 MVMO-SH를 이용해 masked DICE를 최소화한다.
실험은 142쌍의 3D IOS-사진 페어에서 총 20,164개 cross comparison으로 수행됐다. 전체 평균 ranking은 landmark set 1에서 1.6, region 기반에서 1.5였고, C_llr은 landmark set 1이 Dataset A에서 0.122, 전체에서는 region 기반이 0.2316으로 더 좋았다.
의미는 자동화와 정량화다. worst case에서는 region 기반이 ranking 26까지 밀릴 수 있지만, 95% 이상의 case를 rank 1에 두는 장점이 있었고, landmark 기반은 난도가 높은 case에서 더 안정적이었다. code 공개는 본문에서 별도 링크로 명시되지 않았다.
Analogical Reasoning as a Doctor: A Foundation Model for Gastrointestinal Endoscopy Diagnosis
- 플랫폼: arXiv | 분량: 8206 words
이 논문은 위장관 질환의 조기 진단에서 내시경 영상 판독이 놓치기 쉬운 병변과 낮은 효율 문제를 다룬다. 기존 AI 진단 모델은 의료 데이터 부족, 도메인 시프트, 이질적인 주석 구조 때문에 일반화와 확장성에서 약했다.
저자들은 RATNet이라는 foundation model을 제안하고, 이를 analogical reasoning 기반의 relevance-knowledge acquisition and transfer network로 설계했다. 다섯 개 GI 내시경 데이터셋의 이질적 expert annotation을 cyclic pre-training으로 흡수하며, encoder, RAT module, projector, multi-task head로 fine-tuning, linear probing, zero-shot transfer를 모두 지원한다.
실험에서는 GastroNet, GastroVision 같은 기존 foundation model보다 우수한 성능을 보였고, 여섯 개 임상 시나리오에서 공통 질환 진단, rare disease few-shot 학습, 새 병원 zero-shot transfer, long-tailed 분포 대응, novel disease 적응, federated learning 기반 privacy 보존까지 다뤘다. 저자들은 이를 통해 수동 라벨 통합 없이도 이질 주석을 자동 흡수할 수 있어 데이터 획득 비용을 줄이는 open and cost-effective 모델이라고 정리한다.
코드 공개는 abstract에서 직접 밝히지 않았지만, 모델 자체는 공개적인 재사용과 저비용 배치를 지향한다. 이 논문의 핵심 벤치마크 축은 5개 데이터셋과 6개 임상 시나리오다.
AI-Driven Modular Services for Accessible Multilingual Education in Immersive Extended Reality Settings: Integrating Speech Processing, Translation, and Sign Language Rendering
- 플랫폼: arXiv | 분량: 7941 words
이 논문은 XR 기반 언어교육이 청각장애 학습자를 충분히 포용하지 못하는 문제를 다룬다. 기존 플랫폼은 대개 단일 언어, 음성 중심 구조에 머물러 있어 sign language와 다중 양식 커뮤니케이션을 함께 제공하지 못했다.
제안 시스템은 Whisper, Meta NLLB, AWS Polly, RoBERTa, flan-t5-base-samsum, Google MediaPipe를 묶은 6개 AI 서비스 모듈로 구성된다. 750개의 IS gesture recording으로부터 hand landmark를 추출해 Unity 기반 VR 환경의 3D avatar 애니메이션으로 매핑했고, Meta Quest 3에서 동작하도록 설계했다.
실험에서는 기술 벤치마킹과 부하 테스트를 함께 수행했다. AWS Polly는 50–100 ms time-to-first-byte로 가장 낮은 지연을 보였고, EuroLLM 1.7B Instruct는 BLEU 84.34로 NLLB 79.25를 앞섰다. 1,000명 동시 사용자 시뮬레이션에서 평균 응답시간은 800 ms 이하였고, IS gesture rendering latency는 300 ms 미만을 유지했다.
의미는 XR 안에서 실시간 접근성 기능을 모듈식으로 조합할 수 있음을 보였다는 점이다. 코드 공개 링크는 별도로 강조되지 않았지만, 기술 요소와 평가 수치가 모두 구체적이다.
CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration
- 플랫폼: arXiv | 분량: 7447 words
이 논문은 서로 다른 modality 사이의 image registration을 안정적으로 수행하는 문제를 다룬다. 기존 방법은 큰 affine/scale 변형과 modality 차이 앞에서 global correspondence와 local refinement를 함께 처리하는 데 한계가 있었다.
제안하는 CRFT는 feature flow learning 기반의 coarse-to-fine transformer이다. coarse stage에서 multi-scale feature correlation으로 전역 대응을 잡고, fine stage에서 hierarchical feature fusion과 adaptive spatial reasoning으로 세부를 다듬는다. 여기에 discrepancy-guided attention과 Spatial Geometric Transform (SGT) recurrent refinement를 더해 modality-independent feature flow를 반복 보정한다.
실험에서는 다양한 cross-modal dataset에서 accuracy와 robustness 모두에서 SOTA를 넘어섰다. 저자들은 이 프레임워크가 remote sensing, autonomous navigation, medical imaging 같은 영역에도 일반화 가능하다고 본다. 코드와 데이터는 https://github.com/NEU-Liuxuecong/CRFT에서 공개됐다.
의의는 registration을 단순 정합이 아니라 feature flow와 geometric consistency의 반복적 결합으로 본다는 데 있다. 공개 링크가 명확한 편이라 재현성도 높다.
Attention Editing: A Versatile Framework for Cross-Architecture Attention Conversion
- 플랫폼: arXiv | 분량: 7272 words
이 논문은 long-context, long-generation 환경에서 KV cache 메모리와 bandwidth가 LLM 추론 비용을 지배하는 문제를 다룬다. MLA나 hybrid SWA 같은 구조가 대안이지만, 기존 변환법은 source와 target attention 모듈 사이의 세부 구조 요구가 너무 빡빡해 실제 배포에 맞지 않았다.
해결책은 Attention Editing이다. 기존 attention을 learnable target module로 바꾸고, progressive distillation으로 학습한다. layer-wise teacher-forced optimization과 intermediate activation supervision으로 cold-start error accumulation을 막고, 이어서 next-token distribution 기반 model-level distillation을 수행하며, 필요하면 weak feature matching도 넣는다.
적용 대상은 MLA와 GateSWA이고, 모델은 Qwen3-8B와 Qwen3-30B-A3B다. 결과적으로 경쟁력 있는 성능을 유지하면서도 효율을 크게 올렸고, Ascend 910B 클러스터에서의 대규모 변환 사례를 제시했다.
이 논문의 의의는 새 attention 구조를 처음부터 pretraining하지 않고도 기존 모델에 이식할 수 있다는 점이다. 코드 공개는 본문에서 강조되지 않았지만, 실제 배포 관점에서 매우 실용적인 변환 프레임워크다.
Experience Transfer for Multimodal LLM Agents in Minecraft Game
- 플랫폼: arXiv | 분량: 7132 words
이 논문은 멀티모달 LLM agent가 복잡한 게임 환경에서 과거 경험을 어떻게 재사용해야 하는지 다룬다. 기존 memory는 단순 저장소로 취급되기 쉬웠고, 새로운 태스크에 어떤 경험이 실제로 전이 가능한지 분해해 다루는 관점이 부족했다.
저자들은 Echo라는 transfer-oriented memory framework를 제안한다. reusable knowledge를 structure, attribute, process, function, interaction의 다섯 차원으로 쪼개고, In-Context Analogy Learning (ICAL)로 관련 경험을 찾아 새로운 상황에 맞게 변형한다.
Minecraft 실험에서 from-scratch learning 조건 기준으로 object-unlocking task의 속도가 1.3×–1.7× 빨라졌다. 또한 transferable experience를 얻은 뒤 유사한 아이템을 연쇄적으로 여는 burst-like chain-unlocking 현상도 관찰됐다.
의의는 agent memory를 정적 기록이 아니라 재사용 가능한 구조 지식으로 바꿔야 한다는 점을 보여준 것이다. 코드 공개 링크는 본문에서 별도로 제시되지 않았다.
"OK Aura, Be Fair With Me": Demographics-Agnostic Training for Bias Mitigation in Wake-up Word Detection
- 플랫폼: arXiv | 분량: 7042 words
이 논문은 wake-up word detection에서 성별, 연령, 억양에 따른 성능 격차를 줄이는 문제를 다룬다. 기존 모델은 demographic bias가 남아 있었고, 공정성을 높이려면 라벨에 의존하지 않는 훈련법이 필요했다.
저자들은 OK Aura 데이터셋을 사용해 demographic label을 학습에서 제외한 demographics-agnostic training을 실험했다. 데이터 증강과 사전학습 speech model distillation을 비교했고, 실제 모델은 200 hidden units의 GRU 기반 device-sgru로 구성해 145.6k 파라미터와 ~25 ms의 on-device inference를 목표로 했다. 입력은 13 MFCC, 100 ms window, 50 ms hop이다.
결과는 명확하다. 한 기법은 baseline 대비 Predictive Disparity를 성별 39.94%, 연령 83.65%, 억양 40.48% 줄였다. 즉, label-agnostic한 학습이 항상 켜져 있는 wake word detector에서 공정성 개선에 실질적 효과가 있다는 뜻이다.
의의는 자가-항상 켜짐 모델에서 공정성과 실시간성을 같이 잡을 수 있음을 보인 점이다. 코드 공개는 본문에서 별도 확인되지 않았다.
INTERACT: An AI-Driven Extended Reality Framework for Accesible Communication Featuring Real-Time Sign Language Interpretation and Emotion Recognition
- 플랫폼: arXiv | 분량: 6482 words
이 논문은 화상회의가 청각장애·난청·다국어 사용자에게 충분히 접근 가능하지 않다는 문제를 다룬다. 기존 접근성 솔루션은 비용, 가용성, 운영 난이도 때문에 실사용 장벽이 컸다.
INTERACT는 CORTEX2 프레임워크 위에 구축된 XR 플랫폼으로, 실시간 speech-to-text, ISL 3D avatar rendering, multilingual support, emotion recognition을 하나로 묶는다. 구현에는 Whisper, NLLB, RoBERTa, Google MediaPipe가 사용됐고, Meta Quest 3에서 동작한다.
파일럿 평가는 기술 전문가와 deaf community를 나눠 두 단계로 진행됐고, 92% user satisfaction, 85% 초과 transcription accuracy, 90% emotion detection precision을 기록했다. 평균 전체 경험 점수는 4.6/5.0이었고, 90%가 추가 테스트에 참여하겠다고 응답했다. 시스템은 1,000명 동시 사용자까지 지연 증가가 거의 없었고, 10,000 concurrent requests를 900–1,000 rps로 처리하면서 실패가 없었다.
의의는 실시간 ISL 렌더링과 다국어 음성 변환, emotion-aware feedback을 하나의 XR 화상회의 제품형 시스템으로 묶었다는 점이다. 데이터와 소프트웨어 가용성 섹션에서는 Whisper, NLLB, MediaPipe의 공개 저장소도 함께 명시했다.
메타 메모
- 반복되는 연구 흐름은
효율과배치 가능성이다. KV cache, few-step reasoning, sparse supervision, tool-augmented RL, critic-in-the-loop처럼 서로 다른 문제에서도 더 적은 비용으로 비슷하거나 더 나은 결과를 내는 방향이 강하다. - 또 다른 축은
평가의 재정의다. LLM-as-a-Judge 편향, uncertainty calibration, fairness, process-level reasoning, accessibility usability처럼 정답률만으로는 부족한 지표를 함께 보려는 경향이 뚜렷하다. - 다른 배치/뉴스/SNS와 이어질 힌트는
접근성 XR,소형 모델이 대형 모델을 추월하는 사례,모르는 것을 말하게 하는 LLM,산업용 에이전트,frontend 자동화 피드백이다. 이들은 각각 제품화, 규제, 인프라, HCI, agentic workflow 쪽으로 자연스럽게 확장된다.
EEG-MFTNet: An Enhanced EEGNet Architecture with Multi-Scale Temporal Convolutions and Transformer Fusion for Cross-Session Motor Imagery Decoding
- 플랫폼: arXiv | 분량: 4689 words
BCI에서 motor imagery decoding은 잡음과 session 간 변동성 때문에 여전히 어렵습니다. 이 논문은 EEGNet을 기반으로 multi-scale temporal convolution과 Transformer encoder stream을 결합한 EEG-MFTNet을 제안해, 짧은 구간과 긴 구간의 시간 의존성을 함께 잡도록 설계합니다.
평가는 SHU dataset의 subject-dependent cross-session setting에서 진행됐고, baseline EEGNet 및 그 변형들보다 더 좋은 성능을 보였습니다. 핵심 보고 수치는 평균 분류 정확도 58.9%로, 저자는 낮은 계산 복잡도와 추론 지연을 유지하면서도 cross-session 일반화가 개선됐다고 설명합니다.
이 연구의 의의는 성능 수치 자체보다도, EEG 신호에서 시간 스케일을 확장하고 Transformer를 결합하는 방식이 실시간 BCI에 맞는 구조적 개선이라는 점에 있습니다. assistive technology와 neurorehabilitation을 염두에 둔 설계로 보이며, session drift가 큰 EEG 문제에서 아키텍처 중심 개선의 효과를 보여 줍니다.
Semantic-Topological Graph Reasoning for Language-Guided Pulmonary Screening
- 플랫폼: arXiv | 분량: 4367 words
이 논문은 자유 텍스트 임상 지시문을 바탕으로 폐 병변을 분할하는 작업에서, 의미적 모호성과 낮은 대비 영상의 구조적 혼선을 해결하려고 합니다. 기존 multimodal/foundation model은 임상 서술의 애매함과 해부학적 overlap을 잘 못 푸는 반면, full fine-tuning은 데이터가 적은 의료 환경에서 쉽게 과적합됩니다.
제안한 STGR 프레임워크는 LLaMA-3-V로 진단 의도를 추출하는 TVID, MedSAM과 GroundingDINO로 후보 마스크를 만드는 시각 단계, 그리고 후보들 사이의 공간·의미 관계를 그래프로 reasoning하는 구조로 구성됩니다. SAFT를 통해 heavy backbone은 고정하고 Adapter와 low-rank matrix만 학습해 trainable parameter를 약 0.6% 수준으로 줄였습니다. 평가는 LIDC-IDRI와 LNDb에서 5-fold cross-validation으로 진행됐습니다.
결과는 강합니다. LIDC-IDRI에서 81.5% DSC를 달성해 SegNet 74.3%를 넘었고, LISA 대비 5.3%p 높았습니다. LNDb에서도 74.6% DSC와 62.4% IoU를 기록하며 LISA보다 4.5%p 높았습니다. 더 중요한 점은 SAFT가 full tuning의 79.5%보다도 낫고, 5-fold DSC 분산이 ±0.6%로 매우 작아 안정성이 높았다는 점입니다.
제품 · 로컬 AI · 개발 도구
아이폰이 멀어지면 맥북을 잠그는 스크립트
- 작성자: 배휘동 | 플랫폼: linkedin | 좋아요: 2
사내 규칙을 계기로 아이폰이 멀어지면 맥북을 자동 잠금하는 스크립트를 배포했다. 코드, AI, 인간의 협업 사례로 소개한다.
카톡 자동응답 bot 공개
- 작성자: heodongun0922 | 플랫폼: threads | 좋아요: 56
선택한 방만 응답하고, 대화/설정/로그를 로컬 저장하며, 멘션·질문·키워드·고정답장·AI 판단으로 제어하는 Android 오픈소스 앱을 만들었다. 귀찮은 카톡 자동응답을 통제 가능하게 바꾸려는 시도다.
마우스만 있으면 되는 게임
- 작성자: DITOGAMESch | 플랫폼: x | 좋아요: 33953
마우스만 있으면 바로 플레이할 수 있는 게임을 소개하는 짧은 포스트다. 접근성이 강조된 게임 홍보다.
Chrome의 세로 탭과 몰입형 읽기 모드
- 작성자: NewsFromGoogle | 플랫폼: x | 좋아요: 1708
Chrome에 vertical tabs와 immersive reading mode를 추가한다고 알린다. 탭을 세로로 옮기고 전체 페이지 읽기 모드를 쓰는 생산성 개선 업데이트다.
Gamedev.js Jam 2026
- 작성자: github | 플랫폼: x | 좋아요: 1269
웹과 게임 개발자를 위한 Gamedev.js Jam 2026이 다시 열린다고 알린다. 2026년 4월 13-26일 일정의 게임잼 홍보다.
SaaS Stack 폴더 트리
- 작성자: ennycodes | 플랫폼: x | 좋아요: 1137
Frontend, Backend, Database 등으로 나눈 SaaS 기술 스택을 폴더 트리처럼 정리한 이미지형 포스트다. React, NextJS, Vue, TailwindCSS, Shadcn UI 같은 구성이 포함된다.
FreeMoCap 오픈소스 모션 캡처
- 작성자: VaibhavSisinty | 플랫폼: x | 좋아요: 149
마블과 AAA 게임에 쓰이던 프로 모션 캡처 기술이 웹캠만으로 돌아가는 FreeMoCap으로 오픈소스화됐다고 소개한다. 전문 장비 의존도를 크게 낮춘다.
Bluesky, Claude 기반 AI 앱 Attie 공개
- 플랫폼: geeknews | 분량: 1023 words | 좋아요: -
Bluesky는 소셜 네트워크가 아니라 AI 어시스턴트 Attie를 공개했다. 앱의 방향은 사용자가 자연어로 알고리즘을 설계하고, 커스텀 피드를 만들고, 나중에는 자기 앱을 vibe-code 할 수 있게 하는 쪽이다.
이 앱은 Bluesky 본앱의 기능이 아니라 별도 제품이며, Atmosphere 컨퍼런스에서 소개됐다. 사용자 입장에서는 “피드를 보는 사람”이 아니라 “피드의 규칙을 만드는 사람”이 되는 구조라서, 추천 시스템의 제어권을 사용자에게 넘긴다는 점이 눈에 띈다.
15번의 AI 앱 논의와 이어지지만, 여기서는 소셜 피드라는 구체적 매체에 적용된다는 점이 다르다. 추천의 투명성과 개인화의 균형을 다루는 사례로 볼 수 있다.
구글에서 공개한 iOS 전용 Gemma4 온디바이스 구동 최적화 앱
- 플랫폼: geeknews | 분량: 727 words | 좋아요: -
Google AI Edge Gallery는 iPhone에서 오픈소스 LLM을 온디바이스로 돌리는 앱이다. 설명은 네덜란드어 앱 스토어 텍스트가 섞여 있지만, 핵심은 Gemma 계열 모델을 자기 기기에서 실행해 데이터를 밖으로 보내지 않는 데 있다.
페이지는 iPhone 전용, 무료, macOS 미검증이라는 메타정보도 함께 보여준다. 즉, 클라우드 API 대신 모바일 하드웨어를 직접 활용하는 쪽으로 공개 AI의 중심을 옮기는 사례다.
이 글은 “모바일에서 어느 정도까지 로컬 AI가 가능한가”를 실험하는 실용 예시로 보면 된다. 특히 Apple Silicon, 개인정보 보호, 오프라인 추론을 같이 보는 팀에 유용하다.
Ghost Pepper – macOS용 로컬 음성-텍스트 변환 앱
- 플랫폼: geeknews | 분량: 405 words | 좋아요: -
Ghost Pepper는 macOS에서 Control 키를 누르고 말하면, 놓는 순간 바로 로컬에서 음성을 텍스트로 바꿔 붙여 넣는 앱이다. 핵심은 100% local이라는 점으로, 클라우드 API를 전혀 쓰지 않고 데이터가 기기 밖으로 나가지 않는다.
릴리스는 GhostPepper.dmg 최신 버전으로 배포되며, macOS 14.0+와 Apple Silicon M1+를 요구한다. 모델은 speech model과 cleanup model로 나뉘어 있고, 권한과 개인정보 처리도 로컬 실행 전제로 설계돼 있다.
이 글은 18번의 on-device AI 흐름과 잘 맞는다. 음성 입력을 자주 쓰는 사람에게는 privacy-first 생산성 도구로 볼 만하다.
이제 Google Vids Screen Recorder Chrome 확장으로 직접 화면 녹화 가능
- 플랫폼: geeknews | 분량: 285 words | 좋아요: -
Google은 Chrome 확장 Google Vids Screen Recorder로 브라우저에서 바로 화면 녹화를 할 수 있게 했다. 이 기능은 Google Workspace 고객과 개인 Google 계정 사용자 모두에게 추가 비용 없이 제공된다.
용도는 빠른 워크스루, 버그 리포트, 발표 캡처다. 탭 전환 없이 바로 녹화할 수 있어서, 짧은 설명 영상이 필요한 작업 흐름을 상당히 단순화한다.
보급 범위와 출시 일정(April 2, 2026)이 명시되어 있어, 팀 문서화나 고객 지원 프로세스에 바로 넣기 쉬운 업데이트다.
Battle for Wesnoth: 오픈소스 턴제 전략 게임
- 플랫폼: geeknews | 분량: 191 words | 좋아요: -
이 항목은 게임 소개보다 사이트 접근 보호 메시지가 더 크게 드러난다. 본문은 Anubis proof-of-work와 헤드리스 봇 방어 안내가 대부분이라, 사실상 anti-scraping 레이어를 먼저 보여준다.
따라서 실질적인 takeaway는 Battle for Wesnoth가 오픈소스 턴제 전략 게임이라는 점과, 해당 사이트가 봇 방어를 위해 JavaScript/Proof-of-Work를 사용한다는 점이다. 콘텐츠 소비 측면에서는 접근성보다 방어 메커니즘이 앞에 놓여 있다.
YouTube 고급 검색 - Playlists.at
- 플랫폼: geeknews | 분량: 18 words | 좋아요: -
이 항목은 YouTube 검색을 더 잘 하게 해주는 플레이리스트 기반 고급 검색 도구다. 핵심은 advanced search prefixes와 필터를 이용해 검색 결과를 정교하게 좁히는 것이다.
길이는 짧지만, 실제로는 YouTube 탐색을 자동화하거나 큐레이션할 때 쓸 수 있는 유틸리티로 보면 된다.
S3 Files
- 플랫폼: hackernews | 분량: 6017 words | 좋아요: -
이 글은 S3를 단순 오브젝트 스토리지보다 파일 중심 워크플로에 더 가깝게 다루는 방향을 설명한다. 원문은 대규모 데이터 이동의 고통을 출발점으로 삼고, 그 문제를 S3 Files라는 솔루션으로 풀어내는 과정에 초점을 맞춘다.
핵심은 대용량 데이터를 옮기고 재배치하는 작업을 덜 깨지게 만드는 것이다. S3가 점점 파일 시스템적인 사용 경험을 흡수하고 있다는 점, 그리고 그 변화가 운영 부담을 줄이는 쪽으로 설계됐다는 점이 중요하다.
Show HN: Gemma 4 Multimodal Fine-Tuner for Apple Silicon
- 플랫폼: hackernews | 분량: 2011 words | 좋아요: -
이 Show HN은 Apple Silicon에서 Gemma를 text, image, audio까지 포함해 fine-tune하는 도구를 소개한다. 이미지+텍스트 LoRA, 오디오+텍스트 LoRA, 텍스트 전용 LoRA를 지원하고, CSV뿐 아니라 GCS와 BigQuery에서 스트리밍해 로컬 SSD 용량 한계를 넘길 수 있게 설계됐다.
설치 흐름은 virtualenv 생성, arm64 확인, PyTorch 설치, 패키지 설치, wizard 실행으로 이어진다. CLI cheat sheet, training visualizer, CI/test, data source 설명까지 포함되어 있어, Apple Silicon 기반 실험을 빠르게 시작하기 좋다.
18번과 20번처럼 로컬/온디바이스 AI 흐름의 연장선에 있다. 단순 추론이 아니라 학습까지 Mac에서 돌려보려는 사람에게 실용적이다.
Move Detroit
- 플랫폼: hackernews | 분량: 398 words | 좋아요: -
이 프로그램은 Detroit의 인재 유지를 위해 500,000+ 달러 규모의 혜택을 313명의 Detroiters에게 제공한다. 대상은 창작자, 창업자, 소상공인이고, 신규·복귀 주민도 포함된다.
선정자는 지역 할인, 주립공원 접근, 커뮤니티/산업 리더 프로그램, 그리고 일부는 15,000달러 stipend를 받아 사업·다운페이먼트·리노베이션·임대 보조에 쓸 수 있다. 나머지는 1,000달러 이주/지원금이 가능하다.
이건 도시 정책과 인재 유치가 결합된 사례다. 단순 복지보다 “정착 비용을 낮춰 도시의 성장 인프라를 유지하자”는 설계로 읽으면 된다.
Tailslayer: Library for reducing tail latency in RAM reads
- 플랫폼: hackernews | 분량: 382 words | 좋아요: -
Tailslayer는 DRAM refresh stall 때문에 생기는 RAM read tail latency를 줄이는 C++ 라이브러리다. 데이터를 여러 개의 독립 DRAM 채널에 복제하고, refresh schedule이 서로 엇갈리도록 만들어 느린 꼬리를 낮춘다.
설명은 AMD, Intel, Graviton에서 동작한다고 밝히며, undocumented channel scrambling offsets까지 활용한다고 적는다. 요지는 메모리 지연의 평균이 아니라 최악값을 줄여 시스템 꼬리 성능을 안정화하는 것이다.
이 프로젝트는 저장소 차원에서 곧바로 적용 가능한 성능 기법 사례다. 벤치마크와 spike timing을 확인해 실제 workload에서 꼬리 지연이 줄어드는지를 봐야 한다.
Show HN: An interactive map of Tolkien's Middle-earth
- 플랫폼: hackernews | 분량: 81 words | 좋아요: -
이 Show HN은 Tolkien의 Middle-earth를 상호작용 지도로 보여준다. legendarium의 사건들을 마커로 찍고, 마커를 클릭해 핵심 사건을 읽거나, 책별 필터와 journey path 토글을 사용할 수 있다.
추가로 Timeline 페이지에서 연대순으로 볼 수 있다. 교육용/팬 프로젝트로는 작지만 구조가 분명한 예시다.
Neural Network Pruning via QUBO Optimization
- 플랫폼: arXiv | 분량: 7886 words
이 논문은 neural network pruning을 combinatorial optimization 문제로 다시 정의한다. 기존 greedy pruning은 filter 간 상호작용을 무시하고, QUBO 접근은 L1-norm 같은 단순 목표식 때문에 실전 성능이 부족했다.
저자들은 Hybrid QUBO를 제안해 heuristic importance와 global combinatorial optimization을 연결한다. linear term에는 first-order Taylor와 second-order Fisher sensitivity를 넣고, quadratic term에는 activation similarity를 둬 필터 간 중복성과 개별 중요도를 함께 반영한다.
또한 target sparsity를 왜곡 없이 강제하는 dynamic capacity-driven search와, 실제 평가 metric에 대해 직접 미세조정하는 two-stage Tensor-Train Refinement를 붙였다. 실험은 SIDD 이미지 denoising dataset에서 진행됐고, greedy Taylor pruning과 전통적 L1-based QUBO보다 더 나은 성능을 보였으며, TT refinement가 조합 규모에 따라 추가 이득을 줬다.
이 작업의 의의는 pruning을 단순 휴리스틱이 아니라 해석 가능한 최적화 문제로 밀어 올렸다는 점이다. 비교 기준은 SIDD와 기존 pruning/QUBO 계열이다.
디자인 · UI · 프론트엔드
Figma를 웹 개발 표준처럼 쓰는 문제
- 작성자: JungHoon Ghae | 플랫폼: linkedin | 좋아요: 309
Figma는 브라우저에서 돌아가지만 브라우저 CSS 엔진으로 렌더링되는 도구가 아니므로, Figma MCP만 믿고 만든 코드가 시안과 미세하게 달라질 수 있다고 지적한다. 대응 안 되는 속성은 조용히 누락되기 때문에, REST API와 getComputedStyle로 브라우저 실측 검증을 해야 한다는 점을 강조한다.
DESIGN.md가 UI 일관성을 잡는다
- 작성자: SangRok Jung | 플랫폼: linkedin | 좋아요: 41
AI에게 UI를 맡기면 색, 간격, 버튼이 계속 달라지는 문제를 DESIGN.md로 해결한다고 말한다. 디자인 토큰과 규칙을 문서화해 반복 생성 품질을 고정하는 접근이다.
Figma는 프로젝트 관리 툴이 아니다
- 작성자: 박진호 | 플랫폼: linkedin | 좋아요: 1
Figma는 프로젝트 관리 툴도, 컴포넌트 관리 툴도, 프로그램 관리 툴도 아니라 그냥 디자인 툴이라고 선을 긋는다. 그 안에서 모든 것을 관리하려는 시도 자체가 이상하다는 주장이다.
당신의 바이브코딩 앱이 묘하게 구린 이유
- 작성자: snap.dsgn | 플랫폼: threads | 좋아요: 202
앱이 어색한 이유는 캐릭터가 없어서라고 말한다. 이모지와 아이콘팩만 바꾸는 것으로는 부족하고, 귀여움과 개성을 넣어야 한다는 디자인 조언이다.
디자이너 없이 바이브코딩으로 토스급 UI 뽑는 법
- 작성자: kiwibreaksme | 플랫폼: threads | 좋아요: 110
디자이너 없이 바이브코딩으로 토스급 UI를 만드는 방법을 다룬다. 구체 도구는 덜 보이지만, 목표는 고품질 UI 자동 생성이다.
HTML-in-Canvas가 웹 디자인을 바꾼다
- 작성자: vittorioretrivi | 플랫폼: x | 좋아요: 1326
HTML-in-Canvas 기능 덕분에 앞으로 Awwwards에 올라갈 웹사이트들의 표현력이 크게 바뀔 것이라고 본다. WICG 제안 링크를 통해 직접 시도해 보라고 권한다.
Cursor 3의 Design Mode
- 작성자: cursor_ai | 플랫폼: x | 좋아요: 1134
Cursor 3에서 Design Mode를 써서 브라우저 UI 요소를 주석하고 타깃팅하라고 안내한다. 디자인 수정과 UI 조작을 더 정밀하게 하려는 기능이다.
$35,000 사기를 통해 얻은 교훈
- 플랫폼: geeknews | 분량: 1436 words | 좋아요: -
이 글은 베이징 공원 AR 버스 투어 프로젝트에 합류했다가, 현장이 거의 붕괴 직전이었다는 경험담이다. 제안 자체는 그럴듯했지만, 실제 작업은 버전 관리도 없고, 매우 어린 개발자들이 바이너리와 TouchDesigner 코드를 thumb drive로 바로 프로덕션에 넣는 수준이었다.
기술적으로도 렌즈 왜곡, 시야각, parallax, occlusion, GPS 신뢰성 같은 기본 문제를 풀지 못한 상태였다. 결과적으로 이 이야기는 사기 그 자체보다, 도메인 현실을 이해하지 못한 채 대형 AR 시스템을 굴릴 때 무엇이 망가지는지를 보여준다.
실행 가능한 교훈은 단순하다. 고객사나 파트너를 보자마자 신뢰하지 말고, 파이프라인·버전관리·물리 제약·좌표계 문제를 먼저 확인해야 한다.
Show GN: StyleSeed – AI 코딩 도구에 디자인 감각을 심어주는 오픈소스 (2,200줄 디자인 규칙)
- 플랫폼: geeknews | 분량: 1343 words | 좋아요: -
StyleSeed는 AI가 만든 UI를 계속 미세조정하는 대신, 아예 디자인 규칙을 심어 프로페셔널한 결과를 내게 하자는 오픈소스다. 2,200줄짜리 디자인 규칙을 seed처럼 주입해 Claude Code나 Cursor가 더 나은 화면을 만들게 한다.
프로젝트는 10개의 AI-powered skills, UI/UX 분리, awesome-design-md와의 차이, Toss seed 같은 예시를 제공한다. 핵심은 “디자인도 코드처럼 규칙화할 수 있다”는 점이고, one-line custom seed로 프로젝트에 맞게 바꿀 수 있다는 것이다.
이 글은 12번과 같이 AI-generated UI의 품질 문제를 다루지만, 해결책은 더 많은 프롬프트가 아니라 더 강한 디자인 시스템이라는 데 있다.
브루탈리스트 콘크리트 노트북 거치대 (2024)
- 플랫폼: geeknews | 분량: 760 words | 좋아요: -
이 글은 브루탈리즘 미학을 좋아하는 사람이 만든 콘크리트 노트북 거치대를 소개한다. beton brut 질감의 무거운 거치대 안에 2 x 2.1 amp USB 포트, 3핀 플러그, 화분까지 넣은 것이 특징이다.
기능적으로는 단순한 스탠드지만, 만드는 과정과 부품이 상세히 소개되면서 공예와 도구의 경계가 흐려진다. 콘크리트, 화분, 노출 배선, Penpot 등 소재 선택 자체가 디자인 언어로 읽힌다.
큰 제품보다 작은 오브젝트에 정체성을 넣는 방법을 보여주는 글이다. 실제 업무 도구라기보다 물성 중심의 오브젝트 디자인 사례로 보면 맞다.
The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models
- 플랫폼: Hugging Face | 분량: 23827 words
생물·물리 기반 파운데이션 모델은 예측 성능은 높지만, 연속적인 세계의 기하 구조를 내부 표현에 제대로 보존하지 못한다는 문제가 핵심입니다. 이 논문은 그 원인을 discrete tokenization과 cross-entropy가 만드는 “Geometric Alignment Tax”로 규정하고, 정확도 중심 평가지표가 이런 구조적 손상을 가린다고 봅니다.
저자들은 SmallBERT, SmallMamba, SmallStripedHyena를 이용한 합성 동역학 실험에서 동일 인코더에 continuous MSE head를 붙이면 geometric distortion이 최대 8.5배 줄어든다는 점을 보였습니다. 반대로 VQ codebook은 reconstruction MSE는 줄이면서도 geometric stability는 오히려 악화되는 double bind를 보였고, $K=64$에서만 얕은 최적점이 나타났습니다.
대규모 실험에서는 14개의 biological foundation model을 rate-distortion 이론과 MINE으로 평가해 Local-Global Decoupling, Representational Compression, Geometric Vacuity의 세 실패 양식을 정리했습니다. ESM-2는 8M에서 3B로 갈수록 안정성이 내려가고, 15B의 겉보기 회복은 실제 개선이 아니라 global manifold drift로 해석됩니다. BRCA1 mutation walk와 ESM-2, Nucleotide Transformer v2, SaProt, Caduceus, Evo 2, ProtMamba, OpenFold 등 다양한 모델을 아우르는 결과이며, 코드도 공개되어 있습니다.
PLUME: Latent Reasoning Based Universal Multimodal Embedding
- 플랫폼: Hugging Face | 분량: 8260 words
UME 계열은 서로 다른 입력을 같은 retrieval space로 보내는 데 유리하지만, 최근 방식은 explicit CoT를 길게 만든 뒤 embedding을 뽑는 구조라 inference overhead가 크고 evidence가 텍스트 병목에 갇힌다. 이 논문은 그 병목을 latent reasoning으로 바꾸겠다고 제안한다.
PLUME는 verbalized CoT 대신 continuous latent state의 짧은 autoregressive rollout을 사용한다. semantic-anchor-guided transition adapter로 query에 따라 다른 latent trajectory를 유도하고, progressive explicit-to-latent curriculum으로 학습 초반에는 언어적 추론을 scaffolding으로 쓰되 inference에서는 완전히 제거한다.
MMEB-v2의 78개 태스크에서 PLUME는 explicit-CoT UME baseline보다 더 좋고, 수백 토큰의 reasoning을 10개 미만의 latent step으로 줄여 30배 이상 빠른 inference를 제공했다. 특히 video retrieval과 visual document retrieval처럼 evidence가 복잡한 환경에서 강점이 크다. 즉, “중간 추론은 유지하되 언어 출력은 없애는” 효율 중심의 대안이다.
Less Detail, Better Answers: Degradation-Driven Prompting for VQA
- 플랫폼: Hugging Face | 분량: 5813 words
이 논문은 VQA에서 고해상도 세부 정보가 오히려 혼란을 만들어 hallucination과 reasoning error를 유발할 수 있다고 본다. 즉, 더 많은 디테일이 항상 더 좋은 답으로 이어지는 것은 아니라는 문제를 다룬다.
해결책은 Degradation-Driven Prompting이다. 입력 이미지를 의도적으로 저해상도로 낮추고, 80p downsampling과 white background mask, orthometric line 같은 구조적 보조를 추가해 모델이 표면 텍스처가 아니라 핵심 구조에 집중하게 만든다. 과제는 physical attributes와 perceptual phenomena로 나뉘며, 후자는 VA, CI, MI, GI, GSI, VI 같은 시각적 환영을 포함한다.
도해에서는 500x400 이미지를 80x64로 낮춘 뒤 기본 물리 속성 과제에서 응답 시간을 50% 줄이고 정확도를 50% 높인 예시를 보여준다. 논문은 blur mask, contrast enhancement, task classification까지 묶어 challenging visual benchmark에서 더 나은 추론을 보인다고 주장하며, 코드도 프로젝트 페이지에 공개했다.
핵심 메시지는 "많을수록 좋다"가 아니라 "불필요한 세부를 제거해야 구조가 보인다"는 점이다. VLM의 취약성을 보정하는 간결한 inference pipeline으로 읽을 수 있다.
SignalClaw: LLM-Guided Evolutionary Synthesis of Interpretable Traffic Signal Control Skills
- 플랫폼: arXiv | 분량: 15576 words
이 논문은 교통 신호 제어에서 성능과 해석가능성을 동시에 만족하는 전략을 찾으려는 문제를 다룬다. 강화학습은 성능은 좋지만 정책이 불투명하고, 프로그램 합성은 DSL 제약이 커서 실제 배치에 한계가 있다는 점이 출발점이다.
저자들은 LLM을 “진화적 skill 생성기”로 사용해, rationale과 선택 규칙, 실행 가능한 코드를 함께 가진 해석 가능한 제어 skill을 반복적으로 생성·개선하는 SignalClaw를 제안한다. 여기에 queue length percentile, delay trend, stagnation pattern 같은 시뮬레이션 신호를 자연어 피드백으로 바꿔 mutation을 유도하고, 비상차량·대중교통 우선·사고·혼잡 같은 이벤트는 별도 skill과 dispatcher로 조합한다.
실험은 6개의 routine SUMO 시나리오와 6개의 event-injected 시나리오, 4개 baseline으로 진행됐다. routine에서는 평균 지연이 7.8–9.2초로, 시나리오별 최고 방법 대비 3–10% 이내였고, 5개 seed에서 표준편차도 0.4–0.8초로 DQN의 최대 1.5초보다 낮았다.
이벤트 상황에서는 차이가 더 컸다. emergency vehicle delay는 11.2–18.5초로 MaxPressure의 42.3–72.3초, DQN의 78.5–95.3초보다 훨씬 낮았고, transit 시나리오의 평균 person-delay도 9.8–11.5초로 MaxPressure의 38.7–45.2초보다 우수했다.
Beyond Behavior: Why AI Evaluation Needs a Cognitive Revolution
- 플랫폼: arXiv | 분량: 8782 words
이 글은 AI 평가가 여전히 Turing-style behavioral epistemology에 갇혀 있다고 비판한다. “올바른 출력”을 보이면 reasoning이나 understanding이 있다고 간주하는 습관 자체가, 사실은 무엇이 그 출력을 만들었는지 묻지 못하게 만든다는 것이 핵심 주장이다.
저자는 심리학의 behaviorism→cognitivism 전환과 비슷한 epistemological shift가 AI에도 필요하다고 본다. 현재 benchmark는 output만 보고 process를 보지 못하므로, 같은 정답을 내더라도 memorization인지, compositional reasoning인지, pattern completion인지 구분할 수 없다는 점이 문제다.
이 논문은 실험 논문이 아니라 이론 논문이다. 따라서 수치 결과 대신, construct-thinking이라는 대안을 제시하고, “reasoning을 평가한다”는 명칭 자체가 construct validity를 요구하는 claim이어야 한다고 정리한다.
핵심 의의는 AI 평가의 질문을 바꾸자는 데 있다. 점수는 충분조건이 아니며, perturbation, transfer, mechanistic analysis, developmental trajectory 같은 process-level evidence를 함께 봐야 한다는 주장을 전면에 세운다.
Label Effects: Shared Heuristic Reliance in Trust Assessment by Humans and LLM-as-a-Judge
- 플랫폼: arXiv | 분량: 8463 words
이 논문은 LLM-as-a-Judge가 정말로 신뢰할 만한 평가자인지 묻는다. 저자들은 동일한 내용을 두고도 출처 라벨이 human인지 AI인지에 따라 인간과 LLM 모두의 신뢰 판단이 달라지는지 검증했고, 그 결과 라벨 자체가 강한 휴리스틱 신호로 작동한다는 점을 보였다.
기존 한계는 평가 대상의 실제 품질보다 라벨 정보가 판단을 왜곡할 수 있다는 점이다. 인간은 눈동자 추적에서 라벨 영역을 과도하게 참고했고, LLM도 내부 attention이 콘텐츠보다 라벨 쪽에 더 밀집했으며, Human 라벨에서 그 경향이 더 강했다. 또한 AI 라벨일 때 logits 기반 불확실성도 높아졌다.
이 논문은 counterfactual design으로 같은 콘텐츠를 라벨만 바꿔 비교해, 인간과 LLM이 모두 human-authored 정보에 더 높은 신뢰를 부여한다는 점을 정리한다. 의의는 LLM을 인간 선호에 맞추는 과정이 오히려 인간의 휴리스틱 의존까지 모델에 전이할 수 있다는 경고에 있다.
수치 결과는 정답률보다 판단 편향과 주의 분포에 초점이 맞춰져 있다. 코드 공개 링크는 본문에서 별도 확인되지 않았고, 핵심 결과는 label-sensitive LLM-as-a-Judge 평가가 타당성 위협을 받을 수 있다는 점이다.
Multiscale Physics-Informed Neural Network for Complex Fluid Flows with Long-Range Dependencies
- 플랫폼: arXiv | 분량: 8182 words
이 논문은 Navier-Stokes로 기술되는 복잡한 유체 흐름에서 multiscale dynamics와 long-range spatial dependency를 동시에 다루는 문제를 해결하려 한다. 기존 PINN 계열은 수렴 속도가 느리고, 데이터 요구량이 크며, 원격 경계조건의 영향을 충분히 반영하지 못했다.
해결책으로 DDS-PINN을 제안한다. domain decomposition으로 국소 네트워크를 나누되 unified global loss로 전역 의존성을 유지하고, shifted network 구성으로 지역 정밀도와 전역 결합을 함께 잡는다.
결과는 꽤 직접적이다. multiscale linear differential equation, nonlinear Burgers’ equation, data-free Navier-Stokes flat-plate boundary layer에서 강건성을 보였고, backward-facing step 문제에서는 Re=100 laminar regime에서 CFD와 유사한 결과를 데이터 없이 재현했다. turbulent BFS flow Re=10,000에서는 전체 domain의 0.3%도 안 되는 500개 random supervision point만으로 O(10^-4) 수렴을 달성해 Residual-based Attention-PINN보다 정확도가 높았다.
의의는 sparse supervision에서도 복잡한 난류를 다룰 수 있는 쪽으로 PINN의 적용 범위를 넓혔다는 점이다. 코드 공개 언급은 보이지 않았지만, 벤치마크와 비교 대상은 명확하다.
COSMO-Agent: Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration
- 플랫폼: arXiv | 분량: 6930 words
이 논문은 CAD-CAE 반복 최적화에서 simulation feedback을 실제 형상 수정으로 바꾸는 semantic gap을 다룬다. 기존 시스템은 제약이 얽힌 산업 설계 문제에서 closed-loop를 끝까지 돌리는 데 어려움이 있었다.
COSMO-Agent는 tool-augmented RL 프레임워크로, CAD 생성, CAE 해결, 결과 파싱, geometry revision을 하나의 interactive RL environment로 묶는다. 안정적인 학습을 위해 feasibility, toolchain robustness, structured output validity를 함께 보상하는 multi-constraint reward를 설계했고, 25개 component category를 포함한 executable CAD-CAE task 데이터셋도 제공했다.
실험에서는 소형 open-source LLM이 constraint-driven design에서 크게 향상됐고, feasibility, efficiency, stability 면에서 더 큰 open-source 모델과 강한 closed-source 모델을 넘었다. 이는 설계-시뮬레이션 루프를 LLM agent가 실제로 오케스트레이션할 수 있음을 보여준다.
의의는 산업용 closed-loop 최적화를 LLM-agent로 연결했다는 점이다. 본문에는 별도 공개 저장소를 강조하진 않았지만, 태스크와 보상 설계가 상당히 구체적이다.
Vision-Guided Iterative Refinement for Frontend Code Generation
- 플랫폼: arXiv | 분량: 6884 words
이 논문은 frontend code generation에서 rendered visual output이 중요한데도, human-in-the-loop refinement가 너무 비싸다는 문제를 다룬다. 단발성 LLM 추론만으로는 웹 UI의 품질을 안정적으로 끌어올리기 어렵다.
저자들은 rendered webpage를 보고 구조화된 피드백을 주는 vision-language model을 visual critic으로 쓰는 fully automated critic-in-the-loop 프레임워크를 제안한다. 이후 LoRA fine-tuning으로 critic의 이득을 생성 모델 내부에 흡수할 수 있는지도 확인했다.
실험은 WebDev Arena의 실제 사용자 요청으로 진행됐고, 3번의 refinement cycle에서 최대 17.8% 성능 향상을 보였다. LoRA fine-tuning은 최고 critic-in-the-loop 솔루션의 이득 중 25%를 token 수를 크게 늘리지 않고 내재화했다.
이 논문의 의의는 frontend처럼 visual fidelity가 중요한 도메인에서 자동 피드백이 사람 검토를 일부 대체할 수 있음을 보인 점이다. 수치도 비교적 직접적이고, iterative refinement의 가치를 잘 드러낸다.
CuraLight: Debate-Guided Data Curation for LLM-Centered Traffic Signal Control
- 플랫폼: arXiv | 분량: 4543 words
교통 신호 제어는 혼잡·배출·대기시간을 줄이기 위한 핵심 문제지만, 기존 rule/RL 방식은 해석 가능성이 낮고, LLM 기반 방식은 이질적인 교차로에서 고차원 타이밍을 다루기 어렵습니다. CuraLight는 RL agent가 LLM 학습 데이터를 큐레이션하고, 다중 LLM 토론으로 타이밍 후보를 검증하는 구조를 통해 이 문제를 해결하려 합니다.
실험은 SUMO에서 Jinan 17개 교차로, Hangzhou 19개, Yizhuang 177개 교차로를 대상으로 수행됐고, 요구 교통량도 각 네트워크별로 명시했습니다. RL 탐색으로 얻은 상태·행동 궤적을 imitation pair로 바꾸고, ensemble deliberation으로 RL-filtered phase action을 두고 토론하며, 최종적으로 LLM 중심 정책을 미세조정합니다. 코드와 설정도 공개 링크로 제공됩니다.
정량 결과는 평균적으로 ATT 5.34%, AQL 5.14%, AWT 7.02% 개선입니다. Hangzhou 2에서는 UniTSA의 ATT 277.57s 대비 262.14s, AWT 134.52s 대비 118.80s로 줄었고, Yizhuang 1에서는 ATT와 AWT가 각각 11.04%, 19.86% 더 낮아졌습니다. Ablation에서는 Gemma-3-12b-it 대비 imitation fine-tuning이 약 19.3% 개선, ensemble deliberation 추가 시 약 28.5% 개선을 보였습니다.
Selective Aggregation of Attention Maps Improves Diffusion-Based Visual Interpretation
- 플랫폼: arXiv | 분량: 3610 words
텍스트-투-이미지 생성모델의 cross-attention map은 해석과 제어에 자주 쓰이지만, 모든 attention head가 같은 역할을 하지는 않습니다. 이 논문은 특정 concept와 더 관련 있는 head만 선택적으로 집계하면 시각적 해석과 segmentation 성능이 더 좋아진다는 점을 보여 줍니다.
실험은 Stable Diffusion v1.4를 base model로 사용했고, 34개 visual concept와 각 concept당 10개 concept-word를 이용해 head relevance를 계산했습니다. Animals 카테고리에서는 photo of a {animal} 형식으로 10종 동물 prompt를 만들고, 이미지당 10개 seed로 총 100장을 생성했습니다. Grounded-SAM으로 ground truth segmentation을 얻고, DAAM과 제안법을 비교했습니다.
정량적으로는 threshold 0.3/0.4/0.5에서 DAAM의 mean IoU가 각각 0.7490/0.7540/0.6261인 반면, 제안법은 0.7698/0.7765/0.6785였습니다. 가장 관련성 높은 30개 head를 썼을 때는 0.7698/0.7765/0.6785, 가장 덜 관련된 30개 head를 썼을 때는 0.6654/0.6172/0.4649로 크게 떨어졌습니다. 즉, selective aggregation이 misinterpretation 진단에도 유효하다는 결론입니다.
비즈니스 · 성장 · 조직
Claude로 SEO 브리프 50개 자동 생성
- 작성자: Navneet Kaushal | 플랫폼: linkedin | 좋아요: 290
SERP 분석, 경쟁사 매핑, 브리프 생성을 Claude 워크플로 하나로 묶어 주당 50개의 SEO 브리프를 만든 사례다. 유료 SEO 툴 없이도 프롬프트 구조와 구조화된 출력만으로 콘텐츠 생산을 자동화할 수 있다고 보여준다.
열심히만 해서는 부자가 될 수 없다
- 작성자: BZCF - 비즈까페 | 플랫폼: linkedin | 좋아요: 132
나발 라비칸트의 말을 인용하며, 노동량만으로는 부자가 될 수 없고 자본·사람·미디어 같은 레버리지를 확보해야 한다고 말한다. 복제되고 전파되는 구조를 쥐는 것이 핵심이라는 주장이다.
볼타 API 유료 사용자 650% 성장
- 작성자: 진태양 | 플랫폼: linkedin | 좋아요: 107
4월 New Paid User가 전월 대비 650% 이상 증가했다고 공유한다. 아직 4월이 1주일밖에 지나지 않았다는 점을 강조하며 빠른 초기 성장을 보여준다.
Money Printer로 웹사이트에서 바로 고객 유입
- 작성자: Charly Wargnier | 플랫폼: linkedin | 좋아요: 102
웹사이트 링크만 넣으면 자동으로 고객을 데려오는 툴을 소개한다. 리스트 구축, 카피 작성, 캠페인 세팅을 사람 손으로 하지 않아도 되는 점이 핵심이다.
Claude의 Cowork with Computer Use는 광고도 대신 돌린다
- 작성자: Jayant Joshi | 플랫폼: linkedin | 좋아요: 80
Claude가 화면을 보고 버튼을 클릭하며 인터페이스를 탐색하는 방식으로 Google Ads를 운영할 수 있다고 소개한다. 에이전트가 실제 운영 업무까지 들어오는 사례로 읽힌다.
Seedance 2.0 Agent로 23일 만에 97,502달러
- 작성자: Cas Feijen | 플랫폼: linkedin | 좋아요: 53
단일 시스템과 반복 가능한 워크플로만으로 영상 제작을 자동화해 23일 동안 97,502달러를 벌었다고 한다. 촬영자, 편집 대기열, 프리랜서 없이 풀오토로 굴린다는 점이 핵심이다.
채널톡 팀 블로그 인터뷰
- 작성자: Seunghyun Lee | 플랫폼: linkedin | 좋아요: 53
삼성SDS, 쿠팡, 우아한형제들을 거쳐 채널톡에 합류한 뒤 팀 블로그 인터뷰를 하게 됐다고 한다. 대기업에서 스타트업으로 옮긴 이유와 커리어 회고를 다룬다.
매일 50개 광고 콘셉트를 뽑는 Claude Code 스킬
- 작성자: Mike Futia | 플랫폼: linkedin | 좋아요: 50
리뷰, 승리한 광고, 댓글을 학습해 브랜드 보이스로 50개의 정적 광고 콘셉트를 밤사이 만들어 데스크톱으로 보내는 스킬을 만든 사례다. 광고 크리에이티브 생산을 반복 시스템으로 바꿨다.
Sumbios AI와 네트워크 인텔리전스 레이어
- 작성자: HETCH | 플랫폼: linkedin | 좋아요: 47
HETCH Accelerator가 Sumbios AI를 배치 VII에 맞이했고, 이들이 O 플랫폼으로 전문 네트워크를 재해석한다고 소개한다. 직업 네트워크 위에 인텔리전스 레이어를 얹는 방향이다.
AI agency 세일즈 프레임워크 공개
- 작성자: Michele Torti | 플랫폼: linkedin | 좋아요: 25
AI 에이전시 딜을 150만 달러 넘게 성사시킨 세일즈 프레임워크를 공개한다. 툴 학습보다 세일즈 구조가 더 중요하다는 메시지다.
Momo, AI 에이전트용 CRM
- 작성자: Cailyn Y. | 플랫폼: linkedin | 좋아요: 25
AI 에이전트마다 Salesforce나 HubSpot 같은 CRM이 필요하다는 관점에서 Momo를 소개한다. 개발, 세일즈, CS, HR, 법무, 재무, 디자인 에이전트를 고객 관계 중심으로 관리하려는 제품이다.
30년 실리콘밸리 마케터의 코칭 전환
- 작성자: Sue Kim | 플랫폼: linkedin | 좋아요: 18
30년 가까운 커리어 속 번아웃과 전환을 겪으며, 자신이 누구인지 아는 것이 진짜 커리어의 출발점이라고 깨달았다고 한다. 그 깨달음이 코칭을 직업이 아닌 미션으로 만들었다.
채널톡 대규모 채용
- 작성자: Channel Talk | 플랫폼: linkedin | 좋아요: 16
채널톡 엔지니어링 Feature Meet Team 채용 공고다. 정답보다 더 좋은 질문을 찾고, 문제를 깊게 이해하며 해결하는 개발자를 찾는다.
Neofirm과 AI-native firm
- 작성자: Daero Won | 플랫폼: linkedin | 좋아요: 15
시급을 파는 법률 서비스 시대가 지나고, AI로 직관을 데이터와 시스템으로 바꿔 결과를 파는 네오펌 모델이 온다고 말한다. 시간 판매에서 결과 판매로의 전환이 핵심이다.
프론트엔드 제외하고 3x억원 프로젝트를 혼자 개발
- 작성자: Chris Han | 플랫폼: linkedin | 좋아요: 14
프론트엔드 화면만 제외하면 사실상 혼자서 3억 원대 프로젝트를 개발 중이라고 한다. 개인 역량으로 큰 프로젝트를 떠받치는 사례다.
위펀의 M&A 기반 성장
- 작성자: Kihong Bae | 플랫폼: linkedin | 좋아요: 10
2019년 첫 투자 이후 위펀이 새우깡 사업에서 출발해 B2B 복지/서비스 플랫폼으로 커졌고, 스낵24·커피24·인테리어24·선물24·런치24로 확장했다고 말한다. M&A, bolt-on, cross-sell/up-sell이 성장 엔진이다.
SaaS는 죽고 채널톡은 AI Agent로 재탄생
- 작성자: Sehee Park | 플랫폼: linkedin | 좋아요: 5
SaaS는 죽었다는 강한 선언과 함께 Channel Talk이 AI Agent로 다시 태어난다는 매니페스토를 예고한다. 기존 SaaS 모델의 전환을 선언하는 글이다.
위펀 포트폴리오 업데이트
- 작성자: Strong Ventures | 플랫폼: linkedin | 좋아요: 1
위펀이 매출 1,600억 원 규모로 성장했고, M&A와 bolt-on, cross-sell/up-sell 전략을 효율적으로 구사한다고 평가한다. 투자 포트폴리오 관점에서 본 성장 보고다.
탈잉 25년 역대 최대 실적
- 작성자: maxyunhwankim | 플랫폼: threads | 좋아요: 185
탈잉이 2025년에 역대 최대 실적을 달성했다고 알린다. 법인 설립 10년차에 사업 감을 조금 잡은 것 같고, 2026년 더 큰 성장을 예고한다.
1인 창업가의 해자는 커뮤니티
- 작성자: classbinu | 플랫폼: threads | 좋아요: 65
가격 경쟁과 복제를 피하려면 제품 자체보다 해자가 있어야 하고, 위노트의 해자는 학교 상담 선생님 1,000명 넘게 모인 커뮤니티라고 말한다. 반복적으로 넘을 수 없는 장벽을 만들라는 조언이다.
해외 MZ들이 돈 쓸어담는 비즈니스 5가지
- 작성자: fanding_pf | 플랫폼: threads | 좋아요: 11
AI 자동화 대행, 디지털 제품, 크리에이터 멤버십, 마이크로 SaaS, 니치 커머스를 반복 수익 구조라는 공통점으로 묶어 설명한다. 크리에이터 시장도 같은 방향으로 바뀐다고 본다.
첫 100명 유저를 얻는 곳
- 작성자: hridoyreh | 플랫폼: x | 좋아요: 1044
첫 100명의 사용자를 얻기 좋은 곳으로 Reddit과 Indie Hackers를 제안한다. 초기 사용자 확보 채널에 대한 짧은 팁이다.
Momo, AI 에이전트용 CRM
- 작성자: cailynyongyong | 플랫폼: x | 좋아요: 260
AI 에이전트마다 Salesforce/HubSpot 같은 CRM이 필요하다는 관점에서 Momo를 소개한다. 고객 관계를 출발점으로 에이전트 조직을 관리하려는 제품이다.
Sam Altman의 43분짜리 스타트업 강의
- 작성자: riyazz_ai | 플랫폼: x | 좋아요: 170
Sam Altman이 아이디어를 유니콘으로 바꾸는 법을 43분간 설명한 마스터클래스를 요약한다. 아이디어보다 실행과 현실의 제약이 스타트업 성공을 좌우한다고 본다.
81세 다저스 팬, 스마트폰이 없어 더 이상 티켓을 구매할 수 없음
- 플랫폼: geeknews | 분량: 55 words | 좋아요: -
이 짧은 항목은 디지털 전용 티켓 시스템이 만든 배제의 사례다. 평생 다저스 팬이자 50년 넘는 시즌 패스 보유자가 스마트폰이 없다는 이유로 더는 종이 티켓을 살 수 없게 됐다는 이야기다.
핵심은 기술 혁신이 아니라 접근성이다. 앱 중심 서비스가 늘어날수록, 디지털 기기를 쓰지 않는 사람을 어떻게 배려할지 정책이 더 중요해진다.
US labor force participation continues to slide
- 플랫폼: hackernews | 분량: 807 words | 좋아요: -
미국 노동시장 참여율은 팬데믹 이후 회복하던 흐름에서 다시 내려가고 있다. 전체 civilian labor force는 2025년 3월 128.69 million에서 2026년 3월 123.84 million으로 줄었고, 참여율도 62.0%에서 61.9%로 내려가 2021년 11월 이후 최저치를 기록했다.
성별로는 남성 하락이 더 가파르다. 남성 참여율은 68.4%에서 67.0%로, 여성은 57.8%에서 57.1%로 내려갔고, 특히 16–19세, 20–24세, 55세 이상에서 감소가 두드러진다. 반면 25–54세 prime-age는 83.8%로 비교적 안정적이지만, 학사 이상 고학력층 참여율은 71.4%까지 떨어져 1992년 이후 최저였다.
이 글은 레스토랑 업계 관점에서 쓰였지만, 실은 채용시장 전반의 공급 축소를 설명한다. 젊은 남성의 이탈과 교육 수준별 참여율 하락은, 노동력 부족과 진입 경험의 감소라는 두 가지 문제를 함께 보여준다.
Cambodia unveils statue to honour famous landmine-sniffing rat
- 플랫폼: hackernews | 분량: 464 words | 좋아요: -
캄보디아 시엠립에서는 지뢰 탐지로 유명했던 쥐 Magawa를 기리는 조각상이 공개됐다. Magawa는 8년을 살았고, 2016년부터 5년 동안 100개 이상의 지뢰와 폭발물을 찾아냈으며, 141,000 square metres를 정리했다.
그는 2020년 PDSA Gold Medal을 받았고, 2022년에 죽었다. 기사에는 2030년 mine-free 목표와, 또 다른 HeroRAT Ronin이 109개 지뢰와 15개의 불발탄으로 기록을 세운 사실도 나온다.
이 기사는 기술 뉴스라기보다 공공 안전과 동물 훈련의 성과를 보여주는 사례다. 다만 전쟁 유산이 여전히 현재진행형이라는 점은 분명하다.
사회 · 정책 · 커리어 · 문화
한국과 미국의 Claude Code 홍보 방식 차이
- 작성자: HYUNYUL LEE | 플랫폼: linkedin | 좋아요: 207
미국은 GitHub 링크를 남기는 반면 한국은 댓글 유도와 강의 판매로 이어지는 방식이 더 강하다는 식으로 바이브 코딩 홍보 문화를 풍자한다. Claude Code 성공담이 곧바로 마케팅 문구가 되는 현실을 비꼰 글이다.
Pentagon Pizza Index가 더 이상 귀엽지 않음
- 작성자: 조여준 Ethan Cho | 플랫폼: linkedin | 좋아요: 193
펜타곤 피자 인덱스가 단순한 밈을 넘어 과도하게 진지한 신호처럼 변하고 있다고 말한다. 야근과 피자 소비 사이의 상관관계를 따라가는 관측 문화가 어디까지 과열됐는지를 보여준다.
<된다! 링크드인 활용법> 베스트셀러 확정 후기
- 작성자: Brasley Byun | 플랫폼: linkedin | 좋아요: 149
책이 공식 판매된 지 1주일 만에 베스트셀러가 확정됐다고 알리고 집필 과정을 돌아본다. 출간 성과를 짧게 공유하는 축하성 पोस्ट다.
SF 랄프톤 개최와 에이전트 시대 메시지
- 작성자: HoYeon Lee | 플랫폼: linkedin | 좋아요: 136
SF에서 150명 이상이 참여한 Ralphthon을 성공적으로 열었고, AI 인플루언서들도 현장을 찾았다고 전한다. 에이전트는 더 길고 정확하고 자율적으로 일하게 될 것이며, 사람은 환경 설계와 목표 정의에 집중해야 한다는 메시지를 남긴다.
손정의가 마윈에게 6분 만에 2,000만 달러를 투자한 이야기
- 작성자: BZCF - 비즈까페 | 플랫폼: linkedin | 좋아요: 41
2000년 베이징에서 손정의가 마윈의 사업 계획을 듣고 6분 만에 2,000만 달러 투자를 선언한 일화를 소개한다. 초기 비전과 의지에 베팅한 결과가 훗날 거대한 수익으로 이어졌다는 점을 강조한다.
Ralphthon과 문화 만들기
- 작성자: Goobong Jeong | 플랫폼: linkedin | 좋아요: 23
AI가 불러올 미래를 전제로 이벤트와 커뮤니티를 만들고, 해커톤 형식으로 에이전트를 극단적으로 활용하면서 문화와 산업을 동시에 만든다는 이야기다. Ralphthon에서 생긴 커뮤니티를 후행적으로 해석하는 시각이 나온다.
지피터스의 에이전트 육아식 활용
- 작성자: Tae Hyun Kim | 플랫폼: linkedin | 좋아요: 22
OpenClaw에 캐릭터를 부여하고, 먼저 만든 에이전트가 다른 에이전트를 돕게 하는 방식으로 AI 에이전트를 팀 동료처럼 다룬다. 사람과 에이전트가 같이 육아하는 듯한 운영 방식이다.
엔트로피는 늘어난다, 사업도 마찬가지다
- 작성자: Douglas Guen | 플랫폼: linkedin | 좋아요: 20
열역학 제2법칙을 비유로 들어, 가만두면 무질서가 늘어나므로 사업도 계속 정리하고 통제하지 않으면 흐트러진다고 말한다. 운영의 지속적 개입이 필요하다는 교훈이다.
Altos Ventures Han Kim 세미나 인사이트
- 작성자: Eunkwang Joo | 플랫폼: linkedin | 좋아요: 19
Silicon Valley Privacy Preserving AI Forum에서 Han Kim 대표를 초청한 1시간 토크와 Q&A를 정리한다. 개인 이미지와 함께 중요한 인사이트를 메모 형식으로 남겼다.
AI 시대의 차별점은 창의성만이 아니다
- 작성자: EO planet | 플랫폼: linkedin | 좋아요: 14
AI가 코딩, 분석, 글쓰기, 디자인까지 잘하게 될수록, 사람에게 남는 가치는 단순 생산성이 아니라 함께 일하고 싶게 만드는 이유라고 말한다. 창의성만으로는 부족하다는 문제의식이다.
배민 직영영업팀 인터뷰
- 작성자: (주)우아한형제들 (Woowa Bros.) | 플랫폼: linkedin | 좋아요: 4
영업 경험이나 전공이 없어도 직영영업팀에서 계약부터 사후관리까지 직접 경험하며 커리어를 넓힐 수 있다고 소개한다. 신규 입점 영업 담당자들의 이야기를 담았다.
AI 시대의 조직 재설계
- 작성자: EO planet | 플랫폼: linkedin | 좋아요: 3
지난 2년간의 AI 담론이 개인 생산성에 머물렀지만, 이제는 조직 전체를 AI 중심으로 다시 짜는 단계로 넘어가고 있다고 전한다. 25개 기업을 통해 팀 재구성, 역할 통합, 인력 계획 변화가 확인됐다는 내용이다.
AI로 프로젝트 10개 만든 개발자가 서류에서 떨어지는 이유
- 작성자: 요즘IT | 플랫폼: linkedin | 좋아요: 0
AI 덕분에 빠르게 여러 프로젝트를 만들고 배포하는 시대가 왔지만, 결과물이 많다고 해서 취업 서류 합격률이 자동으로 올라가진 않는다고 지적한다. 포트폴리오의 양보다 전달 방식과 신호가 더 중요하다는 문제의식이다.
논란종결 해드립니다
- 작성자: choi.openai | 플랫폼: threads | 좋아요: 334
코딩 입문자가 Claude Code부터 잡으면 금방 막히고, 실사용자는 기획과 화면은 Claude Code, 오래 돌리는 백엔드 작업은 Codex로 나눠 쓴다고 말한다. 도구별 역할 분담이 핵심이라는 주장이다.
Claude를 개인 PT로 쓰는 사례
- 작성자: unclejobs.ai | 플랫폼: threads | 좋아요: 147
AI로 사업하고 코딩하고 글 쓰는 이야기는 흔하지만, Claude를 퍼스널 트레이너처럼 쓰는 사례까지 나왔다고 말한다. AI 활용 범위가 운동으로 확장된 점이 포인트다.
이벤트 링크 공유
- 작성자: bellman.pub | 플랫폼: threads | 좋아요: 20
Luma 링크를 붙이고 목요일인데 안 오면 손해라는 식으로 이벤트 참석을 유도한다. 구체 내용보다 일정 홍보가 중심이다.
YouTube 링크 공유
- 작성자: bellman.pub | 플랫폼: threads | 좋아요: 20
유튜브 링크를 올리며 재미있게 봤다고 짧게 말한다. 영상 추천 성격의 게시물이다.
랄프 관련 대규모 모임 예고
- 작성자: hdy861056 | 플랫폼: threads | 좋아요: 18
Luma 링크와 함께 26만 명이 모인다고 언급하며 랄프 루프/이벤트에 사람들을 초대한 이야기를 던진다. 상세는 부족하지만 대규모 커뮤니티 집결을 암시한다.
스레드 시작 선언
- 작성자: chris_gomdori | 플랫폼: threads | 좋아요: 8
2026년 3월 28일에 스레드를 시작했다고 알리며, 사명감을 가지고 열심히 하겠다고 선언한다. 메가 스레더가 되겠다는 다짐이 핵심이다.
NASA Artemis가 달 근처를 통과
- 작성자: elonmusk | 플랫폼: x | 좋아요: 1119692
NASA Artemis가 달 근처를 지나가는 장면을 짧게 공유한 글이다. 이미지나 영상 기반 게시물로 보인다.
아버지의 포옹을 바라는 감성 대사
- 작성자: babechat_kr | 플랫폼: x | 좋아요: 5288
부성 결핍과 포옹에 대한 감정적인 대사를 인용한 글이다. 구체 정보보다는 감성 표현이 중심이다.
Aramco의 2026 F1 일본 그랑프리 후원
- 작성자: aramco | 플랫폼: x | 좋아요: 2314
Formula 1® Aramco Japanese Grand Prix 2026의 타이틀 스폰서로서 일본에서의 에너지 리더십, 파트너십, 투자를 강조한다. 스포츠 후원과 지역 전략을 함께 드러낸다.
KEYVITUP 1st EP 앨범 홍보
- 작성자: KEYVITUP_inkode | 플랫폼: x | 좋아요: 445
KEYVITUP을 향한 큰 애정을 표현하며 1st EP 앨범을 소개한다. 음악과 앨범 홍보가 핵심인 포스트다.
대한민국 평균 IQ는 106이라는 광고성 메시지
- 작성자: wwiqtest | 플랫폼: x | 좋아요: 59
대한민국 평균 IQ가 106이라며 검사 참여를 유도하는 광고성 포스트다. 정보성보다는 클릭 유도가 목적이다.
세라픽 타로카드 후원 4천만원 돌파
- 작성자: tumblbug | 플랫폼: x | 좋아요: 14
<세라픽 타로카드> 프로젝트가 후원액 4천만원을 넘었다고 알리며, 캐릭터의 욕망을 말해 주는 타로로 서사를 완성하라고 권한다. 창작 세계를 확장하는 펀딩 홍보다.
메타 메모
- 반복되는 패턴: Claude Code, Agent Skills, harness, memory, wiki, prompt, browser verification처럼 AI 에이전트를 실제 업무에 붙이는 방법이 반복된다. 디자인 일관성, 보안 검증, 토큰 절감, 세일즈 자동화, 콘텐츠 양산처럼 "도구 소개"보다 "반복 가능한 워크플로"가 더 많이 보인다.
- 다른 카테고리와 연결될 힌트: 보안, UX, 세일즈, 교육, 리서치, 커뮤니티 운영, 채용, 투자 사례가 서로 이어진다. 특히 Figma/MCP, getComputedStyle, Design.md, Chrome MCP, 토큰 대시보드, LLM-Wiki는 다음 카테고리의 기술/운영 글과 직접 연결된다.
Get Your Hands Dirty
- 플랫폼: everyto | 분량: 1190 words | 좋아요: -
이 호는 Every가 새 뉴스레터 포맷을 시험하면서, AI에 대한 장문 글과 시의성 있는 짧은 관점을 함께 묶은 실험이다. 핵심 메시지는 “AI는 기능 비교 대상이 아니라 새로운 직원처럼 다뤄야 한다”는 것이고, 그래서 경영진이 먼저 직접 써 보며 감을 잡아야 한다는 주장으로 이어진다.
같은 호 안에서는 Anthropic의 OpenClaw 차단이 OpenAI에 유리하게 작용한다는 신호, 좋은 프롬프트만으로는 좋은 디자인이 나오지 않는다는 지적, AI 채택의 전후를 가르는 aha moment, 저자성 문제, 워크플로와 빌드 자료까지 함께 묶는다. 실무적으로는 경영진의 초기 도입 체크리스트와 내부 교육 소재로 읽을 수 있다.
Sam Altman이 우리의 미래를 통제할지도 모른다 – 그를 신뢰할 수 있을까?
- 플랫폼: geeknews | 분량: 16134 words | 좋아요: -
이 글은 2023년 OpenAI 이사회가 Sam Altman을 해임했던 내막을 따라가며, “AI의 미래를 통제할 사람을 신뢰할 수 있는가”라는 질문을 던진다. Ilya Sutskever가 보드 멤버들에게 비밀 메모와 Slack/HR 자료를 모았고, 그 안에는 Altman과 Greg Brockman을 운영자로 두기 어렵다는 판단이 쌓여 있었다.
서사는 해임 직후 Altman이 어떻게 공개전으로 반격했고, 투자자와 파트너가 왜 충격을 받았는지, 그리고 결국 복귀 과정이 왜 회사의 거버넌스 문제를 더 크게 드러냈는지를 보여준다. 단순한 인물평보다, 초지능 경쟁에서 기업 통제권과 공공성의 충돌이 어디까지 갈 수 있는지 보여주는 사례로 읽는 게 맞다.
2026년, 테크 커리어를 어떻게 유지해야 하는가?
- 플랫폼: geeknews | 분량: 2614 words | 좋아요: -
이 글은 대량 해고와 AI 투자 붐이 동시에 존재하는 모순된 상황에서, 테크 종사자가 무엇을 해야 하는지 묻는다. “미친 게 아니라 상황이 미친 것”이라는 전제 위에서, 업계가 개인에게 전가해 온 불안을 다시 구조적으로 보라고 권한다.
해결책은 시스템을 이해하고, 권력을 이해하고, 기술만 보지 말라는 쪽이다. 많은 일이 사실은 “tech”가 아니라 사회적·조직적 문제라는 점을 인정하고, 단기 불안에 끌려가기보다 장기 계획을 세우라고 조언한다.
전체적으로는 도구 스킬보다 시장 구조를 읽는 능력이 중요하다는 메시지다. 7번 글은 커리어 생존 가이드라기보다, 산업의 레버가 어디로 움직였는지 보는 프레임에 가깝다.
바이브 코딩 숭배는 미쳐있다
- 플랫폼: geeknews | 분량: 948 words | 좋아요: -
이 글은 vibe coding을 거의 종교처럼 숭배하는 분위기를 비판한다. 저자는 “bad software is a choice you make”라는 문장으로 시작해, 사람이 개입하지 않는 순수 vibe coding은 신화에 가깝다고 본다.
핵심 논지는 단순하다. 코드가 영어로 쓰였다고 해서 품질 관리가 사라지는 건 아니고, 오히려 누구나 읽을 수 있는 만큼 더 엄격한 검토가 필요하다는 것이다. 프로젝트는 늘 기술부채와 함께 태어나므로, AI가 썼다는 이유로 문제를 덮어두면 안 된다.
16번 글이 지적한 바를 더 직설적으로 말한 버전이다. 에이전트나 모델에 책임을 떠넘기지 말고, 인간이 리뷰와 판단을 끝까지 가져가야 한다는 메시지다.
프랑스, 미국에 보관 중이던 마지막 금 회수
- 플랫폼: geeknews | 분량: 429 words | 좋아요: -
이 항목은 원문이 짧아서 세부 설명보다 제목이 말하는 정책 신호가 핵심이다. 프랑스가 미국에 맡겨 두었던 마지막 금을 회수했다는 이야기는, 단순한 금거래보다 보관 주권과 자산 통제의 문제로 읽힌다.
실무적으로는 지정학 불안과 준비자산 리스크를 줄이려는 움직임으로 해석할 수 있다. 같은 맥락의 안전자산 뉴스라기보다, “자산을 누구 손에 둘 것인가”에 대한 결정이다.
A whole civilization might die tonight
- 플랫폼: hackernews | 분량: 1314 words | 좋아요: -
이 기사에서는 트럼프가 이란에 대한 공격을 경고하며 “whole civilization” 표현까지 동원한 뒤, 결국 two-week ceasefire를 발표한 흐름을 다룬다. 파키스탄의 중재가 마지막 순간에 개입했고, 미국의 자가 설정 시한과 공습 위협이 일단 멈췄다.
동시에 B-52가 출격할 정도로 긴장이 높았고, 국제법상 전쟁범죄 논란도 제기됐다. 핵심은 위협과 협상이 거의 실시간으로 뒤바뀌는 상황이었고, Strait of Hormuz와 중동 에너지 흐름이 배경에 깔려 있다는 점이다.
35번의 Guardian 기사와 같은 사건을 다른 각도에서 본다. 둘 다 헤드라인은 휴전이지만, 실제로는 매우 불안정한 조건부 정지에 가깝다.
US and Iran agree to provisional ceasefire
- 플랫폼: hackernews | 분량: 757 words | 좋아요: -
가디언은 미국과 이란이 파키스탄 중재로 2주 조건부 휴전에 합의했다고 보도한다. 트럼프가 설정한 폭격 시한 직전에 협상이 성사됐고, 그는 Strait of Hormuz의 COMPLETE, IMMEDIATE, and SAFE OPENING을 전제 조건으로 내세웠다.
기사에는 B-52 출격, 이란의 대응, 이스라엘의 동조 가능성, 그리고 에너지 수송로가 글로벌 공급의 5분의 1을 담당한다는 배경이 함께 나온다. 즉 휴전은 종료가 아니라, 갈등을 잠시 멈추고 협상을 더 하겠다는 매우 불안정한 정지선이다.
32번과 같은 사건을 정리한 다른 버전이어서, 두 글을 함께 보면 정치적 수사와 실제 외교 조건의 차이가 더 선명해진다.
Why IPv6 is the only way forward
- 플랫폼: hackernews | 분량: 497 words | 좋아요: -
이 글은 IPv4 주소 할당의 불균형을 표로 보여주며 IPv6 전환이 더 이상 선택이 아니라는 주장을 편다. 미국은 1,611,297,420개로 43.71%를 차지하는 반면, 인도는 41,624,148개로 1.13%에 불과하다.
저자는 인도와 중국이 NAT를 계층적으로 쌓아야 하는 현실을 지적하고, 이미 77%의 사람이 IPv6를 쓰는 상황이라면 더 과감한 전환이 가능하다고 본다. 요지는 “NAT 편의성”보다 장기 구조를 봐야 한다는 것이다.
이 글은 과장된 결론처럼 보일 수 있지만, 주소 고갈과 네트워크 미래를 직접적으로 연결한다는 점에서 의미가 있다.
Mimic Intent, Not Just Trajectories
- 플랫폼: Hugging Face | 분량: 10860 words
기존 imitation learning과 VLA 모델은 궤적을 잘 따라 하는 데는 강하지만, 환경이 바뀌거나 새로운 기술을 옮길 때 성능이 흔들린다. 이 논문은 그 이유를 “행동의 intent”를 이해하지 못한 채 raw trajectory를 복제하기 때문이라고 해석한다.
MINT는 행동을 intent와 execution으로 분리한다. multi-scale frequency-space tokenization을 통해 거친 토큰은 저주파의 전역 구조를, 미세한 토큰은 고주파의 세부 동작을 담게 하고, 그 위에서 next-scale autoregression으로 intent에서 execution으로 내려가는 생성 경로를 만든다. 여기에 demonstration에서 intent token만 주입해 one-shot transfer를 수행하는 방식이 더해진다.
실험은 여러 manipulation benchmark와 실제 로봇에서 수행됐고, state-of-the-art success rate, 더 나은 inference efficiency, disturbance에 대한 강한 일반화, effective one-shot transfer를 보고한다. abstract는 구체적인 벤치마크 이름이나 수치를 길게 나열하지 않지만, 이 논문의 기여점은 “trajectory imitation”을 “intent-aware policy generation”으로 바꿨다는 구조적 차이에 있다.
ClawArena: Benchmarking AI Agents in Evolving Information Environments
- 플랫폼: Hugging Face | 분량: 7570 words
이 논문은 AI 에이전트가 시간이 지나며 바뀌는 정보 환경 속에서 얼마나 정확한 믿음을 유지하는지 평가하려는 벤치마크를 제안한다. 기존 벤치마크는 단일 권위 소스와 정적인 정보만 가정하는 경우가 많아, 서로 충돌하는 증거·업데이트·사용자 선호가 섞인 실제 persistent assistant 환경을 충분히 다루지 못했다.
ClawArena는 hidden ground truth를 유지한 채, multi-channel session, workspace file, staged update를 통해 noisy하고 일부는 모순된 단서를 노출한다. 평가는 multi-source conflict reasoning, dynamic belief revision, implicit personalization의 세 축으로 조직되며, 14개 카테고리 질문 분류와 multi-choice/set-selection, shell-based executable check 두 형식을 함께 사용한다.
배포 버전에는 64개 시나리오, 8개 전문 도메인, 1,879개 evaluation round, 365개 dynamic update가 포함된다. 다섯 개 agent framework와 다섯 개 language model을 시험한 결과, 모델 능력의 영향 범위가 15.4%, framework 설계의 영향 범위가 9.2%로 나타났고, self-evolving skill framework가 모델 격차를 일부 메웠다. 코드도 GitHub에 공개됐다.
이 벤치마크의 포인트는 단순 QA 정확도가 아니라, 업데이트가 들어온 뒤 믿음을 얼마나 적절히 고쳐 쓰는지까지 본다는 데 있다. 그래서 검색·메모리·workspace grounding이 섞인 실제 에이전트 평가로 바로 확장될 수 있다.
FastDiSS: Few-step Match Many-step Diffusion Language Model on Sequence-to-Sequence Generation--Full Version
- 플랫폼: arXiv | 분량: 11567 words
이 논문은 continuous diffusion language model에서 few-step sampling이 왜 성능을 크게 떨어뜨리는지 다룬다. 핵심 원인은 self-conditioning이 inference noise와 맞지 않아 오차가 누적되는 점이며, late-stage training이 saturation되는 문제도 함께 지적한다.
저자들은 self-conditioning signal을 inference noise에 맞게 perturb하는 훈련 방식 SCP와, token-level noise-awareness로 saturation을 줄이는 MANS를 제안한다. 모델은 Transformer-base 6 encoder/6 decoder, diffusion step 2000으로 학습되며, IWSLT14, WMT14, WMT16, Gigaword, QQP, Wiki-Auto에 적용된다.
결과는 few-step에서 특히 강하다. QQP에서 FastDiSS는 NFE 1/2/5/20에 대해 BLEU 27.16/27.94/28.88/28.32, Wiki-Auto에서 38.20/40.23/40.90/40.81을 기록했다. IWSLT14 De-En에서는 SCP+MANS가 5-step 31.17 BLEU, 20-step 31.66 BLEU로 gap을 0.49까지 줄였고, baseline의 1.80보다 훨씬 작았다.
의의는 few-step diffusion이 실제 배포 가능한 수준으로 가까워졌다는 점이다. 저자들은 FastDiSS가 DINOISER·Difformer보다 4배 빠르고, DiffuSeq·SeqDiffuSeq 계열 long-trajectory 방법보다는 최대 400배 빠르다고 보고했다.
When Do We Need LLMs? A Diagnostic for Language-Driven Bandits
- 플랫폼: arXiv | 분량: 11238 words
이 논문은 텍스트와 수치 정보가 섞인 contextual multi-armed bandit에서 LLM을 언제 써야 하는지를 묻는다. 저자들은 LLM을 항상 decision loop에 넣는 방식이 비싸고, uncertainty estimation도 어렵다는 점을 문제로 본다.
해결책으로 LLMP-UCB와 LLMP-Joint를 제안하고, embedding-based numerical bandit과 직접 비교한다. 실험은 synthetic movie recommendation 데이터와 Banking77, TREC Coarse/Fine 분류 데이터에서 진행됐고, LinUCB, Thompson, CGPUCB, ZeroShot, LLM-Bandit 같은 baseline도 함께 평가됐다.
핵심 결과는 “문장 정보가 있다고 해서 반드시 LLM이 유리한 것은 아니다”라는 점이다. synthetic 환경에서 LLMP-Joint는 fextract에서 2.6±0.6, fLLM에서 35.6±6.9의 cumulative regret로 강했지만, 선형 수치 환경 fnum_lin에서는 LinUCB가 36.6±9.4로 더 좋았다.
또한 Banking77처럼 클래스가 77개로 큰 문제에서는 numerical bandit이 embedding만 잘 잡아도 매우 경쟁적이었다. 반대로 non-linear reward가 강한 fnum_nonlin, nonlin1, nonlin2에서는 LLM 기반 방식이 우세했고, embedding 차원 2–16에서 768까지가 탐험-활용 균형을 직접 바꾼다는 점도 보여줬다.
SemLink: A Semantic-Aware Automated Test Oracle for Hyperlink Verification using Siamese Sentence-BERT
- 플랫폼: arXiv | 분량: 8596 words
이 논문은 링크가 살아 있는지뿐 아니라, 링크가 원래의 semantic promise를 지키는지도 검증해야 한다는 문제를 다룬다. HTTP 200인데 내용은 irrelevant한 “semantic drift”가 기존 crash oracle의 blind spot이라는 것이 핵심이다.
SemLink는 SBERT 기반 Siamese network로 source context와 target page content의 semantic coherence를 판별한다. anchor text만 보지 않고, DOM 주변 텍스트와 이미지 OCR/attribute까지 포함한 context extraction을 사용한다.
HWPPs dataset은 500개 웹사이트에서 수집한 60,000개 이상의 positive pair로 구성됐다. 실험에서 SemLink은 Recall 96.00%를 기록해 GPT-5.2 수준과 비슷했지만, 속도는 47.5배 빠르고 GPU 메모리 요구도 크게 낮았다.
효율 수치도 뚜렷하다. RTX 4090에서 SemLink은 30.87 links/sec, GPT-5.2는 0.65 links/sec 수준이었고, 100,000개 링크를 검사할 때는 약 54분이면 가능했다. source code는 extended journal version 공개를 예고했다.
What Models Know, How Well They Know It: Knowledge-Weighted Fine-Tuning for Learning When to Say "I Don't Know"
- 플랫폼: arXiv | 분량: 7131 words
이 논문은 LLM hallucination의 원인을 pre-training과 fine-tuning 사이의 knowledge misalignment로 본다. 기존 fine-tuning은 모델이 이미 알고 있는 것과 모르는 것을 구분하지 못해, 답할 수 없는 질문에도 그럴듯한 출력을 내게 만들었다.
해결책으로 instance-level knowledge score를 multi-sampled inference로 추정하고, 그 점수에 따라 learning signal을 조정하는 knowledge-weighted fine-tuning을 제안한다. 모델이 충분히 알지 못하는 경우에는 명시적으로 I don't know를 말하도록 유도하고, uncertainty를 평가하는 지표도 함께 만든다.
결과적으로 이 방식은 모델이 모르는 문제에서 불확실성을 드러내면서도, 답할 수 있는 문제에서는 정확도를 유지하게 했다. 또한 known/unknown을 정확히 구분할수록 전체 성능도 꾸준히 개선됐다.
의의는 단순히 더 많이 맞히는 모델이 아니라, 언제 대답하지 말아야 하는지도 학습시키는 방향을 제시한 데 있다. 코드 공개는 본문에서 확인되지 않았다.
Emergent social transmission of model-based representations without inference
- 플랫폼: arXiv | 분량: 5763 words
이 연구는 사람이나 에이전트가 타인의 고차원적 내적 상태를 추론하지 않아도, 사회적 학습만으로 모델 기반 표현을 획득할 수 있는지를 묻습니다. 저자들은 일반적으로 전제되는 mentalizing 비용을 낮춰 보고, 단순한 사회적 단서만으로도 환경에 대한 더 풍부한 표현이 전달될 수 있는지 강화학습 시뮬레이션으로 검증합니다.
방법은 비교적 단순합니다. 재구성 가능한 환경에서 보상을 탐색하는 naive agent가 혼자 학습하는 경우와 expert를 관찰하는 경우를 비교하고, 관찰된 행동을 바탕으로 행동 선택 또는 value representation을 휴리스틱하게 강화합니다. 핵심은 다른 개체의 믿음이나 의도를 추론하지 않고도, 사회적 단서가 학습 경험을 편향시켜 learner의 내부 표현을 expert 쪽으로 이동시킨다는 점입니다.
결과적으로 model-based learner가 사회적 노출의 이점을 가장 크게 얻었고, 학습 속도도 빨라졌으며 표현이 더 expert-like하게 수렴했습니다. 이 논문은 문화적 전이가 반드시 정교한 추론에 의존하지 않아도 된다는 점을 보여 주며, 사회적 학습과 문화 진화의 메커니즘을 더 낮은 계산 비용의 과정으로 재해석합니다.
기타 주목할 콘텐츠
밀라 요보비치의 GitHub 레포 공개
- 작성자: Yaechan Lee | 플랫폼: linkedin | 좋아요: 54
배우 밀라 요보비치가 GitHub에 레포를 올리고 오픈소스 실험과 비판을 환영한다고 밝힌 소식을 공유한다. 유명인의 오픈소스 참여 자체가 화제가 됐고, 프로젝트도 빠르게 주목받았다.
HyperCLOVA X SEED 8B Omni 사용기
- 작성자: Woojun Jung | 플랫폼: linkedin | 좋아요: 32
가짜연구소 12기 프로젝트에서 네이버클라우드 HyperCLOVA X SEED 8B Omni를 직접 써 본 후기다. 한국 기업 LLM의 성능과 쓰임새를 비교하는 맥락이다.
Entire은 코드가 왜 작성됐는지 추적한다
- 작성자: Toby Lee | 플랫폼: linkedin | 좋아요: 30
Entire은 코드 자체보다 코드가 왜 작성됐는지, 어떤 의도와 프롬프트에서 나왔는지를 추적하는 제품이라고 말한다. 코드 가치가 낮아질수록 의도 추적이 더 중요해진다는 관점이다.
슬롭 PR이 오픈소스 유지보수를 공격한다
- 작성자: Adrian Cole | 플랫폼: linkedin | 좋아요: 12
저품질 자동 PR이 오픈소스 유지보수자에게 사실상 DDoS가 되고 있다고 지적한다. 조건을 충족하지 않으면 PR을 닫아도 된다는 식의 강한 대응을 논의한다.
Sonam Pankaj가 뭔가 만들고 있다
- 작성자: Sigrid Jin (Jin Hyung Park) 🌈 | 플랫폼: linkedin | 좋아요: 4
친구 Sonam Pankaj가 무언가를 만들고 있다고 짧게 응원한다. 구체 정보는 없고 티저에 가깝다.
vibe coding 시대에는 intent만 남는다
- 작성자: Dohyun Jung | 플랫폼: linkedin | 좋아요: 0
코드, 테스트, 설정, 문서는 AI가 다시 만들 수 있으니 결국 남는 것은 왜 만들었는지라는 intent라고 말한다. 다만 intent도 처음부터 완전하지 않아서, AI 결과를 보며 목표를 재정의하게 된다고 본다.
배우 밀라 요보비치가 GitHub에 레포를 올렸다
- 작성자: and__yc | 플랫폼: threads | 좋아요: 155
밀라 요보비치가 GitHub에 레포를 올리고 인스타에서 직접 홍보하며, 오픈소스 실험과 비판도 환영한다고 밝힌 소식을 공유한다. 하루 만에 스타가 만 개 넘게 붙을 만큼 관심이 컸다.
오늘 읽을 크립토 헤드라인
- 작성자: heybeluga | 플랫폼: x | 좋아요: 458
비트코인, ETF inflow, Strategy, 시장 동학 등 오늘의 주요 크립토 뉴스를 헤드라인 형태로 모아 제공한다. 시장 뉴스 큐레이션 포스트다.
AI 챗봇에 가짜 질병을 물어봤더니… "실제 병입니다"라고 답했다
- 플랫폼: geeknews | 분량: 1693 words | 좋아요: -
이 글은 존재하지 않는 질병 bixonimania를 만들어 챗봇에 넣었더니, 여러 시스템이 그 가짜 질병을 진짜처럼 반복했다는 실험을 다룬다. 한 번 만든 허위 정보가 LLM의 출력과 연구 문헌에 동시에 스며들 수 있다는 점이 문제의 핵심이다.
더 큰 문제는 그 가짜 논문과 인용이 다른 연구자들의 작업에도 섞여 들어가면서, AI-generated reference를 기반으로 한 오염 가능성을 드러냈다는 점이다. 이 실험은 모델의 환각 문제보다, 데이터 공급망과 검증 체계가 얼마나 취약한지 보여준다.
실행 관점에서는 의료, 학술, 검색 시스템에서 출처 검증이 중요하다는 교훈으로 읽히며, 특히 생성형 모델을 참고문헌 자동화에 쓸 때 더 엄격한 필터가 필요하다.
교차 분석
오늘 수집된 흐름은 세 갈래가 서로 맞물린다. 첫째, 보안은 더 이상 별도 트랙이 아니라 에이전트 제품 설계의 첫 조건이 됐다. Claude Mythos·Project Glasswing·OpenClaw 포렌식·Swiss-Bench 계열 연구는 “성능이 높을수록 공개 전략과 검증 체계가 더 중요하다”는 점을 반복한다.
둘째, 코딩 에이전트와 연구 에이전트는 같은 방향으로 진화한다. RTK·Hook·Agent Skills·오케스트레이션 논의와 Memory Intelligence Agent·SkillX·Paper Espresso·ResearchEVO는 모두 모델을 더 똑똑하게 만들기보다, 메모리·검증·재사용 가능한 스킬·작업 분해를 강화하는 쪽으로 움직인다.
셋째, 디자인·비즈니스·조직 이슈도 결국 동일한 문제를 공유한다. Figma/Design.md 논쟁, StyleSeed, 광고/SEO 자동화, AI-native firm, 커리어·조직 재설계 담론은 “좋은 결과물은 프롬프트 한 줄이 아니라 시스템 문서, 품질 게이트, 사람의 판단 구조에서 나온다”는 사실을 다른 언어로 말한다.
Powered by skim