AI Weekly Picks(16주차)

4 minute read

Published: April 13, 2026

AI Daily Picks(20260415)

KV-Cache Wins You Can See: From Prefix Caching in vLLM to Distributed Scheduling with llm-d
- LLM inference 환경에서 KV-Cache hit rate은 성능(지연 시간)과 비용(최대 10배 차이)에 직결되는 핵심 지표이며 대화형 AI나 에이전트 워크플로우같이 접두사(Prefix)가 긴 패턴에서 그 중요성이 더욱 부각됨.
- 단일 인스턴스의 vLLM 캐싱 효과는 분산 환경 로드밸런싱 과정에서 무력화되기 쉬우나, llm-d는 vLLM 포드들의 KVEvents를 통해 실시간 글로벌 캐시 뷰를 구축하여 문제를 해결함.
- 구축된 뷰를 바탕으로 한 Precise Prefix-Cache Aware 스케줄링으로 캐시 재사용을 극대화하여, 기존의 근사치 기반/부하 기반 스케줄러 대비 응답 속도(TTFT)를 최대 57배 높이고 시스템 처리량을 2배 이상 향상시킴.
Accelerate Large-Scale LLM Inference and KV Cache Offload with CPU-GPU Memory Sharing
- NVIDIA Grace Blackwell 및 Grace Hopper 아키텍처는 NVLink-C2C를 통해 CPU와 GPU 간 통합 메모리 주소 공간을 제공하여 명시적인 데이터 전송 없이 메모리를 공유함.
- Llama 3 70B와 같은 대규모 LLM은 추론 시 GPU 메모리(예: GH200의 96GB) 한계를 넘어 OOM(Out-of-Memory) 에러를 발생시키기 쉬움.
- RAPIDS Memory Manager (RMM) 라이브러리를 활용해 관리 메모리(managed memory)를 할당하면 CPU 메모리(최대 480GB)와 GPU 메모리를 함께 사용하여 물리적 GPU 메모리 한계를 극복하고 대규모 모델 추론이 가능함.

AI Daily Picks(20260414)

Improving Text Embeddings with Large Language Models
- 복잡한 파이프라인이나 수작업 레이블 데이터에 의존하지 않고, LLM을 활용해 합성 데이터(Synthetic Data)만으로 고품질 텍스트 임베딩 모델을 학습시키는 방법을 제안했습니다.
- 93개 언어 및 수십만 개의 임베딩 태스크를 아우르는 합성 데이터를 통해 기존 임베딩 모델들의 제약(언어 편중 및 태스크 제한 등)을 효과적으로 극복했습니다.
- 합성 데이터만을 사용하여 Mistral-7B 모델을 파인튜닝하는 방식으로 기존 모델에 필적하는 경쟁력을 입증했으며, 다른 레이블 데이터와 혼합 시 BEIR 및 MTEB 등 주요 벤치마크에서 SOTA(최고 성능)를 달성했습니다.
MongoDB combines database and embedding models for simplified AI development - SiliconANGLE
- MongoDB는 AI 개발자들이 애플리케이션을 프로토타입에서 프로덕션으로 빠르게 전환할 수 있도록 자사의 핵심 데이터베이스와 작년에 인수한 Voyage AI의 임베딩 기술을 긴밀하게 통합했다고 발표했습니다.
- Voyage 4 계열 모델(voyage-4, voyage-4-large, voyage-4-lite, 모델 가중치가 공개된 로컬 테스트를 위한 voyage-4-nano)을 API를 통해 MongoDB Atlas와 온프레미스 커뮤니티 에디션에서 텍스트 및 여러 형식 간의 검색(voyage-multimodal-3.5)을 위해 지원합니다.
- 퍼블릭 프리뷰 상태로 출시된 ‘자동 임베딩’ 기능은 데이터 삽입이나 쿼리 시 자동으로 임베딩을 생성 및 저장하여, 개발자가 별도의 임베딩 파이프라인이나 벡터 DB를 관리할 필요성을 줄이고 운영 위험과 지연 시간을 낮출 수 있게 해줍니다.
Fine-Tuning Embedding Models for Enterprise Retrieval: A Practical Guide with NVIDIA Nemotron Recipe - Retail News & More
- Cisco는 NVIDIA Nemotron RAG 파인튜닝 레시피를 활용해 수작업 데이터 레이블링 없이 생성된 합성 데이터(SDG)만으로 엔터프라이즈 도메인 특화 임베딩 모델(NV-EmbedQA)을 성공적으로 파인튜닝했습니다.
- 단일 GPU 인프라(Cisco AI Pods, NVIDIA H200) 환경에서 모델 학습이 진행되어 데이터 보안을 유지하고 외부 API 비용을 없앴으며, 전체 파이프라인을 단 통상 몇 시간부터 며칠 내 완료해 빠른 가치 검증을 도출해냈습니다.
- 베이스 임베딩 모델과 비교해 주요 검색 지표(NDCG@1, Recall@10 등) 전반에서 눈에 띄는 성능 개선을 달성했으며, 특히 특정 도메인 질의에서의 검색 품질이 상당히 향상되었음을 확인했습니다.
The state of agentic AI in 2026
- 에이전틱 AI(Agentic AI)는 단순한 실험 단계를 넘어 프로덕션 도입의 최우선 순위로 자리잡았으며, 조사 대상 기업의 100%가 2026년에 활용 수준을 확대할 계획이고 74%는 이를 전략적 필수 과제로 인식하고 있습니다.
- 기업 리더들은 플랫폼 평가 시 즉각적인 ROI보다는 보안과 거버넌스(34%), 기존 시스템과의 통합(30%), 안정성 및 평가 지표(24%) 등 신뢰성 및 운영 준비도를 최우선으로 고려합니다.
- 데이터 부족과 전문 인력 한계 같은 확장성의 장벽이 존재하지만 절반 이상의 조직(57%)이 시스템 종속성이 없는 오픈 소스 기반 도구 확장을 선호하며, 시간 절약 및 운영 비용 절감 등 실질적인 혜택을 전사적으로 경험하고 있습니다.

[Linux lays down the law on AI-generated code, says yes to Copilot, no to AI slop, and humans take the fall for mistakes - after months of fierce debate, Torvalds and maintainers come to an agreement

Tom’s Hardware](https://www.tomshardware.com/software/linux/linux-lays-down-the-law-on-ai-generated-code-yes-to-copilot-no-to-ai-slop-and-humans-take-the-fall-for-mistakes-after-months-of-fierce-debate-torvalds-and-maintainers-come-to-an-agreement)

리눅스 커널 커뮤니티가 AI 생성 코드에 대한 공식 정책을 수립하여 AI 도구 활용을 공식적으로 허용하되 엄격한 투명성과 책임 규정을 적용하기로 합의했습니다.
제출자는 의무적으로 “Assisted-by” 태그를 사용하여 AI의 코드 지원 내역을 명시해야 하며, 코드의 최종 품질이나 잠재적인 버그 문제에 대한 모든 책임은 코드를 제출한 인간 개발자에게 있습니다.
AI 코드를 전면 금지하는 다른 오픈소스 프로젝트와 달리, “AI는 일종의 도구일 뿐”이라는 기조 하에 도구 통제보다는 제출자의 책임 소재 확립에 집중하는 실용적인 정책을 도입했습니다.

AI Daily Picks(20260413)

Google’s TurboQuant: 6x Less Memory for LLM Inference (2026) - Nerd Level Tech
- 구글 연구진이 발표한 TurboQuant 알고리즘은 LLM의 주요 메모리 병목인 KV 캐시를 정확도 손실 없이 3비트로 압축하여 메모리 사용량을 최대 6배 감소시킴.
- 무작위 직교 회전(Random Orthogonal Rotation)으로 좌표 구성을 균일하게 한 후 Lloyd-Max 최적 양자화를 적용하며, QJL을 통해 에러를 교정하는 과정으로 데이터나 아키텍처 의존성 없이 압축 효율성을 달성.
- 평가 벤치마크(LongBench 등)에서 기준점과 동등한 점수를 기록하였으며, H100 환경에서 어텐션 로짓 계산 속도를 8배 향상시켜 저렴한 환경에서 긴 컨텍스트 모델 구동을 가능하게 함.
Microsoft Open-Sources Industry-Leading Embedding Model
- 마이크로소프트가 검색 품질 향상 및 차세대 AI 에이전트를 위한 강력한 다국어 텍스트 임베딩 모델 ‘Harrier(Harrier-OSS-v1)’ 제품군을 오픈소스로 공개함.
- 100개 이상의 언어 지원과 32k 토큰의 긴 컨텍스트 윈도우 처리가 가능하며, Multilingual MTEB v2 벤치마크 평가에서 기존 주요 모델(Gemini Embedding 2 등)을 크게 능가하는 SOTA 성능을 기록함.
- GPT-5를 활용한 합성 데이터 생성과 20억 쌍의 사전 학습을 거쳤으며, 최고 성능의 27B 모델로부터 소형 모델(0.6B, 270M)로 지식 증류(Knowledge Distillation)를 진행해 매개변수 대비 극대화된 효율성을 확보함.

Bluesky Facebook LinkedIn X

AI Weekly Picks(16주차)

AI Daily Picks(20260415)

AI Daily Picks(20260414)

AI Daily Picks(20260413)

H-MAS release notes (2026-07-05~07-11)

H-MAS Iteration 30 작업 노트

H-MAS v0.7.0 release

H-MAS v0.7.0 Feature Preview

H-MAS release notes (2026-06-28~07-04)

H-MAS Iteration 29 작업 노트

H-MAS release notes (2026-06-21~06-27)

H-MAS Iteration 28 작업 노트