AI Weekly Picks(16주차)
Published:
AI Daily Picks(20260415)
- KV-Cache Wins You Can See: From Prefix Caching in vLLM to Distributed Scheduling with llm-d
- LLM inference 환경에서 KV-Cache hit rate은 성능(지연 시간)과 비용(최대 10배 차이)에 직결되는 핵심 지표이며 대화형 AI나 에이전트 워크플로우같이 접두사(Prefix)가 긴 패턴에서 그 중요성이 더욱 부각됨.
- 단일 인스턴스의 vLLM 캐싱 효과는 분산 환경 로드밸런싱 과정에서 무력화되기 쉬우나, llm-d는 vLLM 포드들의 KVEvents를 통해 실시간 글로벌 캐시 뷰를 구축하여 문제를 해결함.
- 구축된 뷰를 바탕으로 한 Precise Prefix-Cache Aware 스케줄링으로 캐시 재사용을 극대화하여, 기존의 근사치 기반/부하 기반 스케줄러 대비 응답 속도(TTFT)를 최대 57배 높이고 시스템 처리량을 2배 이상 향상시킴.
- Accelerate Large-Scale LLM Inference and KV Cache Offload with CPU-GPU Memory Sharing
- NVIDIA Grace Blackwell 및 Grace Hopper 아키텍처는 NVLink-C2C를 통해 CPU와 GPU 간 통합 메모리 주소 공간을 제공하여 명시적인 데이터 전송 없이 메모리를 공유함.
- Llama 3 70B와 같은 대규모 LLM은 추론 시 GPU 메모리(예: GH200의 96GB) 한계를 넘어 OOM(Out-of-Memory) 에러를 발생시키기 쉬움.
- RAPIDS Memory Manager (RMM) 라이브러리를 활용해 관리 메모리(managed memory)를 할당하면 CPU 메모리(최대 480GB)와 GPU 메모리를 함께 사용하여 물리적 GPU 메모리 한계를 극복하고 대규모 모델 추론이 가능함.
AI Daily Picks(20260414)
- Improving Text Embeddings with Large Language Models
- 복잡한 파이프라인이나 수작업 레이블 데이터에 의존하지 않고, LLM을 활용해 합성 데이터(Synthetic Data)만으로 고품질 텍스트 임베딩 모델을 학습시키는 방법을 제안했습니다.
- 93개 언어 및 수십만 개의 임베딩 태스크를 아우르는 합성 데이터를 통해 기존 임베딩 모델들의 제약(언어 편중 및 태스크 제한 등)을 효과적으로 극복했습니다.
- 합성 데이터만을 사용하여 Mistral-7B 모델을 파인튜닝하는 방식으로 기존 모델에 필적하는 경쟁력을 입증했으며, 다른 레이블 데이터와 혼합 시 BEIR 및 MTEB 등 주요 벤치마크에서 SOTA(최고 성능)를 달성했습니다.
- MongoDB combines database and embedding models for simplified AI development - SiliconANGLE
- MongoDB는 AI 개발자들이 애플리케이션을 프로토타입에서 프로덕션으로 빠르게 전환할 수 있도록 자사의 핵심 데이터베이스와 작년에 인수한 Voyage AI의 임베딩 기술을 긴밀하게 통합했다고 발표했습니다.
- Voyage 4 계열 모델(voyage-4, voyage-4-large, voyage-4-lite, 모델 가중치가 공개된 로컬 테스트를 위한 voyage-4-nano)을 API를 통해 MongoDB Atlas와 온프레미스 커뮤니티 에디션에서 텍스트 및 여러 형식 간의 검색(voyage-multimodal-3.5)을 위해 지원합니다.
- 퍼블릭 프리뷰 상태로 출시된 ‘자동 임베딩’ 기능은 데이터 삽입이나 쿼리 시 자동으로 임베딩을 생성 및 저장하여, 개발자가 별도의 임베딩 파이프라인이나 벡터 DB를 관리할 필요성을 줄이고 운영 위험과 지연 시간을 낮출 수 있게 해줍니다.
- Fine-Tuning Embedding Models for Enterprise Retrieval: A Practical Guide with NVIDIA Nemotron Recipe - Retail News & More
- Cisco는 NVIDIA Nemotron RAG 파인튜닝 레시피를 활용해 수작업 데이터 레이블링 없이 생성된 합성 데이터(SDG)만으로 엔터프라이즈 도메인 특화 임베딩 모델(NV-EmbedQA)을 성공적으로 파인튜닝했습니다.
- 단일 GPU 인프라(Cisco AI Pods, NVIDIA H200) 환경에서 모델 학습이 진행되어 데이터 보안을 유지하고 외부 API 비용을 없앴으며, 전체 파이프라인을 단 통상 몇 시간부터 며칠 내 완료해 빠른 가치 검증을 도출해냈습니다.
- 베이스 임베딩 모델과 비교해 주요 검색 지표(NDCG@1, Recall@10 등) 전반에서 눈에 띄는 성능 개선을 달성했으며, 특히 특정 도메인 질의에서의 검색 품질이 상당히 향상되었음을 확인했습니다.
- The state of agentic AI in 2026
- 에이전틱 AI(Agentic AI)는 단순한 실험 단계를 넘어 프로덕션 도입의 최우선 순위로 자리잡았으며, 조사 대상 기업의 100%가 2026년에 활용 수준을 확대할 계획이고 74%는 이를 전략적 필수 과제로 인식하고 있습니다.
- 기업 리더들은 플랫폼 평가 시 즉각적인 ROI보다는 보안과 거버넌스(34%), 기존 시스템과의 통합(30%), 안정성 및 평가 지표(24%) 등 신뢰성 및 운영 준비도를 최우선으로 고려합니다.
- 데이터 부족과 전문 인력 한계 같은 확장성의 장벽이 존재하지만 절반 이상의 조직(57%)이 시스템 종속성이 없는 오픈 소스 기반 도구 확장을 선호하며, 시간 절약 및 운영 비용 절감 등 실질적인 혜택을 전사적으로 경험하고 있습니다.
[Linux lays down the law on AI-generated code, says yes to Copilot, no to AI slop, and humans take the fall for mistakes - after months of fierce debate, Torvalds and maintainers come to an agreement Tom’s Hardware](https://www.tomshardware.com/software/linux/linux-lays-down-the-law-on-ai-generated-code-yes-to-copilot-no-to-ai-slop-and-humans-take-the-fall-for-mistakes-after-months-of-fierce-debate-torvalds-and-maintainers-come-to-an-agreement) - 리눅스 커널 커뮤니티가 AI 생성 코드에 대한 공식 정책을 수립하여 AI 도구 활용을 공식적으로 허용하되 엄격한 투명성과 책임 규정을 적용하기로 합의했습니다.
- 제출자는 의무적으로 “Assisted-by” 태그를 사용하여 AI의 코드 지원 내역을 명시해야 하며, 코드의 최종 품질이나 잠재적인 버그 문제에 대한 모든 책임은 코드를 제출한 인간 개발자에게 있습니다.
- AI 코드를 전면 금지하는 다른 오픈소스 프로젝트와 달리, “AI는 일종의 도구일 뿐”이라는 기조 하에 도구 통제보다는 제출자의 책임 소재 확립에 집중하는 실용적인 정책을 도입했습니다.
AI Daily Picks(20260413)
- Google’s TurboQuant: 6x Less Memory for LLM Inference (2026) - Nerd Level Tech
- 구글 연구진이 발표한 TurboQuant 알고리즘은 LLM의 주요 메모리 병목인 KV 캐시를 정확도 손실 없이 3비트로 압축하여 메모리 사용량을 최대 6배 감소시킴.
- 무작위 직교 회전(Random Orthogonal Rotation)으로 좌표 구성을 균일하게 한 후 Lloyd-Max 최적 양자화를 적용하며, QJL을 통해 에러를 교정하는 과정으로 데이터나 아키텍처 의존성 없이 압축 효율성을 달성.
- 평가 벤치마크(LongBench 등)에서 기준점과 동등한 점수를 기록하였으며, H100 환경에서 어텐션 로짓 계산 속도를 8배 향상시켜 저렴한 환경에서 긴 컨텍스트 모델 구동을 가능하게 함.
- Microsoft Open-Sources Industry-Leading Embedding Model
- 마이크로소프트가 검색 품질 향상 및 차세대 AI 에이전트를 위한 강력한 다국어 텍스트 임베딩 모델 ‘Harrier(Harrier-OSS-v1)’ 제품군을 오픈소스로 공개함.
- 100개 이상의 언어 지원과 32k 토큰의 긴 컨텍스트 윈도우 처리가 가능하며, Multilingual MTEB v2 벤치마크 평가에서 기존 주요 모델(Gemini Embedding 2 등)을 크게 능가하는 SOTA 성능을 기록함.
- GPT-5를 활용한 합성 데이터 생성과 20억 쌍의 사전 학습을 거쳤으며, 최고 성능의 27B 모델로부터 소형 모델(0.6B, 270M)로 지식 증류(Knowledge Distillation)를 진행해 매개변수 대비 극대화된 효율성을 확보함.