AI Weekly Picks(11주차)

7 minute read

Published: March 11, 2026

AI Daily Picks(20260315)

OpenAI gpt-oss-safeguard · Ollama Blog
- Ollama가 OpenAI 및 ROOST와 협력하여 안전성 분류 작업을 위한 20B/120B 파라미터 규모의 추론(Reasoning) 모델인 ‘gpt-oss-safeguard’를 Apache 2.0 라이선스로 공개함
- 자체 정책 지침(Bring your own policy)을 해석하도록 설계되어 있어, 기존 LLM 입출력 필터링이나 콘텐츠 분류 등 다양한 신뢰 및 안전(Trust and Safety) 작업에 최소한의 엔지니어링으로 적용 가능함
- 단순한 점수가 아닌 ‘의사결정에 대한 전체 추론 과정’을 제공하여 디버깅을 돕고, 시스템 목적 및 지연 시간에 따라 추론 노력(low, medium, high)을 조절할 수 있음
에이전틱 커머스란? AI가 대신 쇼핑하는 시대, 이커머스 브랜드의 생존 전략 - Datarize
- 고객이 의도와 조건만 설정하면 AI 에이전트가 탐색부터 결제까지 전 과정을 대행하는 ‘에이전틱 커머스(제로 클릭 커머스)’ 시대가 다가오고 있음
- 앞으로 검색 최적화 트렌드는 기존의 키워드 중심 SEO에서 벗어나 질문에 대한 답변(AEO) 및 생성형 엔진 최적화(GEO) 방향으로 진화하게 될 것임
- AI 에이전트에게 지속적으로 선택받기 위해서는 퀄리티 높은 상품 데이터뿐만 아니라, 고객과의 장기적 관계를 구축하는 ‘데이터 기반 CRM’ 역량과 브랜드 신뢰도가 무엇보다 중요함
SGLang Destroys vLLM: 3x Faster + 40% Cheaper (2025 H800 Benchmarks) : LLM Practical Experience Hub
- SGLang는 기존 vLLM 대비 3배 빠른 추론(Inference) 속도와 40%의 GPU 비용 절감을 달성한 차세대 대형 언어 모델 추론 아키텍처임
- 연산 중심의 Prefill 단계와 메모리 중심의 Decode 단계를 분리(Disaggregated Inference)하여, 각 단계의 병목 현상을 해소하고 자원 활용 효율을 극대화함
- 대규모 KV 캐시 전송으로 인한 지연 시간을 해결하기 위해 Mooncake 엔진 기반의 RDMA(Remote Direct Memory Access) 통신 기술과 상태 머신 스케줄링을 적극 도입함
Inference stacks compared: vLLM, TGI, TensorRT-LLM, llama.cpp, and SGLang : Maniac
- 다양한 LLM 추론 스택(vLLM, TGI, TensorRT-LLM, llama.cpp, SGLang)을 목표 지연 시간(Latency) 및 운영 환경에 맞춰 선택하기 위한 가이드를 제공함
- vLLM/TGI는 생태계 호환성과 처리량(Throughput)이 중요할 때, TensorRT-LLM은 최고 수준의 성능 최적화가 필요할 때, llama.cpp는 경량화/엣지 배포에, SGLang는 복잡한 프롬프트나 에이전틱 시스템 처리에 강점을 보임
- 성공적인 프로덕션 도입을 위해서는 오프라인 처리량뿐 아니라 실제 동시성 하에서의 p95 응답 지연 시간, 긴 컨텍스트에서의 메모리 동작, 그리고 장애 대응(Observability) 역량을 전반적으로 평가해야 함
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models - 논문 리뷰
- 디코더 전용(Decoder-only) 대형 언어 모델(LLM)을 텍스트 임베딩 모델로 최적화하여 기존 양방향(BERT, T5) 모델들의 성능을 뛰어넘는 ‘NV-Embed’ 모델을 제안함
- 평균 풀링(Mean pooling)이나 토큰 임베딩 대신 ‘잠재 주의(Latent attention)’ 레이어를 도입하여 시퀀스 내 중요 토큰 정보를 잃지 않고 더 풍부한 표현력을 가진 시퀀스 임베딩을 생성함
- 인배치(In-batch) 네거티브 샘플링을 활용한 검색 중심의 1단계 대조적 훈련과, 네거티브 샘플 없이 인스트럭션 튜닝(Instruction-Tuning) 기반으로 비검색 작업(분류, 클러스터링 등)을 결합하는 2단계 훈련 방식을 통해 범용적인 임베딩 성능을 극대화함

AI Daily Picks(20260314)

X 쓰레드 정리: 심층 연구(Deep Research) 시스템 평가의 한계와 새로운 기준
- 심층 연구 에이전트의 주요 평가 방식인 ‘쌍대 선호도(pairwise preferences)’는 시스템 순위 산정에는 유용하지만 세부 지표 평가에는 신뢰하기 어렵다는 점을 지적함
- 이를 개선하기 위해 지표별 특화된 인간의 어노테이션을 설계하고, 점수 일치율뿐 아니라 불일치 원인을 분석할 것을 권장
- AI 연구 평가 프레임워크는 단일 종합 점수 최적화가 아닌, 전문가들의 다양한 배경과 기대치를 반영하여 다각적으로 모델링되어야 함을 강조
- 관련 논문(“Deep Research, Shallow Evaluation”)과 시스템 평가 루브릭을 자동 생성하는 파이프라인 코드(ai2-scholarqa-eval)가 함께 공개됨
X 쓰레드 정리: 10x 변호사와 법률 시장의 재편 (The 10x Lawyer)
- AI 발전은 시니어 변호사가 여러 어소시에이트 변호사들의 업무를 대체하게 하여, 대형 로펌 수익의 핵심인 ‘피라미드 팽창 모델’을 붕괴시킴
- 이를 통해 생산성 병목이 해소되며 결국 개별 실무자의 ‘탁월한 판단력’이 시장의 핵심 경쟁 요소로 떠오름
- 향후 법률 시장은 소수의 뛰어난 ‘10x 변호사’와 저비용으로 평준화된 ‘상품화된 AI 서비스’로 양극화(바벨 현상)될 것임
Modular Manifolds - Thinking Machines Lab
- 신경망 파라미터(예: 트랜스포머의 행렬)를 특정 기하학적 표면(다양체, Manifold)에 제약하여 최적화기를 설계하는 프레임워크를 제안함
- 가중치 업데이트의 최대 한계치를 제어하는 스펙트럼 정규화(Spectral Norm)와 특이값을 1로 유지하는 스티펠(Stiefel) 다양체를 결합하여 ‘Manifold Muon’ 최적화 알고리즘을 도출함
- 이러한 제약을 전체 네트워크로 확장하는 ‘모듈형 다양체(Modular Manifolds)’ 추상화를 통해, 립시츠(Lipschitz) 민감도를 추적하여 레이어 간의 학습률(Learning Rate)을 체계적으로 할당하는 방법을 제시함

AI Daily Picks(20260312)

TensorRT-LLM Speculative Decoding Boosts Inference Throughput by up to 3.6x - NVIDIA Technical Blog
- TensorRT-LLM의 Speculative Decoding을 통해 Llama 3.1 405B/70B와 같은 대규모 모델의 추론 처리량(Throughput)을 최대 3.6배까지 향상
- 작고 빠른 Draft 모델(예: Llama 3.2 1B)이 토큰을 미리 예측하고 크고 느린 Target 모델이 이를 검증하는 방식으로 지연 시간 단축
- FP8 정밀도를 활용한 단일/다중 H200 GPU 환경에서의 Draft-Target 모델 엔진 빌드 및 Triton 서버 배포 가이트 제공
RTEB: The New Gold Standard for Evaluating Retrieval Models
- 허깅페이스(Hugging Face)가 기존 평가 지표의 한계를 극복하기 위해 공개 및 비공개 데이터셋을 결합한 하이브리드 평가 프레임워크 RTEB를 출시했습니다.
- 법률, 의료, 금융 등 다양한 산업 분야와 20개 언어를 지원하여, 실제 환경에서의 모델 일반화 능력을 보다 정확하게 측정할 수 있습니다.
- 평가 모델이 특정 벤치마크에 과적합(Overfitting)되는 것을 방지하여 RAG 및 엔터프라이즈 검색 시스템의 신뢰성을 향상시킵니다.
Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings
- 구글이 온디바이스 및 모바일 환경에 최적화된 새로운 오픈 텍스트 임베딩 모델인 EmbeddingGemma를 공개했습니다.
- Gemma 3 아키텍처 기반의 308M 파라미터 모델로, 양자화 시 200MB 이하의 RAM으로도 작동하며 100개 이상의 언어 모델에서 MTEB 기준 동급 최고의 성능을 제공합니다.
- Matryoshka Representation Learning(MRL)을 적용하여 출력 차원을 유연하게 조절할 수 있으며, 오프라인 환경에서도 안전한 RAG 파이프라인 구축을 지원합니다.
월 150만 유저가 사용하는 LLM Inference 인프라 안정적으로 운영하기
- 스캐터랩(이루다)이 월 150만 유저 규모의 LLM 서빙 인프라를 클라우드 기반 Kubernetes 환경에서 vLLM, SGLang 등의 오픈소스 엔진으로 컨테이너화하여 운영하는 경험을 공유합니다.
- GPU Capacity 확보를 위해 Multi-Region 클러스터를 도입하고, Terraform으로 인프라를 코드화하며, Istio Multicluster로 서비스 디스커버리 및 부하분산 문제를 해결했습니다.
- Karmada를 활용한 멀티 클러스터 단일 Control Plane 구축과 Blob Storage/ACR을 이용한 멀티 리전 스토리지 관리 전략을 소개합니다.

AI Daily Picks(20260311)

Top embedding models on the MTEB leaderboard : MTEB(Massive Text Embedding Benchmark) 리더보드를 바탕으로 목적에 맞는 임베딩 모델 선택 기준과 현재 상위권에 있는 주요 모델(Qwen3, BGE-M3 등)들의 특징을 소개하는 가이드
Introducing RTEB: A New Gold Standard for Evaluating Retrieval Models 2025 : An Exclusive Report - CerebalAiCerebral Ai - Corrected Header : 오픈소스 생태계와 RAG, 시맨틱 검색을 위한 새로운 기준점이 될 AI 검색 모델 평가를 위한 새로운 표준 벤치마크인 RTEB의 도입배경과 특징을 소개하는 글
Disaggregated Serving in TensorRT LLM — TensorRT LLM : LLM 추론의 Context(Prefill) 처리와 Generation(Decode) 생성을 서로 다른 GPU 풀로 분리(Disaggregated Serving)해 간섭을 줄이고 응답시간(TTFT, TPOT)을 최적화하는 TensorRT-LLM의 구조와 성능 분석을 담은 기술 블로그
AI Is a Five-Layer Cake : 컴퓨팅 환경의 근본적인 변화에 맞춰 컴퓨팅 스택을 5단계 계층(에너지, 칩, 인프라, 모델, 애플리케이션)으로 나누어 구조를 설명하는 NVIDIA의 포스트
Production LLM serving on Kubernetes with KServe and llm-d : KServe(Control Plane)와 llm-d(Data Plane)를 결합하여 Kubernetes 환경에서 vLLM 기반 대규모 언어 모델(LLM)을 분산 추론 및 프로덕션 수준으로 서빙하는 아키텍처와 패턴을 소개하는 포스트
Gemini Embedding 2: Our first natively multimodal embedding model : 텍스트, 이미지, 오디오, 비디오, 문서를 단일 공간으로 매핑하는 최초의 네이티브 멀티모달 임베딩 모델인 Gemini Embedding 2 소개
pplx-embed: State-of-the-Art Embedding Models for Web-Scale Retrieval : 실제 웹 스케일 검색을 위해 구축된 뛰어난 성능의 텍스트 임베딩 모델 pplx-embed-v1 및 pplx-embed-context-v1을 소개하는 글
Introducing Olmo Hybrid: Combining transformers and linear RNNs for superior scaling : 트랜스포머의 어텐션 메커니즘과 선형 RNN을 결합하여 컨텍스트 처리 속도와 프리트레이닝 데이터 효율성을 크게 향상시킨 7B 규모의 오픈 모델 ‘Olmo Hybrid’ 소개
Andrej Karpathy 가 전하는 ‘AutoResearch’ 프로젝트 결과 : 에이전트 무리를 활용해 약 700번의 자율 실험을 거쳐 실제 11%의 모델 성능 개선을 달성한 안드레 카파시의 프로젝트 성과 경험
AutoKernel 오픈소스 공개 : PyTorch 모델의 병목을 분석하고 Triton 코드를 자동 생성하여 수십 차례 벤치마크와 실험을 수행, GPU 커널을 자율 최적화하는 도구의 오픈소스 배포 소식
분산형 검색 엔진 Autosearcher 소개와 AI 에이전트의 검색 랭킹 최적화 : 에이전트들이 자율적인 실험과 P2P 교차 수분을 통해 분산형 검색 엔진의 랭킹 모델(ListNet 등)을 스스로 진화시키는 ‘Autosearcher’ 프로젝트 소개

Bluesky Facebook LinkedIn X

AI Weekly Picks(11주차)

AI Daily Picks(20260315)

AI Daily Picks(20260314)

AI Daily Picks(20260312)

AI Daily Picks(20260311)

H-MAS release notes (2026-06-07~06-13)

H-MAS 주간 작업 노트

2026년 6월 7일 - 6월 13일 (Iteration 26)

H-MAS release notes (2026-05-31~06-06)

H-MAS 주간 작업 노트

2026년 5월 31일 - 6월 6일 (Iteration 25)

AI Weekly Picks(23주차)

AI Daily Picks(20260602)

H-MAS release notes (2026-05-24~05-30)

H-MAS 주간 작업 노트

2026년 5월 24일 - 5월 30일 (Iteration 24)