AI Weekly Picks(11주차)

7 minute read

Published:

AI Daily Picks(20260315)

  • OpenAI gpt-oss-safeguard · Ollama Blog
    • Ollama가 OpenAI 및 ROOST와 협력하여 안전성 분류 작업을 위한 20B/120B 파라미터 규모의 추론(Reasoning) 모델인 ‘gpt-oss-safeguard’를 Apache 2.0 라이선스로 공개함
    • 자체 정책 지침(Bring your own policy)을 해석하도록 설계되어 있어, 기존 LLM 입출력 필터링이나 콘텐츠 분류 등 다양한 신뢰 및 안전(Trust and Safety) 작업에 최소한의 엔지니어링으로 적용 가능함
    • 단순한 점수가 아닌 ‘의사결정에 대한 전체 추론 과정’을 제공하여 디버깅을 돕고, 시스템 목적 및 지연 시간에 따라 추론 노력(low, medium, high)을 조절할 수 있음
  • 에이전틱 커머스란? AI가 대신 쇼핑하는 시대, 이커머스 브랜드의 생존 전략 - Datarize
    • 고객이 의도와 조건만 설정하면 AI 에이전트가 탐색부터 결제까지 전 과정을 대행하는 ‘에이전틱 커머스(제로 클릭 커머스)’ 시대가 다가오고 있음
    • 앞으로 검색 최적화 트렌드는 기존의 키워드 중심 SEO에서 벗어나 질문에 대한 답변(AEO) 및 생성형 엔진 최적화(GEO) 방향으로 진화하게 될 것임
    • AI 에이전트에게 지속적으로 선택받기 위해서는 퀄리티 높은 상품 데이터뿐만 아니라, 고객과의 장기적 관계를 구축하는 ‘데이터 기반 CRM’ 역량과 브랜드 신뢰도가 무엇보다 중요함
  • SGLang Destroys vLLM: 3x Faster + 40% Cheaper (2025 H800 Benchmarks) : LLM Practical Experience Hub
    • SGLang는 기존 vLLM 대비 3배 빠른 추론(Inference) 속도와 40%의 GPU 비용 절감을 달성한 차세대 대형 언어 모델 추론 아키텍처임
    • 연산 중심의 Prefill 단계와 메모리 중심의 Decode 단계를 분리(Disaggregated Inference)하여, 각 단계의 병목 현상을 해소하고 자원 활용 효율을 극대화함
    • 대규모 KV 캐시 전송으로 인한 지연 시간을 해결하기 위해 Mooncake 엔진 기반의 RDMA(Remote Direct Memory Access) 통신 기술과 상태 머신 스케줄링을 적극 도입함
  • Inference stacks compared: vLLM, TGI, TensorRT-LLM, llama.cpp, and SGLang : Maniac
    • 다양한 LLM 추론 스택(vLLM, TGI, TensorRT-LLM, llama.cpp, SGLang)을 목표 지연 시간(Latency) 및 운영 환경에 맞춰 선택하기 위한 가이드를 제공함
    • vLLM/TGI는 생태계 호환성과 처리량(Throughput)이 중요할 때, TensorRT-LLM은 최고 수준의 성능 최적화가 필요할 때, llama.cpp는 경량화/엣지 배포에, SGLang는 복잡한 프롬프트나 에이전틱 시스템 처리에 강점을 보임
    • 성공적인 프로덕션 도입을 위해서는 오프라인 처리량뿐 아니라 실제 동시성 하에서의 p95 응답 지연 시간, 긴 컨텍스트에서의 메모리 동작, 그리고 장애 대응(Observability) 역량을 전반적으로 평가해야 함
  • NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models - 논문 리뷰
    • 디코더 전용(Decoder-only) 대형 언어 모델(LLM)을 텍스트 임베딩 모델로 최적화하여 기존 양방향(BERT, T5) 모델들의 성능을 뛰어넘는 ‘NV-Embed’ 모델을 제안함
    • 평균 풀링(Mean pooling)이나 토큰 임베딩 대신 ‘잠재 주의(Latent attention)’ 레이어를 도입하여 시퀀스 내 중요 토큰 정보를 잃지 않고 더 풍부한 표현력을 가진 시퀀스 임베딩을 생성함
    • 인배치(In-batch) 네거티브 샘플링을 활용한 검색 중심의 1단계 대조적 훈련과, 네거티브 샘플 없이 인스트럭션 튜닝(Instruction-Tuning) 기반으로 비검색 작업(분류, 클러스터링 등)을 결합하는 2단계 훈련 방식을 통해 범용적인 임베딩 성능을 극대화함

AI Daily Picks(20260314)

  • X 쓰레드 정리: 심층 연구(Deep Research) 시스템 평가의 한계와 새로운 기준
    • 심층 연구 에이전트의 주요 평가 방식인 ‘쌍대 선호도(pairwise preferences)’는 시스템 순위 산정에는 유용하지만 세부 지표 평가에는 신뢰하기 어렵다는 점을 지적함
    • 이를 개선하기 위해 지표별 특화된 인간의 어노테이션을 설계하고, 점수 일치율뿐 아니라 불일치 원인을 분석할 것을 권장
    • AI 연구 평가 프레임워크는 단일 종합 점수 최적화가 아닌, 전문가들의 다양한 배경과 기대치를 반영하여 다각적으로 모델링되어야 함을 강조
    • 관련 논문(“Deep Research, Shallow Evaluation”)과 시스템 평가 루브릭을 자동 생성하는 파이프라인 코드(ai2-scholarqa-eval)가 함께 공개됨
  • X 쓰레드 정리: 10x 변호사와 법률 시장의 재편 (The 10x Lawyer)
    • AI 발전은 시니어 변호사가 여러 어소시에이트 변호사들의 업무를 대체하게 하여, 대형 로펌 수익의 핵심인 ‘피라미드 팽창 모델’을 붕괴시킴
    • 이를 통해 생산성 병목이 해소되며 결국 개별 실무자의 ‘탁월한 판단력’이 시장의 핵심 경쟁 요소로 떠오름
    • 향후 법률 시장은 소수의 뛰어난 ‘10x 변호사’와 저비용으로 평준화된 ‘상품화된 AI 서비스’로 양극화(바벨 현상)될 것임
  • Modular Manifolds - Thinking Machines Lab
    • 신경망 파라미터(예: 트랜스포머의 행렬)를 특정 기하학적 표면(다양체, Manifold)에 제약하여 최적화기를 설계하는 프레임워크를 제안함
    • 가중치 업데이트의 최대 한계치를 제어하는 스펙트럼 정규화(Spectral Norm)와 특이값을 1로 유지하는 스티펠(Stiefel) 다양체를 결합하여 ‘Manifold Muon’ 최적화 알고리즘을 도출함
    • 이러한 제약을 전체 네트워크로 확장하는 ‘모듈형 다양체(Modular Manifolds)’ 추상화를 통해, 립시츠(Lipschitz) 민감도를 추적하여 레이어 간의 학습률(Learning Rate)을 체계적으로 할당하는 방법을 제시함

AI Daily Picks(20260312)

  • TensorRT-LLM Speculative Decoding Boosts Inference Throughput by up to 3.6x - NVIDIA Technical Blog
    • TensorRT-LLM의 Speculative Decoding을 통해 Llama 3.1 405B/70B와 같은 대규모 모델의 추론 처리량(Throughput)을 최대 3.6배까지 향상
    • 작고 빠른 Draft 모델(예: Llama 3.2 1B)이 토큰을 미리 예측하고 크고 느린 Target 모델이 이를 검증하는 방식으로 지연 시간 단축
    • FP8 정밀도를 활용한 단일/다중 H200 GPU 환경에서의 Draft-Target 모델 엔진 빌드 및 Triton 서버 배포 가이트 제공
  • RTEB: The New Gold Standard for Evaluating Retrieval Models
    • 허깅페이스(Hugging Face)가 기존 평가 지표의 한계를 극복하기 위해 공개 및 비공개 데이터셋을 결합한 하이브리드 평가 프레임워크 RTEB를 출시했습니다.
    • 법률, 의료, 금융 등 다양한 산업 분야와 20개 언어를 지원하여, 실제 환경에서의 모델 일반화 능력을 보다 정확하게 측정할 수 있습니다.
    • 평가 모델이 특정 벤치마크에 과적합(Overfitting)되는 것을 방지하여 RAG 및 엔터프라이즈 검색 시스템의 신뢰성을 향상시킵니다.
  • Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings
    • 구글이 온디바이스 및 모바일 환경에 최적화된 새로운 오픈 텍스트 임베딩 모델인 EmbeddingGemma를 공개했습니다.
    • Gemma 3 아키텍처 기반의 308M 파라미터 모델로, 양자화 시 200MB 이하의 RAM으로도 작동하며 100개 이상의 언어 모델에서 MTEB 기준 동급 최고의 성능을 제공합니다.
    • Matryoshka Representation Learning(MRL)을 적용하여 출력 차원을 유연하게 조절할 수 있으며, 오프라인 환경에서도 안전한 RAG 파이프라인 구축을 지원합니다.
  • 월 150만 유저가 사용하는 LLM Inference 인프라 안정적으로 운영하기
    • 스캐터랩(이루다)이 월 150만 유저 규모의 LLM 서빙 인프라를 클라우드 기반 Kubernetes 환경에서 vLLM, SGLang 등의 오픈소스 엔진으로 컨테이너화하여 운영하는 경험을 공유합니다.
    • GPU Capacity 확보를 위해 Multi-Region 클러스터를 도입하고, Terraform으로 인프라를 코드화하며, Istio Multicluster로 서비스 디스커버리 및 부하분산 문제를 해결했습니다.
    • Karmada를 활용한 멀티 클러스터 단일 Control Plane 구축과 Blob Storage/ACR을 이용한 멀티 리전 스토리지 관리 전략을 소개합니다.

AI Daily Picks(20260311)