전체 글 60

GraphQLite: SQLite에 그래프 데이터베이스 기능을 더하다

블로그를 시작한지 얼마되지 않은 것 같은데 벌써 60번째 글을 쓰게되었습니다. 앞으로도 열심히 글을 작성하도록 하겠습니다! 이번 주제는 Geek News에 올라온 흥미로운 도구에 대한 내용입니다. SQLite를 사용하면서 그래프 데이터를 다루고 싶다면? GraphQLite가 그 해답이 될 수 있습니다. 이 오픈소스 프로젝트는 SQLite에 그래프 데이터베이스 기능을 추가하는 확장 모듈로, Cypher 쿼리 언어를 사용해 노드와 관계를 표현할 수 있게 해줍니다. 왜 GraphQLite인가? 일반적으로 그래프 데이터베이스를 사용하려면 Neo4j 같은 별도의 서버를 구축해야 합니다. 하지만 GraphQLite는 SQLite의 단순함을 그대로 유지하면서 그래프 쿼리 기능을 제공합니다. 단일 파일 데이터베이스, ..

Engram: LLM에 '기억의 서랍'을 달아주다

들어가며: 언어 모델은 왜 비효율적일까? 여러분이 **"알렉산더 대왕"**이라는 단어를 처음 본다고 상상해보세요. 우리 뇌는 즉시 이 정보를 인식하고 관련 지식을 떠올립니다.하지만 현재의 대규모 언어 모델(LLM)은 이런 간단한 작업을 위해 여러 레이어의 복잡한 계산을 거쳐야 합니다.💡 비유: 전화번호부에서 번호를 찾는 대신, 매번 숫자를 하나씩 계산해서 맞춰보는 것과 같습니다. DeepSeek-AI의 최신 연구 Engram은 바로 이 문제를 해결합니다.논문 정보제목: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models기관: DeepSeek-AI & Peking University발표: 2025년..

AI/LLM 2026.01.15

Anthropic Sandbox Runtime (srt): AI 에이전트를 안전하게 실행하는 샌드박스 도구

메타의 Confucius Code Agent에 이어서 Anthropic이 공개한 Sandbox Runtime에 대해서 리뷰해보고자 합니다. Sandbox Runtime 은 컨테이너 없이도 OS 레벨에서 프로세스의 파일시스템과 네트워크 접근을 제한할 수 있는 경량 샌드박싱 도구입니다. Claude Code를 위해 개발되었으며, AI 에이전트를 더 안전하게 만들기 위한 연구 프리뷰로 오픈소스로 공개되었습니다. 왜 필요한가? AI 에이전트가 코드를 실행하거나 파일을 수정할 때, 우리는 다음과 같은 걱정을 하게 됩니다:민감한 SSH 키나 설정 파일에 접근하면 어쩌지?허가되지 않은 외부 서버로 데이터를 전송하면?시스템 파일을 실수로 삭제하거나 수정하면?Sandbox Runtime은 이러한 위험을 기본적으로 차단하..

AI/Agent 2026.01.13

대규모 코드베이스를 정복하는 AI 코딩 에이전트: Confucius Code Agent 깊이 파헤치기

이번에는 Meta와 Harvard가 공동으로 발표한 소프트웨어 엔지니어링 에이전트 논문에 대해 다루어 보고자 합니다.실제 프로덕션 환경에서 수백만 줄의 코드를 다루는 AI 에이전트를 만드는 것은 쉽지 않습니다. 작은 데모 프로젝트에서는 잘 작동하던 에이전트들이 실제 대규모 코드베이스에서는 맥을 못 추는 경우가 많죠. Confucius Code Agent(CCA)는 이러한 한계를 극복하기 위해 설계된 프레임워크입니다. 이 글에서는 CCA의 핵심 아이디어와 구현 전략을 살펴보고, 실제 코드 예제를 통해 어떻게 동작하는지 알아보겠습니다. 왜 기존 에이전트들은 실패했을까?연구진은 실제 소프트웨어 엔지니어링에서 AI 에이전트가 직면하는 두 가지 핵심 도전 과제를 정의했습니다:1. 장문맥 추론(Long-contex..

AI/LLM 2026.01.13

NVIDIA Nemotron Speech Streaming ASR

실시간 음성 인식 기술은 음성 비서, 실시간 자막, 대화형 AI 시스템 등 다양한 분야에서 필수적인 기술로 자리잡았습니다. 그러나 전통적인 ASR(Automatic Speech Recognition) 시스템은 속도와 정확도 사이의 트레이드오프, 높은 계산 비용, 그리고 동시 처리 시 발생하는 지연 증가 등의 문제를 안고 있었습니다. NVIDIA는 이러한 문제를 해결하기 위해 Nemotron Speech Streaming ASR 모델을 개발했습니다. 이 모델은 혁신적인 캐시 인식(cache-aware) 아키텍처를 통해 기존 시스템 대비 최대 3배 향상된 효율성을 달성하면서도 높은 정확도를 유지합니다. 본 글에서는 Nemotron Speech Streaming 모델의 이론적 배경, 아키텍처, 그리고 실제 사..

AI/LLM 2026.01.12

Effective harnesses for long-running agents

이번에 Anthropic에서 흥미로운 주제로 블로그 글을 올렸는데요. 아마 LLM을 채팅 형식의 솔루션으로 개발하시는 분들이라면 한번 쯤 고민해보셨던 내용이 아닐까 싶습니다. AI 에이전트가 점점 더 복잡한 작업을 수행하게 되면서, 하루나 이틀이 걸리는 긴 프로젝트를 완수해야 하는 상황이 늘고 있습니다. 그런데 여기에는 큰 문제가 하나 있습니다. 에이전트는 개별 세션으로 작동하며, 각 새로운 세션은 이전 세션의 기억이 전혀 없이 시작됩니다. 마치 교대 근무하는 엔지니어들이 인수인계를 전혀 받지 못한 채 일하는 것과 같습니다. Anthropic은 이 문제를 해결하기 위해 Claude Agent SDK에 적용할 수 있는 효과적인 방법을 개발했다고 합니다. 원문 : https://www.anthropic.co..

AI/LLM 2025.12.03

DeepShield: Fortifying Deepfake Video Detection

지난번에 이어서 이번에는 ICCV에 등재된 딥페이크 감지 관련 논문에 대해서 다루어 보고자 합니다. ICCV 2025에 발표된 DeepShield는 딥페이크 비디오 탐지의 두 가지 핵심 과제를 동시에 해결하는 프레임워크입니다:로컬 민감도(Local Sensitivity): 미세한 위조 흔적까지 포착글로벌 일반화(Global Generalization): 학습 시 보지 못한 새로운 딥페이크에도 강건이 글에서는 DeepShield의 핵심 아이디어와 구현 방법을 살펴보고, PyTorch로 직접 실습해보겠습니다.* 단, 해당 논문의 코드가 직접적으로 업로드되어 있지 않아서 논문 내용을 바탕으로 클로드와 함께 작성한 코드입니다. 문제 인식: 기존 딥페이크 탐지기의 한계 1. 일반화 능력 부족기존 탐지 모델..

AI 2025.12.01

Seeing Through Deepfakes: A Human-Inspired Framework for Multi-Face Detection

이번 ICCV에 흥미로운 딥페이크 감지 관련된 논문이 올라와서 리뷰를 해보고자 합니다. 얼마전 홍콩에서 실제로 벌어졌던 일인데사기범들이 CFO와 여러 직원들의 얼굴을 딥페이크로 만들어 화상 회의를 진행했고, 그 결과 2,500만 홍콩달러(약 42억원)를 편취하는 데 성공했습니다. 이 사건이 시사하는 것은 명확합니다. 이제 딥페이크는 단순히 한 사람의 얼굴만 바꾸는 게 아니라, 여러 사람이 등장하는 그룹 상황에서도 활용되고 있다는 것입니다. 하지만 기존의 딥페이크 탐지 기술은 대부분 단일 얼굴에만 초점을 맞췄기 때문에, 이런 복잡한 상황에서는 제대로 작동하지 않습니다. 연구팀은 매우 독특한 접근을 시도했습니다. 바로 "인간이 딥페이크를 어떻게 탐지하는가?"를 먼저 연구한 것입니다.인간 대상 실험을 통해, ..

AI 2025.11.25

이미지 핸들링 : 번호판 이미지 생성 총정리

이번 포스팅에서는 이미지 핸들링 수업에서 진행하였던 한국의 7가지 유형의 번호판을 생성하고 이를 YOLO 모델에 학습시키는 프로젝트에 대해서 다루어 보고자 합니다. 이 프로젝트에서는 7가지 타입의 번호판에 대해 각각 10,000장씩, 총 70,000장의 합성 이미지를 생성하고, YOLOv8 모델을 학습시켜 Ensemble 추론까지 구현했습니다. 번호판의 7가지 유형 1) LICENSE_PLATE_2007_520x110 (백색 1줄) 형식: 12가3456 용도: 자가용 승용차 크기: 520mm x 110mm가장 일반적인 백색 번호판입니다. 2자리 숫자 + 용도문자 + 4자리 숫자 형식입니다. 2) LICENSE_PLATE_2007_520x110_YELLOW (노란색 1줄)형식: 서울12바3456 용도:..

Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI

출처 : https://www.aui.io/resources/beyond-generative-ai/ Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI - AUIAUI Introducing Apollo-1: The Neuro-Symbolic Foundation Model for Task-Oriented Dialoguewww.aui.io3년 동안 AI 업계는 하나의 신화에 사로잡혀 있었습니다. "트랜스포머를 충분히 확장하면 범용 인공지능을 얻을 수 있다"는 믿음입니다. 하지만 지능은 그런 식으로 작동한 적이 없습니다. 새는 비행을 마스터했고, 돌고래는 소나를 진화시켰습니다. 각자는 자신만의 영역을 ..

AI/LLM 2025.11.12