전체 글 48

Effective harnesses for long-running agents

이번에 Anthropic에서 흥미로운 주제로 블로그 글을 올렸는데요. 아마 LLM을 채팅 형식의 솔루션으로 개발하시는 분들이라면 한번 쯤 고민해보셨던 내용이 아닐까 싶습니다. AI 에이전트가 점점 더 복잡한 작업을 수행하게 되면서, 하루나 이틀이 걸리는 긴 프로젝트를 완수해야 하는 상황이 늘고 있습니다. 그런데 여기에는 큰 문제가 하나 있습니다. 에이전트는 개별 세션으로 작동하며, 각 새로운 세션은 이전 세션의 기억이 전혀 없이 시작됩니다. 마치 교대 근무하는 엔지니어들이 인수인계를 전혀 받지 못한 채 일하는 것과 같습니다. Anthropic은 이 문제를 해결하기 위해 Claude Agent SDK에 적용할 수 있는 효과적인 방법을 개발했다고 합니다. 원문 : https://www.anthropic.co..

AI/LLM 2025.12.03

DeepShield: Fortifying Deepfake Video Detection

지난번에 이어서 이번에는 ICCV에 등재된 딥페이크 감지 관련 논문에 대해서 다루어 보고자 합니다. ICCV 2025에 발표된 DeepShield는 딥페이크 비디오 탐지의 두 가지 핵심 과제를 동시에 해결하는 프레임워크입니다:로컬 민감도(Local Sensitivity): 미세한 위조 흔적까지 포착글로벌 일반화(Global Generalization): 학습 시 보지 못한 새로운 딥페이크에도 강건이 글에서는 DeepShield의 핵심 아이디어와 구현 방법을 살펴보고, PyTorch로 직접 실습해보겠습니다.* 단, 해당 논문의 코드가 직접적으로 업로드되어 있지 않아서 논문 내용을 바탕으로 클로드와 함께 작성한 코드입니다. 문제 인식: 기존 딥페이크 탐지기의 한계 1. 일반화 능력 부족기존 탐지 모델..

AI 2025.12.01

Seeing Through Deepfakes: A Human-Inspired Framework for Multi-Face Detection

이번 ICCV에 흥미로운 딥페이크 감지 관련된 논문이 올라와서 리뷰를 해보고자 합니다. 얼마전 홍콩에서 실제로 벌어졌던 일인데사기범들이 CFO와 여러 직원들의 얼굴을 딥페이크로 만들어 화상 회의를 진행했고, 그 결과 2,500만 홍콩달러(약 42억원)를 편취하는 데 성공했습니다. 이 사건이 시사하는 것은 명확합니다. 이제 딥페이크는 단순히 한 사람의 얼굴만 바꾸는 게 아니라, 여러 사람이 등장하는 그룹 상황에서도 활용되고 있다는 것입니다. 하지만 기존의 딥페이크 탐지 기술은 대부분 단일 얼굴에만 초점을 맞췄기 때문에, 이런 복잡한 상황에서는 제대로 작동하지 않습니다. 연구팀은 매우 독특한 접근을 시도했습니다. 바로 "인간이 딥페이크를 어떻게 탐지하는가?"를 먼저 연구한 것입니다.인간 대상 실험을 통해, ..

AI 2025.11.25

이미지 핸들링 : 번호판 이미지 생성 총정리

이번 포스팅에서는 이미지 핸들링 수업에서 진행하였던 한국의 7가지 유형의 번호판을 생성하고 이를 YOLO 모델에 학습시키는 프로젝트에 대해서 다루어 보고자 합니다. 이 프로젝트에서는 7가지 타입의 번호판에 대해 각각 10,000장씩, 총 70,000장의 합성 이미지를 생성하고, YOLOv8 모델을 학습시켜 Ensemble 추론까지 구현했습니다. 번호판의 7가지 유형 1) LICENSE_PLATE_2007_520x110 (백색 1줄) 형식: 12가3456 용도: 자가용 승용차 크기: 520mm x 110mm가장 일반적인 백색 번호판입니다. 2자리 숫자 + 용도문자 + 4자리 숫자 형식입니다. 2) LICENSE_PLATE_2007_520x110_YELLOW (노란색 1줄)형식: 서울12바3456 용도:..

Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI

출처 : https://www.aui.io/resources/beyond-generative-ai/ Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI - AUIAUI Introducing Apollo-1: The Neuro-Symbolic Foundation Model for Task-Oriented Dialoguewww.aui.io3년 동안 AI 업계는 하나의 신화에 사로잡혀 있었습니다. "트랜스포머를 충분히 확장하면 범용 인공지능을 얻을 수 있다"는 믿음입니다. 하지만 지능은 그런 식으로 작동한 적이 없습니다. 새는 비행을 마스터했고, 돌고래는 소나를 진화시켰습니다. 각자는 자신만의 영역을 ..

AI/LLM 2025.11.12

Meta의 Omnilingual ASR: 1,600개 이상의 언어를 지원하는 혁신적인 음성 인식 기술

예, 오늘은 Meta에서 신규로 발표한 Omnilingual ASR 이라는 모델에 대해서 말씀드리려 합니다. 1600여개 이상의 언어를 지원한다고 합니다.(전세계 언어가 1600여개 이상이라는게 더 놀라울 따름입니다.) 그러면 본격적으로 시작하겠습니다. 2025년 11월 10일, Meta는 AI 음성 인식 분야에서 획기적인 발표를 했습니다. Omnilingual ASR은 1,600개 이상의 언어를 지원하는 오픈소스 자동 음성 인식(ASR) 시스템으로, 기존 OpenAI의 Whisper 모델이 지원하는 99개 언어를 훨씬 뛰어넘는 규모입니다. 더욱 놀라운 것은 이 중 500개 이상의 언어가 이전에는 어떤 ASR 모델에서도 지원되지 않았던 저자원 언어라는 점입니다.Omnilingual ASR이란?Omnil..

AI 2025.11.12

Defending Deepfake

오늘은 최근 딥페이크에 대응해서 어떻게 방어하는지에 대해서 최신 논문 2가지를 간단히 요약하고, 예시를 보여드리고자 합니다. 논문 1 : GuardDoor: Safeguarding Against Malicious Diffusion Editing via Protective Backdoors(http://arxiv.org/html/2503.03944) 요약 : 기존 적대적 섭동 방법이 JPEG 압축이나 가우시안 블러 같은 단순 이미지 전처리 작업에 취약한 문제를 해결하기 위해, 이미지 소유자와 모델 제공자 간 협력 프레임워크를 제안합니다. 작동 방식:모델 제공자가 이미지 인코더를 파인튜닝하여 보호 백도어를 삽입합니다사전 학습된 VAE를 통해 이미지를 재구성하면서 생기는 미세한 고주파 노이즈 패턴을 보호 트..

AI 2025.10.29

이미지 핸들링 수업 1~3주차

# matplotlib로 이미지 표시 (BGR→RGB 변환 필수)plt.imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))plt.axis('off')plt.show()* 해당 내용은 서울시립대학교 도시빅데이터융합학과 이미지 핸들링 수업을 재구성한 내용입니다. 2025학년도 2학기 이미지 핸들링 수업은 말 그대로 이미지를 다루는 수업입니다. 특히 openCV, CLIP, YOLO 등을 다루게 되는데 해당 내용을 강사님의 경험에 맞춰서 번호판 인식에 맞춰서 수업을 진행하실 예정이라고 하십니다. 1주차 : opencv 사용법 OpenCV(Open Source Computer Vision Library)는 컴퓨터 비전과 머신러닝을 위한 오픈소스 라이브러리입니다.주요 특징실시간 이..