AI 29

Effective harnesses for long-running agents

이번에 Anthropic에서 흥미로운 주제로 블로그 글을 올렸는데요. 아마 LLM을 채팅 형식의 솔루션으로 개발하시는 분들이라면 한번 쯤 고민해보셨던 내용이 아닐까 싶습니다. AI 에이전트가 점점 더 복잡한 작업을 수행하게 되면서, 하루나 이틀이 걸리는 긴 프로젝트를 완수해야 하는 상황이 늘고 있습니다. 그런데 여기에는 큰 문제가 하나 있습니다. 에이전트는 개별 세션으로 작동하며, 각 새로운 세션은 이전 세션의 기억이 전혀 없이 시작됩니다. 마치 교대 근무하는 엔지니어들이 인수인계를 전혀 받지 못한 채 일하는 것과 같습니다. Anthropic은 이 문제를 해결하기 위해 Claude Agent SDK에 적용할 수 있는 효과적인 방법을 개발했다고 합니다. 원문 : https://www.anthropic.co..

AI/LLM 2025.12.03

DeepShield: Fortifying Deepfake Video Detection

지난번에 이어서 이번에는 ICCV에 등재된 딥페이크 감지 관련 논문에 대해서 다루어 보고자 합니다. ICCV 2025에 발표된 DeepShield는 딥페이크 비디오 탐지의 두 가지 핵심 과제를 동시에 해결하는 프레임워크입니다:로컬 민감도(Local Sensitivity): 미세한 위조 흔적까지 포착글로벌 일반화(Global Generalization): 학습 시 보지 못한 새로운 딥페이크에도 강건이 글에서는 DeepShield의 핵심 아이디어와 구현 방법을 살펴보고, PyTorch로 직접 실습해보겠습니다.* 단, 해당 논문의 코드가 직접적으로 업로드되어 있지 않아서 논문 내용을 바탕으로 클로드와 함께 작성한 코드입니다. 문제 인식: 기존 딥페이크 탐지기의 한계 1. 일반화 능력 부족기존 탐지 모델..

AI 2025.12.01

Seeing Through Deepfakes: A Human-Inspired Framework for Multi-Face Detection

이번 ICCV에 흥미로운 딥페이크 감지 관련된 논문이 올라와서 리뷰를 해보고자 합니다. 얼마전 홍콩에서 실제로 벌어졌던 일인데사기범들이 CFO와 여러 직원들의 얼굴을 딥페이크로 만들어 화상 회의를 진행했고, 그 결과 2,500만 홍콩달러(약 42억원)를 편취하는 데 성공했습니다. 이 사건이 시사하는 것은 명확합니다. 이제 딥페이크는 단순히 한 사람의 얼굴만 바꾸는 게 아니라, 여러 사람이 등장하는 그룹 상황에서도 활용되고 있다는 것입니다. 하지만 기존의 딥페이크 탐지 기술은 대부분 단일 얼굴에만 초점을 맞췄기 때문에, 이런 복잡한 상황에서는 제대로 작동하지 않습니다. 연구팀은 매우 독특한 접근을 시도했습니다. 바로 "인간이 딥페이크를 어떻게 탐지하는가?"를 먼저 연구한 것입니다.인간 대상 실험을 통해, ..

AI 2025.11.25

Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI

출처 : https://www.aui.io/resources/beyond-generative-ai/ Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI - AUIAUI Introducing Apollo-1: The Neuro-Symbolic Foundation Model for Task-Oriented Dialoguewww.aui.io3년 동안 AI 업계는 하나의 신화에 사로잡혀 있었습니다. "트랜스포머를 충분히 확장하면 범용 인공지능을 얻을 수 있다"는 믿음입니다. 하지만 지능은 그런 식으로 작동한 적이 없습니다. 새는 비행을 마스터했고, 돌고래는 소나를 진화시켰습니다. 각자는 자신만의 영역을 ..

AI/LLM 2025.11.12

Meta의 Omnilingual ASR: 1,600개 이상의 언어를 지원하는 혁신적인 음성 인식 기술

예, 오늘은 Meta에서 신규로 발표한 Omnilingual ASR 이라는 모델에 대해서 말씀드리려 합니다. 1600여개 이상의 언어를 지원한다고 합니다.(전세계 언어가 1600여개 이상이라는게 더 놀라울 따름입니다.) 그러면 본격적으로 시작하겠습니다. 2025년 11월 10일, Meta는 AI 음성 인식 분야에서 획기적인 발표를 했습니다. Omnilingual ASR은 1,600개 이상의 언어를 지원하는 오픈소스 자동 음성 인식(ASR) 시스템으로, 기존 OpenAI의 Whisper 모델이 지원하는 99개 언어를 훨씬 뛰어넘는 규모입니다. 더욱 놀라운 것은 이 중 500개 이상의 언어가 이전에는 어떤 ASR 모델에서도 지원되지 않았던 저자원 언어라는 점입니다.Omnilingual ASR이란?Omnil..

AI 2025.11.12

Defending Deepfake

오늘은 최근 딥페이크에 대응해서 어떻게 방어하는지에 대해서 최신 논문 2가지를 간단히 요약하고, 예시를 보여드리고자 합니다. 논문 1 : GuardDoor: Safeguarding Against Malicious Diffusion Editing via Protective Backdoors(http://arxiv.org/html/2503.03944) 요약 : 기존 적대적 섭동 방법이 JPEG 압축이나 가우시안 블러 같은 단순 이미지 전처리 작업에 취약한 문제를 해결하기 위해, 이미지 소유자와 모델 제공자 간 협력 프레임워크를 제안합니다. 작동 방식:모델 제공자가 이미지 인코더를 파인튜닝하여 보호 백도어를 삽입합니다사전 학습된 VAE를 통해 이미지를 재구성하면서 생기는 미세한 고주파 노이즈 패턴을 보호 트..

AI 2025.10.29

Audiovisual Deepfake Detection: 주요 방법론과 실습 코드

이번 글에서는 오디오-비주얼 딥페이크 탐지의 주요 방법론들을 살펴보고, 실제로 실습 가능한 파이썬 코드와 함께 정리해보겠습니다.1. 주요 탐지 방법론1.1 Audio-Visual Synchronization 기반 탐지오디오와 비디오 간의 동기화 불일치를 감지하는 방법입니다. 진짜 비디오에서는 입 모양과 음성이 정확히 일치하지만, 딥페이크에서는 미세한 시간차나 불일치가 발생합니다.핵심 원리:립싱크(Lip-sync) 오류 검출시간적 일관성 분석크로스모달 상관관계 측정대표 논문:"Emotions Don't Lie: An Audio-Visual Deepfake Detection Method using Affective Cues" (2020)"Deepfake Detection based on Audio-Visua..

AI 2025.10.22

LLM도 '브레인 롯(Brain Rot)'에 걸릴 수 있을까?

얼마 전 세상을 떠들썩 하게 하던 밈이 있었습니다. 바로 '브레인 롯' 밈인데요 직역하자면 뇌가 썩는 밈이라는 뜻입니다. 2024년, 옥스퍼드에서 '브레인 롯(Brain Rot)'을 올해의 단어로 선정했습니다. 브레인 롯은 소셜 미디어의 짧고 자극적인 콘텐츠를 과도하게 소비할 때 발생하는 인지 능력 저하를 의미합니다. 흥미롭게도, 대규모 언어모델(LLM)도 인간과 같은 인터넷 데이터로 학습합니다. 그렇다면 LLM도 브레인 롯에 걸릴 수 있을까요? 이에 대한 대답을 LLMS CAN GET “BRAIN ROT”! (2025, Shuo Xing et al.) 이라는 논문으로 텍사스 대학교 오스틴 캠퍼스와 텍사스 A&M 대학교의 연구팀이 이 흥미로운 질문에 답하기 위한 연구를 진행했습니다. 그래서 오늘은 이 논..

AI/LLM 2025.10.20

Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights

이 논문은 오디오-비주얼 딥페이크 탐지에 관한 포괄적인 서베이 논문입니다. 최근(?) 딥페이크에 대한 문제가 화두로 올라서면서 여러 방안이 제시되고 있습니다. 그래서 저도 딥페이크 탐지 혹은 방지에 대한 기술을 혼자 연구해볼까 하던 참에 포괄적인 서베이 논문이 있어서 한번 리뷰해보게 되었습니다. 해당 논문은 2024년에 작성된 논문이다 보니, 시간차가 일부 있을 수는 있을 것 같습니다. 제목을 한글로 번역해보면 오디오-비주얼 딥페이크 탐지의 이해: 기술, 과제, 인간 요인 및 지각적 통찰 말 그대로 딥페이크 탐지 기술을 총망라해놓은 리뷰 논문이라고 생각하시면 좋을 것 같습니다. 1. 딥페이크의 유형오디오 딥페이크: 음성 변환, 텍스트 음성 변환(TTS), 부분 오디오 조작비주얼 딥페이크: 얼굴 교환, ..

AI 2025.10.14

AI Models Need a Virtual Machine

이번 글은 "AI Models Need a Virtual Machine" 에 대한 내용입니다. 처음 이 글 제목을 보고 이게 무슨 뚱딴지 같은 소리야! 싶었는데요. 사실 AI 어플리케이션을 개발 할 때는 보통 컨테이너나 VM 등을 당연히 많이 사용하기 때문입니다. 근데 자세히 읽어보니 그런 내용은 아닌 것 같았습니다. https://blog.sigplan.org/2025/08/29/ai-models-need-a-virtual-machine/ AI Models Need a Virtual MachineNeural networks are more useful when placed in a suitable, specialized environment.blog.sigplan.org 여기서 말하는 가상화는 VM ..

AI/Agent 2025.09.04