전체 글 35

Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights

이 논문은 오디오-비주얼 딥페이크 탐지에 관한 포괄적인 서베이 논문입니다. 최근(?) 딥페이크에 대한 문제가 화두로 올라서면서 여러 방안이 제시되고 있습니다. 그래서 저도 딥페이크 탐지 혹은 방지에 대한 기술을 혼자 연구해볼까 하던 참에 포괄적인 서베이 논문이 있어서 한번 리뷰해보게 되었습니다. 해당 논문은 2024년에 작성된 논문이다 보니, 시간차가 일부 있을 수는 있을 것 같습니다. 제목을 한글로 번역해보면 오디오-비주얼 딥페이크 탐지의 이해: 기술, 과제, 인간 요인 및 지각적 통찰 말 그대로 딥페이크 탐지 기술을 총망라해놓은 리뷰 논문이라고 생각하시면 좋을 것 같습니다. 1. 딥페이크의 유형오디오 딥페이크: 음성 변환, 텍스트 음성 변환(TTS), 부분 오디오 조작비주얼 딥페이크: 얼굴 교환, ..

AI 2025.10.14

AI Models Need a Virtual Machine

이번 글은 "AI Models Need a Virtual Machine" 에 대한 내용입니다. 처음 이 글 제목을 보고 이게 무슨 뚱딴지 같은 소리야! 싶었는데요. 사실 AI 어플리케이션을 개발 할 때는 보통 컨테이너나 VM 등을 당연히 많이 사용하기 때문입니다. 근데 자세히 읽어보니 그런 내용은 아닌 것 같았습니다. https://blog.sigplan.org/2025/08/29/ai-models-need-a-virtual-machine/ AI Models Need a Virtual MachineNeural networks are more useful when placed in a suitable, specialized environment.blog.sigplan.org 여기서 말하는 가상화는 VM ..

AI/Agent 2025.09.04

Efficient Memory Management for Large Language Model Serving with PagedAttention

저자 : Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica GeekNews를 보다가 흥미로운 주제가 있어서 읽고 다시 정리해보는 시간을 가졌습니다. 제가 업무에서 vLLM을 주로 많이 사용합니다. 양자화에 대한 지원이 좀 (많이) 부족하지만, 그래도 이만한 서빙용 라이브러리가 없는 것 같습니다. Aleksa Gordić의 블로그(https://www.aleksagordic.com/blog/vllm) 에서는 vLLM의 중심 알고리즘인 PagedAttention에 대해서 다루고 있습니다. 저도 그래서 한번 다루어 보도록 하겠습니다. 해당 논..

AI/LLM 2025.09.03

프로젝트 3 - 관광 활성화를 위한 거대 언어 모델 및 RAG 파이프라인 연구 후기

너무 오랜만에 돌아온 것 같습니다. 방학 기간 동안 회사일이 너무 바빴습니다.(핑계 같겠지만....) 최근에는 회사별로 자사의 LLMOPS 플랫폼을 갖추기 위해서 많은 노력을 기하고 있는데 저희 회사도 그중 하나였습니다. 그래서 이번에 XGEN을 출시했습니다. ( 박수 ) 최근에 몇몇 PoC에서도 좋은 결과를 얻고 있습니다. 많은 관심(읽어주시는 분이 많지는 않겠지만.....) 부탁드립니다. 그러면 본론으로 들어가서 작년 3~7월까지 이어진 연구를 통해서 본 연구가 연구지원 프로그램에서 우수상을 수상했습니다. ( 말라가던 제 통장에 촉촉한 비를...) 그러면 앞선 프로젝트 1,2에서 말씀드린 내용에 더해 전체 내용을 설명드리겠습니다. 1. 모델 후보 선정 과정LLM(Large Language Mod..

프로젝트 2025.09.03

프로젝트 2 - 모델 선정(한국어, 일본어, 속도 비교)

* 이 부분은 약 2달 전에 진행했던 부분이지만 시간이 없었던 관계로 현재 업로드 하였습니다. 1. 모델 후보 선정 LLM을 활용하는데 있어서 파라미터의 수가 너무 클 경우, 컴퓨팅 자원이 너무 많이 필요하다는 문제점이 존재함 1)또한 이를 활용하는데 있어서 향후 온디바이스 환경에서도 가능해야 하므로 최대한 작은 크기 3~4B의 모델을 활용하고자 함 1) naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B네이버의 최신 모델로 한국어 및 관광 정보 안내에 강점이 있는 것으로 알려짐 2) meta-llama/Llama-3.2-3B-Instruct오픈 소스 전통 강자인 meta의 모델로 뛰어난 다국어 성능을 가지고 있음 3) Bllossom/llama-3.2-Kor..

프로젝트 2025.06.29

svelte 기초 (3) - Reactivity

오늘은 svelte 기초 3번째 시리즈를 작성해볼까 합니다. 오늘의 주제는 Reactivity입니다. Svelte에서는 Reactivity 즉, 손쉬운 반응성 구현을 내세우고 있는데요. 반응성이란 선언된 state의 상태에 따라서 특별한 호출 없이 HTML 영역 및 바라보는 변수 들의 상태가 빠르게 변경되는 것을 의미합니다. 그렇다면 바로 Svelte Reactivity에 대해서 Svelte Playground에 나온 내용을 바탕으로 기술해보도록 하겠습니다. Clicked {count} {count === 1 ? 'time' : 'times'} 위와 같이 count라는 state 함수를 태그 내에서 $state()를 활용하여 정의를 해주고 이에 따른 handle click 함수를 정의해줬을 때 bu..

Agent란 무엇일까?

LLM을 비롯한 AI 기술이 굉장히 경쟁적으로 발전하고 있습니다. 이제는 LLM의 역할이 점점 커지는 느낌인데, 이에 대두된 개념이 하나 있습니다. 바로 "Agent"인데요. Agent에 대한 정의는 하는 사람마다 다르긴 합니다. 대표적으로 AWS에서는 이런 정의를 내렸습니다. '인공 지능 에이전트는 환경과 상호 작용하고, 데이터를 수집하고, 데이터를 사용하여 사전 결정된 목표를 달성하기 위해 필요한 작업을 스스로 결정해서 수행할 수 있는 소프트웨어 프로그램입니다' 즉, AI가 주변과 상호작용해서 필요한 데이터를 직접 얻어서 이를 활용할 수 있는 프로그램이라고 간단하게(?) 정의해볼 수 있을 것 같습니다. Agent의 역사는 생각보다 이른 시기에 시작되었다고 합니다. John McCarthy의 195..

AI/Agent 2025.04.19

구글 A2A(Agent to Agent) 발표

구글이 최근 AI 관련해서 엄청난 행보를 이어나가고 있는데요. Gemini 및 Gemma 등 여러 신작을 발표한데에 이어 Agent를 위한 새로운 표준을 발표했는데요. 여기서 의아한 부분이 있죠 여러 회사들이 이미 앤트로픽의 MCP를 채택하고 있는 과정에서 시장을 거스르는 선택을 한 것 같은데요. 이는 이들의 발표를 들어보면 틀린말인 것 같습니다. MCP의 보완재로서 A2A를 공개했다고 하니까요. 이게 무슨 말인지 소개 해보도록 하겠습니다. A2A는 LangChain, Cohere, Salesforce, MongoDB, SAP 등 50여 개 이상의 기업와 함께 에이전트 간의 상호 운용성을 높이기 위한 통신 표준으로, HTTP와 JSON 기반의 기존 웹 기술을 활용하여 여러 에이전트들이 협력하고 정보와 ..

AI/Agent 2025.04.12

Svelte 기초(2)

이번주 Svelte 글은 다음 글을 참고하여 작성되었음을 알려드립니다. https://velog.io/@hippo9851/Svelte-Tutorial0.-%EC%8B%9C%EC%9E%91 [Svelte Tutorial]1. 시작Svelte를 사용할 일이 생겨서 학습을 위해 Svelte 공식 사이트의 Tutorial을 진행하면서 학습한 내용을 정리한 시리즈 입니다.이런 식으로 공식 사이트 옆에 학습하면서 실습해볼 수 있는 좋은 환경이velog.io 이 글에 tutorial이 아주 잘 정리되어 있어서, 이 글을 따라서 한번 공부해보고자 합니다. 이분도 아마 Svelte playground에 있는 내용을 바탕으로 작성하신 것 같습니다.  Svelte에서 하나의 App은 1개 이상의 컴포넌트로 구성되고 컴포넌트..

언어 모델의 숨은 무기, Chain-of-Tools로 깨우다

이번에는 Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models(Mengsong Wu et al., 2025) 라는 논문을 리뷰해보고자 합니다. 이 논문을 리뷰하고자 할 때, 블로그 제목을 어떻게 해야할지 고민하다가 이 부분은 그냥 GPT 한테 물어봤습니다!! 그랬더니 '언어 모델의 숨은 무기, Chain-of-Tools로 깨우다' 라는 제목을 추천해주더군요. 왜 이런 제목을 추천하는지 이제 리뷰를 해보도록 하죠.  Tool learning can further broaden the usage scenarios of large language models (LLMs). However most ..

AI/LLM 2025.04.12