'분류 전체보기' 카테고리의 글 목록

MNIST 데이터로 VLM 만들어보기 (Feat. HyperClovaX) - LLM 결합, 학습 & 추론

2026.01.09· 개발잡담/AI

Llava를 보면 text to text llm + ViT encoder 조합으로 VLM을 만들었다.그 과정을 MNIST 데이터를 통해 간단하게 따라 해보고자 한다. ViT Encoder는 논문 및 블로그&AI를 참고하여 구현하였으며,LLM은 구현하기에 제한이 많아 가벼운 네이버의 HyperClovaX SEED Text-Instruct 0.5B 모델을 사용. 오늘은 저번 포스팅에서 구현한 ViT Encoder를 LLM과 결합하고 학습 & 추론까지 진행하겠습니다. ※ ViT Encoder 구현 포스트 (저번 포스트) MNIST 데이터로 VLM 만들어보기 (Feat. HyperClovaX) - ViT EncoderLlava를 보면 text to text llm + ViT encoder 조합으로 VLM을 만..

MNIST 데이터로 VLM 만들어보기 (Feat. HyperClovaX) - ViT Encoder

2026.01.08· 개발잡담/AI

Llava를 보면 text to text llm + ViT encoder 조합으로 VLM을 만들었다.그 과정을 MNIST 데이터를 통해 간단하게 따라해보고자 한다. ViT Encoder는 논문 및 블로그&AI를 참고하여 구현하였으며,LLM은 구현하기에 제한이 많아 가벼운 네이버의 HyperClovaX SEED Text-Instruct 0.5B 모델을 사용. 목표손글씨 데이터를 text-instruct 모델과 결합하여 텍스트만 input이 가능한 모델에 손글씨를 인식하도록 하고자 한다. 준비물MNISTLLM(HyperClovaX SEED Text-Instruct 0.5B)ViT EncoderViT Encoder를 구현하기 위해서는 아래 단계가 필요합니다. 1. 이미지를 토큰화 하는 임배딩 레이어2. 토큰..

LLaVA에 대해 알아보자 - Predict

2025.12.16· 개발잡담/AI

Vision과 LLM이 결합된 VLM, 그 중 하나인 LLaVA에 대해 코드 수준으로 알아보려 한다.핵심 기능 하나씩 어떤 역할을 하는지 알아보자 오늘 알아볼 내용은 LLaVA의 Predict 과정입니다.알아보기 앞서, LLavA는 Vision을 담당하는 ViT모델 - CLIP 모델, Language를 담당하는 LLM으로 이루어져있습니다. 추론이 작동하는 방식은 다음 단계와 같습니다. 이미지를 Vision Model로 디지털 데이터화 (Feature)데이터를 이후에 같이 LLM에 넣을 언어 데이터 형식과 동일하게 변경 (Tensor)언어(프롬프트)를 LLM에 넣을 형식으로 변경 (Tensor)두 데이터를 하나로 묶음 (Linear)LLM에 입력 후 추론 & 결과 출력 이제 하나씩 보도록 하겠습니다.코드는..

PYTORCH 가중치 파일을 ONNX로 변환하기 (Feat. YOLO)

2025.12.10· 개발잡담/AI

Pytorch의 모델 가중치 파일을 Onnx로 변환하는 방법을 알아보자 Pytorch에서 Onnx 타입으로 변환하는건 여러 이유가 있습니다. 양자화다른 타입으로 변환등이 있습니다. 오늘은 YOLO의 가중치 파일(.pt)을 ONNX(.onnx)로 바꾸는 방법을 알아보겠습니다. Ultralytics YOLO는 이미 ONNX 로 변환하는 기능을 라이브러리에 포함하여 제공하고 있습니다.Ultralytics의 onnx변환 그리고 pytorch에서 제공하는 onnx 변환 방식 두가지 모두 실행하고 결과를 비교해보겠습니다. 1. Pytorch 모델 가중치 파일 준비from ultralytics import YOLOorigin_model = YOLO('yolo11n.pt')※ 나중에 검증을 빠르게 끝내기 위해서 가장 ..

논문보고 AI 모델 구현해보기 (Feat. MobileNet V1)

2025.11.07· 개발잡담/AI

AI 관련 공부를 하다보면 논문을 기반하여 모델을 구현하는 사람들이 많다.코드 한줄 없는 논문을 보고 어떻게 코드로 구현하는지 한번 알아보자 ※ 처음부터 독학하면서 얻은 경험을 기술한 것이기에 과정에 있어 오답이 특히 많을 수 있습니다. 오늘 구현해볼 논문은 Google이 발표한 MobileNet V1입니다.그리고 따라 구현하려면 최소한 CNN(Convolutional Neural Network)에 대한 지식은 있어야 이해 할 수 있습니다.또한 구현을 위해 사용하는 프레임 워크가 PyTorch 이므로 이에 대한 기본 지식이 있어야 합니다. 논문 주소 : https://arxiv.org/pdf/1704.04861사용하는 프레임워크 : PyTorch 1. 모델의 구조 해석해당 논문에서는 3.3의 Table...

CMD로 Django 프로젝트 생성하기

2024.07.08· 개발잡담/Back-End

매번 pycharm으로 환경을 클릭으로 만들다가 cmd환경에서는 어떻게 만드는지 한번 알아보고자 합니다. 환경windows 11python : 3.12 (환경변수까지 완료)cmd 1. 가상환경(virtual environment) 만들기원하는 폴더에 cmd 실행python --version 명령어를 통해 버전이 잘 나오면 이후 과정 진행※만약 Python이란 단어가 나오거나 실행이 제대로 안될경우 환경 변수 진행 필요 아래 명령어를 이용하여 venv(virtual environment) 생성python -m venv [원하는 venv폴더 이름]예시python -m venv studyVenv 2. pip을 이용하여 django 설치우선 venv를 활성화 후 해당 venv에 pip을 이용하여 django를 ..

티스토리툴바