자연어 (4) 썸네일형 리스트형 Seq2Seq 모델을 활용한 챗봇 생성 데이터 로드 한글 자연어처리 데이터 셋인 Korpora 중 챗봇용 데이터 셋인 KoreanChatbotKorpus를 사용 데이터 로드에 오류가 있어서 직접 다운로드 데이터 출처 import pandas as pd corpus = pd.read_csv('ChatBotdata.csv') corpus 질의 Q와 답변 A로 구성되어있다. 데이터를 리스트 형태로 저장 df = corpus['Q'] get_all_texts = df.values.tolist() df = corpus['A'] get_all_pairs = df.values.tolist() 데이터 확인 get_all_texts[:5] ['12시 땡!', '1지망 학교 떨어졌어', '3박4일 놀러가고 싶다', '3박4일 정도 놀러가고 싶다', 'PPL 심.. LSTM을 활용한 가짜 뉴스기사 생성 모델 데이터 불러오기 한글 뉴스기사 데이터셋 IT관련 기사 200개의 데이터 셋으로, 향후 예측시 IT 관련 기사 생성 다른 기사를 크롤링하여 데이터 셋으로 만들면 다른 기사 생성 가능 import tensorflow as tf import numpy as np import time import pandas as pd import os import re tf.test.is_gpu_available() df = pd.read_csv('https://bit.ly/3n7iHQX') df.head() df.shape (200, 1) 데이터 전처리 # 한글, 영어, 숫자를 제외한 모든 문자는 제거하고, 나중에 데이터를 모두 합치기 때문에 문장의 끝을 표기해 주는 함수 def clean_sentence(sentence).. Seq2Seq로 네이버 영화 리뷰 긍부정 평가하기 Seq2Seq란? 시퀀스 투 시퀀스는 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 다양한 분야에서 사용되는 모델. 인코더는 입력 문장의 모든 단어들을 순차적으로 입력받은 뒤에 마지막에 모든 단어 정보들을 압축해서 하나의 벡터를 만드는데 이를 컨텍스트 벡터(context vector)라고 한다. 입력 문장의 정보가 하나의 컨텍스트 벡터로 압축되면 인코더는 컨텍스트 벡터를 디코더로 전송하고, 디코더는 번역된 단어를 한 개씩 순차적으로 출력한다. Seq2Seq 데이터 소개 20만개의 영화 리뷰를 기록해둔 데이터 셋인 Naver sentiment movie corpus데이터 사용 데이터는 작성자 id, 리뷰, 긍부정 여부로 구성 긍부정 여부는 0,1의 값을 가지며 비율은 약 50% 내외 데이터 출처 : .. windows - 아나콘다 가상환경에 konlpy, MeCab 설치하기 1. java 설치하기 https://www.oracle.com/java/technologies/downloads/#jdk17-windows - 접속해서 windows용 다운로드 2. 환경변수 설정 - 시작에서 시스템 환경 변수 편집 검색 - 시스템 변수에서 새로 만들기 - 변수이름은 JAVA_HOME, 변수 값은 설치한 jdk 파일의 bin 폴더로 시스템 변수 설정 3. 아나콘다 설정 - Anaconda Powershell Prompt를 관리자 권한으로 실행 - system32에서 c드라이브로 directory 변경 후 (cd .. 을 입력할 경우 상위 풀더로 이동) conda create -n 가상환경 이름 python=3.7 anaconda (MeCab설치를 위해 파이썬 3.7버전의 가상 환경 생성.. 이전 1 다음