전체 글
-
18주차 화 1219 머신러닝 흐름광주인력개발원 일일포스팅(메모장) 2023. 12. 19. 16:51
오늘부터 머신러닝(ML) 배운다.. 심증을 증명하기위한 방법 중 머신러닝을 사용 설문조사 - 리서치회사 (데이타 탐색 - 탐색적 데이터 분석(EDA)) >> 파이썬을 이용하여 예측 진행 순수 데이터 분석하여 예측 - 기상청 이 행위가 어떤 행위인지 분석하는 기술적인 영역 영상분석 이미지분석 >> 딥러닝 I - IoT C - Cloud B - Big Data M - Mobile 이 한세트가 되면 인공지능이 만들어진다 알고리즘 : 어떠한 문제를 해결하기 위한 일련의 절차나 방법 머신러닝 : 기계가 패턴을 학습하여 자동화하는 알고리즘 모델 - 라이브러리 - 클래스 클래스를 생성하면 모델이 생성됨 내가 데이터를 넣고 모델이 패턴을 찾는다. 머신러닝 딥러닝의 학습방법은 동일 앞으로 나올 라이브러리들은 현재 라이브..
-
-
16주차 화1205 (데이터프레임_정리)광주인력개발원 일일포스팅(메모장) 2023. 12. 6. 08:47
데이터프레임 행단위/열단위 합치기 ### 임시 데이터 생성 # 임시 데이터 data = [["Dog", 3], ["Cat",5], ["Tiger", 2]] index = [0, 1, 2] columns = ["동물", "나이"] ### 리스트 형식으로 만들어서 데이터를 넣어야 할 경우 사용 df_temp1 = pd.DataFrame(data, index=index, columns=columns) df_temp1 동물나이 0Dog3 1Cat5 2Tiger2 ### 임시 데이터 생성 # 임시 데이터 data = [["집", 0], ["초원", 0], ["초원", 1]] index = [0, 1, 2] columns = ["사는곳", "뿔의갯수"] ### 리스트 형식으로 만들어서 데이터를 넣어야 할 경우 사용..
-
16주차 월 1204(웹크롤링 > 전처리 및 시각화)광주인력개발원 일일포스팅(메모장) 2023. 12. 4. 16:53
file_path = "./data/movie_reviews.txt" df_org = pd.read_csv(file_path, ### 구분자 알려주기 delimiter="\t", names=["title", "score", "comment", "label"]) df_org ### 제목 : "title", 평점 : "score", 리뷰 : "comment", "label" titlescorecommentlabel 0서울의 봄10꼭 봐야 할 영화!!무능이 얼마나 무서운 일인지보여주는 영화!!영화 속 일은 현재도...1 ### 평점(score) 현황 데이터 확인 df_org["score"].value_counts() score 10 2911 1 394 9 209 8 144 2 93 6 87 7 85 5 69 ..
-
16주차 월 1204(웹크롤링)광주인력개발원 일일포스팅(메모장) 2023. 12. 4. 14:26
""" - URL : https://movie.daum.net - 다음영화 > 랭킹 > 박스오피스 > 월간 위치의 데이터 수집 - 수집데이터 : 영화제목, 평점, 댓글 - 생성할 데이터 : 긍정/부정 - 정적인 웹크롤링을 할 경우 : BeautifulSoup : 하나의 페이지에 보이는 부분만 수집할 때 사용 - 동적인 웹크롤링을 할 경우 : selenium : 클릭과 같은 이벤트 등 페이지 전환을 하면서 수집할 때 사용 """ ### 설치 필요 : pip install selenium # 동적 웹페이지 처리를 위한 라이브러리 from selenium import webdriver # 웹페이지 내에 데이터 추출을 위한 라이브러리 from selenium.webdriver.common.by import By..
-
15주차 목 1130(데이터베이스_수집_가공_2)광주인력개발원 일일포스팅(메모장) 2023. 12. 4. 09:15
### 사용할 데이터 읽어들이기 # 데이터프레임 변수명 : df_bus_card_tot df_bus_card_tot = pd.read_csv("./01_data/all/df_bus_card_tot.csv") print("갯수 : ", len(df_bus_card_tot)) df_bus_card_tot.head(1) 승차시각하차시각승객연령환승여부추가운임여부승차정류장하차정류장버스내체류시간(분)기준년도기준월기준일기준시간기준시간(분) 02020-01-02 05:10:492020-01-02 05:18:44일반NN양덕차고지동부초등학교7.92202012510 ### 시각화 라이브러리 import matplotlib import matplotlib.pyplot as plt import seaborn as sns ###..
-
15주차 수 1129(교통 데이터_수집_가공 1)광주인력개발원 일일포스팅(메모장) 2023. 11. 29. 16:51
한건 샘플링하기 """ - 여러개의 데이터를 통합하는 경우에는 - 한개 파일을 기준으로 사용할 컬럼을 정의하여 가공 후 - 반복 처리하면 편합니다. """ ### 0번 파일의 csv 데이터 읽어들이기 # - 데이터프레임 이름 : df_bus_card_org file_path = "./01_data/org/trfcard(0)/trfcard.csv" df_bus_card_org = pd.read_csv(file_path) df_bus_card_org.head(1) on_dateoff_dateroute_namedescrage_typetrans_ynaddfee_ynstart_bstopstart_gps_xstart_gps_yend_bstopend_gps_xend_gps_y 0202001020510492020010..
-
15주차 수 1129( 테이블_ 저장하기 2)광주인력개발원 일일포스팅(메모장) 2023. 11. 29. 16:02
조회결과가 여러건인 경우 rows = cur.fetchall() rows [{'ymd': '2021-01-01', 'time': '1시', 'power': 64942.0}, {'ymd': '2021-01-01', 'time': '2시', 'power': 62593.0}, {'ymd': '2021-01-01', 'time': '3시', 'power': 60905.0}, {'ymd': '2021-01-01', 'time': '4시', 'power': 59889.0}, ... }] 리스트 안에 딕셔너리 형태로 나온다 ymd_power_demand = pd.DataFrame(rows) # - 컬럼명 없이 받아온 경우 # - [(), (), ...] # ymd_power_df = pd.DataFrame(rows,..