본문 바로가기

전체 글101

13.2 TFRecord 포맷 TFRecord 포맷 tensorflow는 대용량 데이터를 저장하기 위해 tfrecord라는 포맷을 사용한다. tfrecord는 크기가 다른 여러가지 레코드를 저장하는 이진 포맷이다. 각 레코드는 레코드 길이 CRC checksum(길이가 올바른지 체크하는), 실제 데이터, 데이터를 위한 CRC checksum으로 구성된다. with tf.io.TFRecordWriter("my_data.tfrecord") as f: f.write(b"This is the first record") f.write(b"And this is the second record") 위 코드와 같은 방법으로 tfrecord를 작성할 수 있다. filepaths = ["my_data.tfrecord"] dataset = tf.data.. 2021. 11. 12.
13.1 데이터 API 데이터셋은 저장매체에 있는 데이터를 사용하기도 하지만, 직접 만들어 사용할 수도 있다. 직접 만들 때는 `tf.data.Dataset.from_tensor_slices()를 통해 객채를 만들어 여러가지 연산을 적용해 사용한다. import tensorflow as tf from tensorflow import keras X=tf.range(10) dataset=tf.data.Dataset.from_tensor_slices(X) dataset 이렇게 dataset이라는 객체를 생성하였다. 위 과정은 tf.data.Dataset.range(10)으로 만든 데이터셋과 동일하게 작동한다. for item in dataset: print(item) tf.Tensor(0, shape=(), dtype=int32) .. 2021. 11. 12.
벡터와 행렬의 연산 브로드캐스팅 * 원래 덧셈, 뺄셈은 차원이 같은 두 벡터끼리만 가능하지만, 벡터와 스칼라의 경우 관례적으로 일벡터를 사용해 스칼라를 벡터로 변환한 연산을 허용한다. 선형조합(Linear Combination) * 벡터/행렬에 다음처럼 스칼라곱을 곱한 후 더하거나 밴 것을 벡터/행렬의 선형조합이라고 한다. * 벡터나 행렬을 선형조합해도 크기는 변하지 않는다. 벡터와 벡터의 곱셈 내적(inner product) * 벡터 x와 벡터 y의 내적은 다음과 같이 표기한다. 내적은 점으로도 표기할 수 있고(dot product), 기호로 나타낼 수도 있다. * 내적에는 다음과 같은 조건이 필요하다. 1. 두 벡터의 차원이 같음. 2. 앞의 벡터가 행 벡터이고 뒤의 벡터가 열 벡터의 형태를 띰. * 위에서 열거한 조건.. 2021. 11. 12.
데이터와 행렬 데이터의 유형 선형대수의 데이터는 개수나 형태에 따라 아래와 같이 구분된다. 1) scalar * 숫자 하나로 이뤄진 데이터 * 스칼라는 보통 x와 같이 알파벳 소문자로 표기한다. * 실수집합 R의 원소이다. 2) Vector * 여러 개의 숫자가 특정한 순서대로 모여 있는 것을 뜻함. * 벡터를 이루는 데이터의 개수가 n개일 때 n-dimensional vector라고 한다. * 스칼라 값은 아래첨자를 붙인다. 하지만 벡터 또한 다른 벡터와의 구분을 위해 아랫첨자를 붙이는 경우가 존재한다. * 벡터 값의 표기는 아래와 같이 bold 되어있거나 화살표 벡터 기호를 사용하기도 한다. Feature Vector * 데이터 벡터가 예측 문제의 input으로 사용될 때 이를 feature vector라고 한다... 2021. 11. 12.