[Kaggle Gen AI] Day 2 ๊ณผ์ ์๊ฐ - Embeddings & Vector Stores ๐
์ฝ 3์ฃผ๊ฐ ๊ฑธ๋ฆฐ Day1์ ์ด์ Day2์์๋ ์๋ฒ ๋ฉ(Embeddings)๊ณผ ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค(Vector Stores)์ ๊ฐ๋ ์ ์ตํ๊ณ , ์ด๋ฅผ ํ์ฉํด LLM์ด ์ธ๋ถ ์ง์๊ณผ ์ฐ๊ฒฐ๋๋ ๋ฐฉ์์ ์ค์ตํด๋ณด๋ ํ๋ฆ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
์งํ ์์๋ ์๋ ์ ๋ฆฌํ ๋ชฉ๋ก๋๋ก ๋ฐ๋ผ๊ฐ๋ฉด ๋๋๋ฐ, ๊ฐ ํญ๋ชฉ์๋ ๊ด๋ จ๋ ํ์บ์คํธ๋ ๋ฐฑ์ ๋งํฌ๋ ํจ๊ป ์ ์ด๋จ์ผ๋ ๋ฐ๋ก ํ์ธ ๊ฐ๋ฅํ๋ค.
๊ฐ์ธ์ ์ผ๋ก๋ ํ์บ์คํธ๊ฐ ๋ฐฑ์ ๋ด์ฉ์ ์์ฃผ ์ ์์ฝํด์ฃผ๊ณ ์๊ณ , ์ค๋ช ํ๋ฆ๋ ๋งค๋๋ฌ์์ ํธ๋ค๋ฅ ๊ณต๋ถํด์ผ ํ๋ค๋ฉด ํ์บ์คํธ๋ฅผ ๊ต์ฅํ ์ถ์ฒ!
๐ Todayโs Assignments
- Complete Unit 2 โ โEmbeddings and Vector Stores / Databasesโ
์ ๋ 2 โ โ์๋ฒ ๋ฉ๊ณผ ๋ฒกํฐ ์ ์ฅ์/๋ฐ์ดํฐ๋ฒ ์ด์คโ- Listen to theย summary podcast episodeย for this unit
์ ๋ 2์ ์์ฝ ํ์บ์คํธ ๋ฃ๊ธฐ - To complement the podcast, read the โEmbeddings and Vector Stores/ Databasesโ whitepaper
ํ์บ์คํธ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด, ๊ด๋ จ ๋ฐฑ์ ์ฝ๊ธฐ - Complete these codelabs on Kaggle:
Kaggle ์ฝ๋๋ฉ ์ค์ต ์งํํ๊ธฐ- Build a RAG QA system over custom documents
์ฌ์ฉ์ ๋ฌธ์ ๊ธฐ๋ฐ RAG ์ง๋ฌธ์๋ต ์์คํ ๊ตฌ์ถ - Explore text similarity with embeddings
์๋ฒ ๋ฉ์ ํ์ฉํ ํ ์คํธ ์ ์ฌ๋ ํ์ - Neural classification with Keras and embeddings
Keras๋ฅผ ํ์ฉํ ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ ๋ง๋ค๊ธฐ
- Build a RAG QA system over custom documents
- Want to have an interactive conversation? Try adding the whitepaper to NotebookLM.
๋ํํ ํ์ต์ ์ํ๋ค๋ฉด NotebookLM์ ๋ฐฑ์๋ฅผ ์ถ๊ฐํด๋ณด๊ธฐ
- Listen to theย summary podcast episodeย for this unit
๐ก What Youโll Learn
Today you will learn about the conceptual underpinning of embeddings and vector databases, and how they can be used to bring live or specialist data into your LLM application. Youโll also explore their geometrical powers for classifying and comparing textual data as well as how to evaluate embeddings.
๐ Day 2์์๋ ์๋ฒ ๋ฉ๊ณผ ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ํต์ฌ ๊ฐ๋ ์ ์ ๋ฆฌํ๋ค.
๐งพ ์ด๋ฅผ ํ์ฉํด ์ธ๋ถ ์ง์์ด๋ ๋๋ฉ์ธ ํนํ ๋ฐ์ดํฐ๋ฅผ LLM์ ์ฐ๊ฒฐํ๋ ๋ฐฉ๋ฒ๋ ์์๋ณด๊ณ ,
๐ ์๋ฒ ๋ฉ์ ๊ธฐํํ์ ์ฑ์ง(geometric properties)์ ์ด์ฉํด ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๊ณ ๋น๊ตํ๋ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์๋ฒ ๋ฉ์ ์ด๋ป๊ฒ ํ๊ฐํ๋์ง๊น์ง ํจ๊ป ๋ค๋ฃฐ ์์ ์ด๋ค.