Scribe
Scribe

ชอบมันไหม? ทำให้ Scribe ดียิ่งขึ้นโดย การให้คะแนน

รับส่วนขยาย Chrome

เรียกดู

  • วิดีโอยอดนิยม
  • วิดีโอล่าสุด
  • ช่องทั้งหมด

เครื่องมือฟรี

  • ตัวดาวน์โหลดคำบรรยาย
  • ตัวสร้างเวลา
  • ตัวสรุปวิดีโอ
  • ตัวนับคำ
  • ตัววิเคราะห์ชื่อเรื่อง
  • ค้นหาบทถอดความวิดีโอ
  • การวิเคราะห์วิดีโอ
  • ตัวสร้างบท
  • ตัวสร้างแบบทดสอบ
  • แชทกับวิดีโอ

ผลิตภัณฑ์

  • ราคา
  • บล็อก

Developers

  • Transcript API
  • API Documentation

กฎหมาย

  • ข้อกำหนด
  • ความเป็นส่วนตัว
  • การสนับสนุน
  • แผนผังเว็บไซต์

ลิขสิทธิ์ © 2026 สร้างด้วยความรักโดย Scribe

— ถ้านี่ทำให้ชีวิตของคุณง่ายขึ้น (หรืออย่างน้อยก็วุ่นวายน้อยลง) กรุณาให้คะแนนเรา! เราสัญญาว่ามันจะทำให้วันของเราดีขึ้น 😊

Related Videos

06 Vector Space Model

Video thumbnail
409855 คำ4m readGrade 10
แชร์
Channel
Conteúdos Jornada Dev Eficiente
Dando continuidade, veremos o Vector Space Model em detalhes. Especificamente, vamos falar sobre o TFIDF, que é uma versão dele. Esse modelo representa documentos e queres como vetores em um espaço multidimensional.
Cada dimensão corresponde a um termo único do corpus. Então, digamos que temos termo um, termo dois, termo três e conectados a eles teríamos os documentos e então tentaríamos ver onde a qu se encaixa. A ideia central aqui é transformar os dados brutos em um formato que possa ser manipulado matematicamente, o que nos permite medir similaridades entre documentos e queries.
Quando falamos sobre vector space model, existem alguns conceitos que precisamos entender. O primeiro são os termos e dimensões. Cada palavra única no corpus representa uma dimensão no espaço vetorial.
Depois temos os vetores em si. Tanto os documentos quanto as queries são representados como vetores, onde cada termo é um componente do vetor. E então temos a similaridade.
A relevância de um documento para uma query é determinada pela similaridade entre seus vetores. Nesse caso, quase sempre medida usando cosine similarity. Cossign Similarity é algo que vamos discutir e aprofundar ao longo do curso.
E na verdade a gente vai ter uma aula específica sobre isso. Mas por enquanto para resumir é o seguinte, você pega os documentos e cria vetores a partir deles. Depois pega uma query também cria um vetor e então analisamos qual é a similaridade entre o vetor da qu e o vetor dos documentos.
A pergunta agora é: beleza, como isso tudo funciona? É aí que entra o TF IDF. que é uma abordagem estatística para o vector space model.
Bom, TFIDF significa term frequency inverse document frequency. É uma estatística numérica que reflete a importância de um termo de documento em relação ao corpus inteiro. Esses dois componentes se conectam diretamente à fórmula.
Primeiro é o term frequence TF. O TF é bem simples, é basicamente em média com que frequência o termo aparece. no documento.
Então, quando olhamos pra fórmula, temos o número de vezes que o termo T aparece no documento D dividido pelo número total de termos no documento. Isso é feito para cada documento. Você pega um documento, olha para aquele termo específico, OK?
Esse termo apareceu X vezes. Já o IDF mede a relevância. O TF diz com que frequência aparece e o IDF diz qual a importância disso no corpus.
Na fórmula, usamos o logaritmo, que é um detalhe técnico, mas o ponto principal é número total de documentos dividido pelo número de documentos que contém o termo T. E aí temos a pontuação de TF IDF. Multiplicamos o TF pelo IDF e podemos realmente calcular isso.
A fórmula é bem simples. Vamos ver dois exemplos. No primeiro exemplo, temos três documentos.
Machine learning é uma área fascinante. Modelos de machine learning são poderosos. Algoritmos deep learning funcionam bem.
A pergunta é: imagine que queremos calcular o TF IDF para a palavra machine, começamos calculando o TF, primeiro o termo frequency, depois o inverse document frequency e então o valor total. Então, calculando para machine, no documento um, machine learning é uma área fascinante. Machine aparece uma vez em seis termos, né?
1/6. No documento 2, modelos de machine learning são poderosos. 1/6.
No documento 3, algoritmos de deep learning funcionam bem. Zero de se então temos 1/6, 1/6 e 0. Esse é o TF da palavra machine nos documentos 1, 2 e 3.
Agora o IDF. Temos três documentos. Em quantos deles aparece machine?
Em dois. Então a fórmula é log 3 por 2 aproximadamente 0. 17.
E se você calcular o TFIDF, documento 1 1/6 x 0. 176, né? 176 = 0.
029. Documento 2 vai ser a mesma coisa. Documento 3, 0.
Agora vamos para o exemplo dois, usando os mesmos documentos. Machine learning é uma área fascinante. Modelos de machine learning são poderosos.
Algoritmos e o deep learning funcionam bem. Vamos calcular para a palavra fascinante. TF para fascinante.
Documento 1, 2 e 3. No um apareceu uma de seis. Documento 2 e 3, 0.
No IDF temos três documentos, apenas um contém fascinante. Então, log 3 por 1 = 0. 47.
TF IDF documento 1 1/6 x 0. 47 = 0. 08 aproximadamente.
Documento 2 e 3 0. E isso é o que importa. Se você estiver procurando por algo relacionado a fascinante, você quer o documento um, os outros não interessam.
Vamos transformar isso numa regra geral. Palavras comuns como são ou nesse exemplo learning frequentemente recebem valores de TF IDF muito baixos ou até zero. Essas palavras são chamadas de stops e geralmente são removidas do corpus antes do processamento.
Isso melhora a eficiência e a precisão das tarefas de recuperação de informação. Para finalizar, o Vector Space Mod é uma ideia intuitiva e ao mesmo tempo poderosa para entender como funciona a recuperação de informação. E tudo isso se conecta com tópicos como Rug e JNAI.
Quando você domina esses fundamentos de sistemas de recuperação, consegue melhorar muito a forma como busca os dados usando Rug ou mesmo aplicando técnicas de prompt engineery. Lembre-se que ter esses frameworks em mente pode ser bem útil. no futuro.
วิดีโอที่เกี่ยวข้อง
BYD Atto 2 First Look Review | Most Affordable EV?
13:24
BYD Atto 2 First Look Review | Most Afford...
PakWheels.com
38K views
Bulbulay Season 2 Episode 339 | 24 Jan 2026 | Comedy | ARY Digital Drama
20:54
Bulbulay Season 2 Episode 339 | 24 Jan 202...
ARY Digital HD
82K views
Saad Rizvi's brother ARRESTED | 10 Years imprisonment to Imaan Mazari | Something happening in Iran?
21:16
Saad Rizvi's brother ARRESTED | 10 Years i...
Mansoor Ali Khan
97K views
Magnus Carlsen needs just 28 moves to beat 2619-rated GM with Black! | World Rapid 2025”
7:07
Magnus Carlsen needs just 28 moves to beat...
The Chess Boy
148 views
What If You Keep Slowing Down?
30:09
What If You Keep Slowing Down?
Veritasium
5.4M views
Xiaomi 17 Ultra - More Camera than Phone!
12:05
Xiaomi 17 Ultra - More Camera than Phone!
Marques Brownlee
2.2M views
I Fooled Villager by Become Heartless in Minecraft..
14:22
I Fooled Villager by Become Heartless in M...
Carry Depie
880K views
Your Heart Is Dying Spiritually | A Wake-Up Call for Everyone | Hisham Abu Yusuf
13:13
Your Heart Is Dying Spiritually | A Wake-U...
Productive Habits
648 views
Motu के Guardian Angels बने उसी क दुसमान | Motu-Patlu
10:50
Motu के Guardian Angels बने उसी क दुसमान |...
Sonic Gang Motu Patlu
954K views
Can two numbers add up to 2 and multiply to 3?
6:36
Can two numbers add up to 2 and multiply t...
bprp math basics
4.2K views
Maa Episode 01 (Subtitles) 19th January 26 | Aina Asif - Ahmed Rafique - Sunita Marshall | Green TV
36:01
Maa Episode 01 (Subtitles) 19th January 26...
Green TV Entertainment
3.8M views
Magnus vs Hikaru: PERFECT CHESS
24:51
Magnus vs Hikaru: PERFECT CHESS
GothamChess
347K views
Maula Hussain Jaan | Nadeem Sarwar, Ali Shanawar & Ali Jee | 2026 / 1447
9:35
Maula Hussain Jaan | Nadeem Sarwar, Ali Sh...
Nadeem Sarwar
763K views
Bangladesh OUT of T20 World Cup 2026! ICC Officially Replaces Bangladesh with Scotland | Jay Shah |
25:11
Bangladesh OUT of T20 World Cup 2026! ICC ...
Muhammad Furqan Bhatti
64K views
Why Purposeful Absence Matters in Islam | Focal Point with Imam Tom Facchine
32:46
Why Purposeful Absence Matters in Islam | ...
Yaqeen Institute
11K views