
2026年03月16日AI(AIエージェント)
Gemini Embedding 2 を試してみた
要約・抽出情報
はじめに マルチモーダル検索を実装しようとしたとき、これまでは以下のような前処理が一般的でした。 画像: Vision モデルでキャプション(説明文)を生成してテキスト化 PDF: OCR でテキストを抽出。pdf2txt みたいなことをして Chunking 音声: 文字起こし (STT) しかし、Google の最新モデル gemini-embedding-2-preview は、これらを同一のベクトル空間にマップできるそうです。すごいですね。 https://blog.google/innovation-and-ai/models-and-research/gemin...
この記事の詳細はオリジナルサイトでご確認ください
オリジナルサイトで読む