검색 엔진 개요 & 원리(Search Engine Principle)





acm.org/sigs/sigir/forum/F2002/broder.pdf(pdf 파일)
-미 컴퓨터학회 ACM(Association for Computing Machinery) Special Interest Groups의 34개 분과중 정보 검색/저장/배포(dissemination) 분야 분과 SIGIR의 포럼중 2002년 가을호(Volume 36 Number 2) 알타비스타(AltaVista) 원 개발자중 한 사람인 Dr Andrei Broder의 웹 검색 분류,A Taxonomy of Web Search
.내용 검색(Informational),사이트 검색(Navigational),서비스 검색(Transactional)등의 크게 세가지로 분류 설명
.From the Abstract,Classic IR(information retri eval ) is inherently predicated on users searching for information,the so-called “information need”. But the need behind a web search is often not informational — it might be navigational (give me the url of the site I want to reach) or transactional (show me sites where I can perform a certain transaction, e.g. shop, download a file, or find a map). We explore this taxonomy of web searches and discuss how global search engines evolved to deal with web-specific needs..(8페이지 논문)
/blog.daum.net/nlpir
-자연 언어 처리와 검색에 관한 내용을 다루는 언어 처리와 검색 블로그
.검색,블로그,온톨로지(ontology),인공지능,지능형 로봇,채팅로봇,튜링 테스트등의 태그등
/cs.uiowa.edu/~asignori/pubs/helios
-아이오와 대학교 컴퓨터 공학부 Alessio Signorini의 오픈 소스 메타 검색 엔진 (Helios) 만들기 논문,Building an Open Source Meta-Search Engine
. 초록(Abstract)중-현재 연구결과 웹의 크기는 115억 페이지로 추정되며,주요 검색엔진들 인덱스의 약 28.8%정도가 교차(index intersection)되며,검색 이용자의 44%는 하나의 검색엔진만,48%는 1개 내지 2개의 검색엔진을 이용하며,3개 이상의 검색엔진을 이용하는 사람은 7%에 불과,구글과 야후의 탑텐 검색 결과중 3.8개,탑 100 검색결과중 23%만 같은 결과를 공유하므로 메타 검색 엔진을 사용하므로서 다른 검색엔진들의 통합결과를 알수 있고,검색 위치의 상호 비교가 가능하며,클러스터링/질의.응답/개인화등의 고급 검색 기능을 이용할 수 있다,…<중략>
.제 14회 국제 월드와이드웹 컨퍼런스에서 이태리 피사 대학 정보공학부 Antonio Gulli와 공동 발표(pdf 파일)
/cse.hanyang.ac.kr/~jmchoi/papers/info-gathering/info-gathering.html
-한양대학교 컴퓨터공학과 최 중민 교수의 논문중 1997 정보처리학회지 4권 5호( pp 101-109)에 개재된 인터넷 정보 가공을 위한 에이전트 연구동향
.1서론,2.인터넷 검색엔진(원리)과 에이전트,3.인터넷 정보 여과(information filtering) 에이전트,4.정보통합 에이전트(information integration agent),5.결론,참고문헌등
.2.1 인터넷 검색 엔진에서;<중략>대부분의 검색 엔진은 로봇이 찾아온 문서의 타이틀뿐 아니라 문서 전체의 내용을 인덱싱하는 전문 인덱싱 (full-text indexing) 방법을 택한다.인덱싱(Indexing,색인)은 특정단어에 대해 관련있는 문서들의 링크로 구성되는데 하나 이상의 문서가 같은 단어와 연관이 있을 경우 어느 문서가 더 관련이 있는지를 구별할 필요가 있게 된다.이것은 사용자에게 결과를 출력해 줄 때 가장 우선순위가 높은 것부터 순서대로 보여줄 때 중요한 판단 요소가 될 수 있다.우선순위를 결정하는 데 가장 많이 사용되는 것은 TF-IDF(Term Frequency/Inverse Document Frequency) 알고리즘이다.TF(term frequency)는 한 단어가 한 문서내에 등장하는 횟수를 나타내고 DF(document frequency)는 한 단어가 검색된 N개의 문서의 집합중에서 몇 개 문서에 등장하는 가를 나타낸다.특정 검색어가 한 문서에 많이 나타난다면 그 문서는 해당 검색어에 대해 중요한 문서라고 판단할 수 있지만 여러 문서에 걸쳐 모두 나타난다면 그 단어에 대한 중요도는 떨어진다고 볼 수 있다. 따라서 문서의 우선순위를 구하려면 TF값과 DF의 역인 IDF (inverse document frequency) 값을 곱한 값으로 나타낸다. …<중략>
/ejang.new21.org/blog/tt/index.php?pl=134&ct1=1
-네트워크 유목민 이장님의 블로그중 구글 로그 카테고리의 2002년,12월 3일자 구글 검색 엔진의 해부학[1]
. 구글 개발자 세르게이 브린(Sergey Brin)과 래리 페이지(Lawrence Page)가 스탠포드 대학 박사 과정 중에 쓴 논문 “The anatomy of a large-scale hypertextual web search engin”(검색 엔진의 해부학)을 번역한 자료
.그외 Sergey Brin이 1998년 1월29일 발표한 “The PageRank Citation Ranking: Bringing Order to the Web” 논문을 번역한 구글 페이지 랭크(PageRank)-웹에 순서를 매긴다[1]
emh.co.kr/xhtml/google_search_engine.html
-이명헌 경영 스쿨의 Tech 섹션중 구글 개발자들이 쓴 ‘The anatomy of large scale search engine’ 논문을 번역한 [텍스트 마이닝] 구글 검색 엔진의 해부학
.그외 구글 개발자 서르게이 브린의 논문을 번역한 구글 페이지랭크(PageRank) 알고리듬,(구글의 PageRank 개념인 최초의 링크 분석 개념을 창안한 코넬대학 컴퓨터 과학부) 클라인버그(Jon Kleinberg) 교수의 “Authoritative sources in a hyperlinked environment” 논문을 요약한 링크 구조 기반 검색 앨거리듬(알고리즘),HITS등의 관련 토픽등
/library.kisti.re.kr/admin/infostudy/file/34(2)_Andongun.pdf(pdf 파일)
-한국 과학 기술 정보 연구원 KISTI 발행 계간 정보 관리 연구(情報管理硏究) 2003년 6월호(V.34 N.2)에 게재된 안 동언 교수/강 인호의 “정보 검색 시스템의 문서 순위 결정”(Document Ranking of Web Document Retri eval  Systems)
. 첫째 원하는 정보를 설명하는 혹은 정보와 관련된 문서를 찾는 내용 검색(Informational),둘째는 사용자가 관심있어 하는 개인이나 단체의 사이트 입구를 찾는 사이트 검색(Navigational),셋째는 사용자가 관심 있어 하는 서비스를 제공하는 웹페이지를 찾는 서비스 검색(Transactional)을 들 수 있다. 본 논문에서는 이러한 사용자의 정보 요구 목적에 따라서 문서 순위화가 달라져야 함을 보인다……..
metamend.com/search-engine-map.html
-검색 엔진 최적화 기업 Metamend(캐나다 BC주 빅토리아)의 검색 지도(map)와 검색 엔진 기초
.주요 검색엔진과 디렉토리 (상세) 리뷰와 검색 엔진 스파이더/봇등의 검색 엔진 개요,검색 엔진 알고리즘(Algorithm)이란,검색엔진과 디렉토리의 전체수는(약 삼십만개정도),Metamend를 모니터하는 검색 엔진의 수는(약 100여개)등
. 그외 검색 엔진 최적화(SEO) 기초 팩트(Facts),최적화 단계,Click Popularity/PPC(Pay Per Click or Search Engine Placement)/메타태그등의 일반사항,검색엔진에서의 사이트 순위/Search Engine Positioning(위치)/검색엔진 전략/웹사이트 제작 전략등의 중요 전략,스파이더나 봇에게 다른 내용을 인지하게하는 Cloaking/Spam등의 최적화의 적,Link Popularity란/구글과 링크/Reciprocal Link등의 Link it Up,FAQ/용어사전등의 SEO 리소스
openindex.org
-오픈 소스 인터넷 인덱스 커뮤니티 Openindex.org(캐나다 밴쿠버)
.인덱스의 개요,공동의 인터넷 자산 방어(Defending the Commons),이상적 색인기(Ideal Index)란,Public Index 디자인,검색 엔진 하우-투&최적화/웹 색인&검색/관련 학회&저널/정치&사회 이슈/검색&인덱싱 기술/Review & Compilation/오픈 소스 관련/라이센서(특허,지적 자산,..)/프로젝트/크롤러&스파이더등의 관련 사이트 링크등
searchengines.co.kr
-검색엔진 정보
.검색 엔진과 데이터베이스,주제별 검색엔진/키워드형 검색엔진/메타 검색엔진(지능형 검색엔진) 개요,검색엔진의 동작 원리(로봇,인덱스,Search Engine Software,검색 알고리즘)등의 검색 엔진이란,
.국내 8대 검색 엔진 홈페이지 등록 정보등
. 검색엔진의 동작 원리중 Index 부분 <중략>”robot(봇)이 웹페이지를 방문하여 읽여진 모든 내용은 index에 저장됩니다. Index는 catalog라고 불려지기도 합니다. Index는 robot이 정리한 web page의 내용을 담고 있는 DB입니다. robot이 과거에 방문했던 웹페이지를 다시 방문 했을 때 해당 page가 갱신 되었다면 robot은 이 정보를 index로 보내어 index의 내용을 갱신 합니다. 해당 웹페이지가 index되지 않으면 그 내용은 해당 Search Engine 에서는 유효하지 못합니다. Index 가 이루어 지고 나서야 비로소 Internet 이용자들은 해당 웹 페이지의 내용이나 새로운 변경 사항을 인지할 수 있습니다”….
searchtools.com
-검색 엔진 개발자에게 필요한 정보와 분석 서비스를 제공하는 Search Tools Consulting(캘리포니아 버컬리)의 Avi Rappoport의 웹사이트 검색 기술(검색 엔진 솔류션)에 관한 정보,뉴스,어드바이스 사이트
. 검색엔진 프로그램/인덱스 파일(색인기)/검색 폼(창)/검색 결과 목록등의 사이트 내(Logal Site) 검색 툴 요소(Part) 정의,검색을 위한 사이트 준비,사이트 검색 툴(검색 소프트웨어)선정 방법,검색 이슈 도표와 CGI 프로그램/펄 스크립트/서버 플러그인/자바 애플리케이션/자바 서버렛/검색 서버등의 사이트 검색 엔진 타입(Type)&적합성&검색 옵션들,Local File Indexer/Robot Spider Indexer/Updating Robot Indexes/Dynamic Elements/Duplicate Files/Controlling Robot Indexing/Index Format/기타 인덱스 이슈등의 사이트 검색 인덱싱,검색 사용자 경험,유지&보수,검색 로그 분석과 기타 관련서적/기사/리포트,검색 관련 링크,뉴스그룹&메일링리스트,교육프로그램,검색 엔진(툴)리뷰,알파벳별 상용 검색 툴(검색엔진 소프트웨어) 리스트등의 가이드
.검색 엔진 소프트웨어(Search Tool) 뉴스,검색 툴 개요/가이드/용어사전/뉴스/개요/리뷰/컨퍼런스&미팅/스페셜 보고서(Leveraging Human Judgment,데이터베이스 텍스트 정보 검색,분류,..)/스페셜 파일 포맷 검색(PDF,MP3검색,시각화,인덱싱 로봇 테스트,..)등의 백그라운드 정보,
.Blossom Search/Coveo Enterprise Search/S.L.I. Search/Spiderline/FusionBot/Datagold MiniSearch /IndexMySite/siteLevel /Atomz/FreeFind/MondoSearch/PicoSearch/Thunderstone Webinator등의 라이브 Remote Search Service 예제들
.그외 스페셜 파일 포맷 검색중 웹인덱스 로봇과 스파이더의 모든것 All About Search Indexing Robots and Spiders
wisenut.co.kr/about_search_2.htm
-코리아 와이즈넛의 검색이란
. 디렉토리/웹검색/이미지검색/지식검색이란,검색엔진은 어떻게 작동하는가(크롤링,..인덱스(는 크롤링 과정에서 정리한 웹페이지의 내용을 담고 있는 데이터베이스입니다),..서칭,..),검색에 쓰이는 기술들,원하는 것을 빠르고 쉽게 찾기 위한 팁,나의 사이트를 검색 결과에 상위 랭크하려면등
.그외 자료실의 기술연구소 윤종완 팀장이 2004년 2월호 월간 마이크로소프트에 게재한 검색 엔진 분석 2 검색엔진을 들여다 보자

.지디넷(ZDNET)의 빌더 (섹션)>개발>웹 개발중 2005/04/13자 Robert L. Bogue(TechRepublic)의 웹사이트,검색엔진과 친해지는 방법
.그외 탑 키워드(Top Keyword) 서비스중 검색 엔진

답글 남기기