모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 게시물ID : programmer_19534
    작성자 : 멋쟁이슈도
    추천 : 0
    조회수 : 1779
    IP : 211.200.***.192
    댓글 : 8개
    등록시간 : 2017/01/10 23:09:51
    http://todayhumor.com/?programmer_19534 모바일
    php를 이용한 검색엔진
    옵션
    • 창작글
    • 본인삭제금지
    안녕하세요.
    php를 이용하여 예전에 만들어본 검색엔진 코드입니다.
    모델은 벡터모델을 이용하여 제작하였습니다.
    랭킹은 바이그램 색인을 이용하여 역색인 파일을 만들고
    가중치를 tf*idf로 계산하였습니다.
    단점으로는 단어간의 독립성으로 인해 발생하는 문제를 해결하진 못했습니다.. ㅠㅠ
     
    알고리즘입니다.
    1. 검색을 하기 전 문서 DB를 만든다(Make_DB()). 문서 DB는 크롤러를 통해 수집할 수도 있지만 없기에 직접 DB에 입력하기로 했다.
    2. 만들어진 문서 DB를 토대로 바이그램을 하여 역색인 단어 DB를 만든다 (Rever_DB())
    3. 2의 단계까지 검색 전 데이터 셋을 만드는 과정이다. 이후 index페이지에서 검색을 한다.(Input())
    4. 검색 시 Rever_DB에서 단어를 찾고 그 결과를 저장한다.
    4. 저장한 값을 가중치를 통해 순서를 정한다 (Rank())
    5. 순서가 결정된 검색 순서대로 출력을 한다. (Output())
    6. 만약 검색 시 DB에 단어가 없다면 검색된 단어가 없다고 출력을 한다. (NoData)
     
    이러한 알고리즘을 기반으로 다음과 같이 코딩했습니다.
     
    ---------------------------------------------Index.php----------------------------------------------
    <!-- 다음은 첫 화면 페이지를 나타냅니다. -->
    <html>
    <head>
    <title>검색</title> <!-- 제목 -->
    <meta charset="utf-8">
    </head>
    <body>
    <form method="post" action="search.php" align="center"> <!-- 폼 크기 설정 -->
    <div id="logo" style="color:rgb(121, 165, 228); width:100% text-align:center">
    <h1>검색 사이트 입니다.</h1>
    </div>
    <input type="text" name="search" style="border:10px solid rgb(121, 165, 228); background-color:rgb(219, 232, 251); padding:10px;"/>
    <input type="submit" value="검색" style="width:100px; height:55px;"/>
    </form>
    </body>
    </html>
     
    --------------------------------------------Rever.php----------------------------------------------
    <!-- 다음은 문서 DB의 본문내용을 역색인 파일로 만듦니다. -->
    <?php
    header("Content-type: text/html; charset=utf-8");
     

    $conn = mysql_connect("localhost", "root", "apmsetup") or die(mysql_error()); // DB접속
     

    mysql_select_db("G"); // DB 선택
    mysql_query("SET NAMES 'utf8'"); // DB charset과 맞춤
     

    $tablename = "doc"; // Table 선택
    $sql = "select * from $tablename"; // table의 모든 데이터를 가져옴
    $result = mysql_query($sql) or die (mysql_error()); // 쿼리문 시작
     

    $tablename1 = "rever";
    $sql1 = "select * from $tablename1"; // table의 모든 데이터를 가져옴
    $result1 = mysql_query($sql1) or die (mysql_error()); // 쿼리문 시작
     

    function mb_str_split($str){
     

    $ret = array();
     

    for ($i=0; $i<mb_strlen($str, "utf-8"); $i++){
     

    array_push($ret, mb_substr($str, $i, 2, "utf-8"));
     

    }
    return $ret;
    }
    //$row = mysql_fetch_array($result)
    //$row1 = $row
    while($row = mysql_fetch_array($result))
    {
    $dnoun_tmp = preg_replace("[\(|\)|\|\ |\[|\]|\{|\}|\,|\.|\·|\?|\!|\'|\\|\"]", "", $row[content]);
    $arr = mb_str_split($dnoun_tmp);
    $a = count($arr);
    //echo $arr[1];
    for($i = 0; $i <$a; $i++)
    {
    $sql = "INSERT INTO `g`.`rever` (
    `num` ,
    `text` ,
    `doc_num`
    )
    VALUES (
    NULL , '$arr[$i]', '$row[doc_num]'
    );";
    $result1 = mysql_query($sql) or die (mysql_error());
    }
    }
    ?>
    --------------------------------------------Search.php---------------------------------------------
    <!-- 다음은 index.php에서 Post로 전달받은 값을 질의어로하여 검색을 합니다. -->
    <?php
    header("Content-type: text/html; charset=utf-8"); // DBcharset을 맟춤
    $conn = mysql_connect("localhost", "root", "apmsetup") or die(mysql_error()); // DB접속
    mysql_select_db("G"); // DB 선택
    mysql_query("SET NAMES 'utf8'"); // DB charset과 맞춤
    $tablename = "doc"; // 문서 Table 선택
    $sql = "select * from $tablename"; // table의 모든 데이터를 가져옴
    $result = mysql_query($sql) or die (mysql_error()); // 쿼리문 시작
    $tablename1 = "rever"; // 역색인 파일 Table 선택
    $sql1 = "select * from $tablename1"; // table의 모든 데이터를 가져옴
    $result1 = mysql_query($sql1) or die (mysql_error()); // 쿼리문 시작
    function mb_str_split($str){ // 이 함수는 한글을 2글자씩 잘라서 배열에 넣음
    $ret = array();
    for ($i=0; $i<mb_strlen($str, "utf-8"); $i++){
    array_push($ret, mb_substr($str, $i, 2, "utf-8"));
    }
    return $ret;
    }
    ?>
    <html>
    <head>
    <title>Search</title>
    <meta charset="utf-8">
    </head>
    <body>
    <form method="post" action="search.php" align="center"> <!--검색 시 search에게 post로 보냄-->
    <div id="logo" style="color:rgb(121, 165, 228); width:100% text-align:center">
    <h1>검색 사이트 입니다.</h1>
    </div>
    <input type="text" name="search" style="border:10px solid rgb(121, 165, 228); background-color:rgb(219, 232, 251); padding:10px;"/>
    <input type="submit" value="검색" style="width:100px; height:55px;"/>
    </form>
    </br>
    <?php
    echo "<table align = 'center' width='1000px'>";
    echo "<tr><th>$_POST[search]"; // post로 넘어온 값을 띄워줌
    echo"의 검색결과";
    echo "입니다.</th></tr>";
    $ct; // TF 저장 공간
    $q; // 질의문
    $doc_num; // 문서 번호 저장 공간
    $content; // 문서 내용 저장 공간
    $title; // 문서 재목 저장공간
    $url; // 문서 url 저장 공간
    $w = 0; // 처음 시작 지점 설정 변수
    $ftitle; // 최종 출력할 제목
    $furl; // 최종 출력할 url
    $fcontent; // 최종 출력할 문서 내용
    $fdoc_num; // 최종으로 저장할 문서의 번호
    $input = $_POST[search]; // 질의어를 저장하는 변수
    $dnoun_tmp = preg_replace("[\(|\)|\|\ |\[|\]|\{|\}|\,|\.|\·|\?|\!|\'|\\|\"]", "", $input); // 질의어의 빈칸을 없앰
    $query = mb_str_split($dnoun_tmp); //질의어를 2글자로 자름
    $qq = count($query);
    while($dd = mysql_fetch_array($result1)) // 역색인 파일을 검색함
    {
    if ($dd[text]==$query[0]) // 질의어와 역색인 파일이 같다면
    {
    if($w==1)
    {
    for($i=0; $i < $c; $i++) // 검색된 내용 비교하여 저장
    {
    if($doc_num[$i] == $dd[doc_num]) // TF증가
    {
    $ct[$i] ++;
    break;
    }
    if($doc_num[$i] != $dd[doc_num]) // for문 제어
    {
    $hh++;
    }
    if($hh == $c) // 새로운 색인어가 들어온다면 새로 단어 저장
    {
    $q[$c] = $input;
    $doc_num[$c] = $dd[doc_num];
    $ct[$c] ++;
    while($row = mysql_fetch_array($result)) // 역색인DB를 이용하여 postDB생성
    {
    if($doc_num[$c]==$row[doc_num])
    {
    $title[$c] = $row[title];
    $content[$c] = $row[content];
    $url[$c] = $row[url];
    break;
    }
    }
    }
    }
    }
    $hh = 0;
    if($w==0) // 초기 시작
    {
    $q[0] = $input;
    $doc_num[0] = $dd[doc_num];
    $ct[0] ++;
    $w++;
    while($row = mysql_fetch_array($result)) //index파일의 문서번호를 이용하여 본문 문서 내용 저장
    {
    if($doc_num[0]==$row[doc_num])
    {
    $title[0] = $row[title];
    $content[0] = $row[content];
    $url[0] = $row[url];
    break;
    }
    }
    }
    $c = count($doc_num); //배열의 길이
    }
    }
    if($c == 0) // 검색결과 없을 시
    {
    echo "<tr><th>검색된 결과가 없습니다.</th></tr>";
    }
    if ($c!=0) // 검색결과 있을 시
    {
     

    $fct=$ct;
    rsort($fct);
    $m = log(100/$c, 2);
    for($j=0; $j<$c; $j++) //검색된 문서들을 백터 모델로 랭킹함
    {
    for ($l = 0; $l < count($fct); $l++)
    {
    if($fct[$j]==$ct[$l])
    {
    if($fdoc_num[$j] == NULL)
    {
    $cal[$j] = $ct[$l];
    $ct[$l]=NULL;
    $fdoc_num[$j] = $doc_num[$l];
    $ftitle[$j] = $title[$l];
    $furl[$j] = $url[$l];
    $fcontent[$j] = $content[$l];
    }
    }
    }
    }
    for($j = 0; $j < $c; $j++) //검색된 문서들을 랭킹함
    {
    $n = 1 + log($fct[$j], 2);
    $kk = $n * $m;
    $kkk[$j] = $kk * $kk;
    $kkkk = $kkkk+$kkk[$j];
    $kkkkk[$j] = $n / sqrt($kkkk);
    }
    for($j = 0; $j < $c; $j++) // 랭킹된 결과 출력
    {
    if($c>6) // 5개 이상 출력 될 경우
    {
    for($j = 0; $j < 5; $j++)
    {
    $n = 1 + log($fct[$j], 2);
    $kk = $n * $m;
    $kkk = cos($kk);
    echo "<tr><td width='47%' align='left'>";
    echo $ftitle[$j];
    echo "</td>";
    echo "<td><a href='$url'>";
    echo $furl[$j];
    echo "</a></td></tr>";
    echo "<tr><td colspan='2' >";
    echo $fcontent[$j];
    echo "</tr></td><tr><td>";
    echo $kkkkk[$j];
    echo "</tr></td><tr><td colspan='2' ><hr></tr></td>";
    }
    break;
    }
    else //5개 이하일 경우
    {
    $n = 1 + log($fct[$j], 2);
    $kk = $n * $m;
    $kkk = cos($kk);
    echo "<tr><td width='47%' align='left'>";
    echo $ftitle[$j];
    echo "</td>";
    echo "<td><a href='$url'>";
    echo $furl[$j];
    echo "</a></td></tr>";
    echo "<tr><td colspan='2' >";
    echo $fcontent[$j];
    echo "</tr></td><tr><td>";
    echo $kkkkk[$j];
    echo "</tr></td><tr><td colspan='2' ><hr></tr></td>";
    }}}
    ?>
    </body>
    </html>
     
    실제 동작 화면입니다.
    실행화면.jpg
     

    결론으로는
    손으로 뉴스 100개를 일일히 넣는건 고난이었습니다...
    왜 크롤러가 있는지 알게된 날이었습니다. 
    출처 내 손손

    이 게시물을 추천한 분들의 목록입니다.
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    23458
    [KOCCA] 2024 게임콘텐츠 제작지원 이용자평가 체험단모집 장파랑 24/11/26 16:56 249 0
    23457
    [한국콘텐츠진흥원] 2024 게임콘텐츠 제작지원 이용자평가 이용자 모집 장파랑 24/11/18 14:02 333 0
    23456
    [한국콘텐츠진흥원] 2024 게임콘텐츠 제작지원 이용자평가 이용자 모집 장파랑 24/10/28 18:24 797 0
    23455
    논문 읽는 사람들을 위한 문서 번역 서비스 rWhale 24/10/10 13:06 1084 2
    23453
    로또번호 [2] 까망사투리 24/09/19 11:10 1537 2
    23452
    AI와 함께가는 코딩 업계 [1] 펌글 우가가 24/09/02 22:19 1933 9
    23451
    Switch문 도배된 2100줄 짜리 함수 [3] 펌글 우가가 24/08/26 22:37 1828 4
    23450
    개인정보 수집 없는 이미지 리사이즈 사라밍 24/08/23 20:31 1329 0
    23449
    디자인 패턴의 템플릿 메소드 패턴 실무 적용 사례 써니썬 24/08/23 16:47 1341 1
    23448
    TMDB API Key 얻을 때 동의하게 되는 면책 및 포기 조항 우가가 24/08/18 16:07 1355 1
    23447
    펌) 아무튼 개쩌는 번역기를 국내기술로 개발완료 했다는 소식 [1] 펌글 우가가 24/08/15 17:30 1613 2
    23446
    쿠팡 가격 변동 추적 알림 서비스 피드백 요청 (제발) 창작글펌글 애오옹 24/08/10 14:30 1513 0
    23445
    넥사크로 17.1 관련 [2] 본인삭제금지 나르하나 24/08/01 12:30 1556 0
    23444
    개밯자 의자에 머리받침 없어 [1] 까망사투리 24/07/25 13:32 1882 1
    23443
    안드로이드 EditText 리스너 연동 문의드립니다. - 해결됨 [1] 창작글 상사꽃 24/07/01 17:47 1818 2
    23442
    펌) 파이어폭스 엔진이 신인 이유 [1] 펌글 우가가 24/06/30 23:25 2396 2
    23441
    예전에는 함수 하나에 대한 기능에 고민을 많이 했는데.. ssonacy 24/05/21 09:45 2192 0
    23440
    c++ 에서 DB 쿼리문처럼 사용할 방법이 있을까요? [8] 상사꽃 24/05/19 11:10 2339 0
    23439
    쉬운 배터리 알림 창작글 언젠가아자 24/05/14 10:47 2487 0
    23438
    아후 서터레스 [1] NeoGenius 24/04/02 17:52 2175 1
    23436
    로또 [3] 까망사투리 24/03/11 15:53 2817 4
    23434
    copilot 기업유료버전 intelliJ에 붙여서 쓰고있는데 지리네요 안녕월드 24/02/22 00:15 2848 0
    23433
    코딩마을 대나무숲 [6] cocoa 24/02/20 14:50 3014 5
    23432
    (질문) 프로그래머분들은 싱글PC게임 레벨제한 풀수 있죠?? [23] 본인삭제금지 할배궁디Lv2 24/02/13 13:36 3016 1
    23431
    Freemium NeoGenius 24/02/13 13:23 2474 0
    23429
    부산에서 프로그래머 구인하는데 연봉 6천에서 8천 작은건가 [3] 폴팡 24/02/04 20:50 3334 1
    23427
    chatgpt? bard? [4] 별빛러브 24/01/25 06:24 2615 0
    23426
    Next.js로 만들어봤어요~ [2] 창작글 sonnim 24/01/24 12:52 2829 3
    23425
    Spring Boot 공부하기 - 한국투자증권 오픈API 호출 옐로우황 24/01/21 17:51 2854 1
    23424
    파이썬 코딩 관련해서 질문드립니다. [5] 투투나 24/01/08 09:49 2936 0
    [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [다음10개▶]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈